Language Technology at UiT The Arctic University of Norway

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Page Content

Møte om MWE 20.3.2018

Feilskrivne fleirordsuttrykk (manglande mellomrom)

Korleis skal vi handtera (feilskrivingar av) fleirordsuttrykk, og særleg dei som ikkje er ekte fleirordsuttrykk, men der vi ynskjer analyse av kvart enkelt ord?

Utgangspunkt: analysen og leksikonoppføringa av viđa jagi vs *viđajagi vs viđa + jagi

Fyrst;

viđajagi+Err/Lex:viđajagi adv ;

Deretter:

viđa% jagi+Err/Orth:viđajagi adv ;
viđa% jagi:viđa% jagi adv ;

Problemet med den siste over er at vi då får berre adv-analysen av viđa jagi, istf analysen av kvart enkeltord.

Løysinga er å koda slike feilskrivne fleirordsuttrykk slik:

< {viđa} "@P.Pmatch.Backtrack@" { jagi}> adv-time ;
viđa% jagi+Err/MissingSpace:viđa∑#jagi adv-time ;

Tilsvarande for sma: daen biejjien (korrekt) vs daenbiejjien (feil). Dette kan fangast opp på denne måten for òg å få opp korrekt analyse av enkeltorda når uttrykket er skrive som to separate ord:

< {daen} "@P.Pmatch.Backtrack@"       { biejjien}> adv ;
   daen% biejjen+Err/MissingSpace:daen∑#biejjien adv ;

Korrekt måte å tagge leksikalsierte feilskrevne MWE uttrykk på

Frå sme/root.lexc:

Eksisterande bruk av det symbolet:

< {Guovdageainnu} "@P.Pmatch.Backtrack@" { suohka} n:"n9" "+MWE":0 > LONDON-org ;
gii@P.Pmatch.Backtrack@% nu+MWE+Pron+Indef+Sg+Nom:gii@P.Pmatch.Backtrack@% nu # ;

MWE-taggen

viđa% jagi+MWE:viđa% jagi adv ;

Eksempel på +MWE for MT:

Sámegiela% ja% sámi% girjjálašvuođa% mastergrádaoahppu+MWE+CmpNP/None:Sáme#giela% ja% sámi% girjjálašvuođa% master#gráda#oahppu MARJA-U-obj ;

Fra Gïelegaaltije: Propernoun

Peedagogihke-psykologihke% viehkie+MWE:Peedagogihke-psykologihke%  viehk N_IE; ! «Collection:Dååhkesjahteme_skole» «Education:pedagogisk-psykologisk tjeneste»

LIA-materiale

Det blir no lagt inn med +Err/Lex:

meieri+Err/Lex+Sem/Org:meieri STAHTA ;  !LIA
medleamma+Err/Lex+Sem/Hum:medleam'ma GOAHTI-A ;  !LIA
øyeblihkka+Err/Lex+Sem/Time:øyeblihkka GOAHTI-A ; !LIA
teve+Err/Lex+Sem/Dummytag:teve STAHTA ;  !LIA

nittensyvogtredve+Num+Sg+Nom+Err/Lex:nittensyvogtredve K ; !LIA
tredve+Num+Sg+Nom+Err/Lex:tredve K ; !LIA
syvogtredve+Num+Sg+Nom+Err/Lex:syvogtredve K ; !LIA
førti+Num+Sg+Nom+Err/Lex:førti K ; !LIA

Det er ei ok løysing inntil vidare.