The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages
For samiske språk blir samansetjingar avgrensa i to dimensjonar: etter mogleg posisjon, og etter moglege samansetjingskasus. I lexc-filene er avgrensingane merka med taggar, og dette dokumentet skildrar korleis vi kan gå frå slike taggar (som ikkje i seg gjer noko som helst) til ei fungerande avgrensing, ved å konvertera taggane til flagdiakritika i lag med andre flaggdiakritika.
Flaggdiakritika: ord+@U.CmpFirst.TRUE@ + @P.CmpFirst.FALSE@ (R)
Flaggdiakritika: ord+@P.CmpLast.TRUE@ + @D.CmpLast.TRUE@ (R)
Flaggdiakritika: @P.CmpNone.FALSE@ (R) + ord+@D.CmpNone.FALSE@
= middle, dvs kan berre stå som del av samansetjing inne i samansetjinga, dvs ikkje fyrst og ikkje sist. Men kan stå åleine.
Flaggdiakritika:
@U.CmpOnly.FALSE@ (root) + ord+@U.CmpOnly.TRUE@ +
@D.CmpOnly.TRUE@ (ENDLEX) + @C.CmpOnly@ (R)
Som compfirst(?).
Kva gjer vi med ord som har fleire verdiar? T.d. First + Last? Vi gjer ingen ting, kvar tagg blir konvertert til tilsvarande flaggdiakritika, og det er alt.
NB! Dette må testast, slik at vi veit at det faktisk funkar!
For å sjekka at avgrensingane funkar, prøv desse orda:
Ord som er tagga i leksikonet berre for dette formålet (skal eigentleg vera utan CmpN-taggar, taggane må fjernast etter at testinga er over):
Ord som har passande taggar frå før:
Seinare.