The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages
Møte om samansetjingar i språka våre
Her er alle dei opne Bz-meldingane eg har funne som handlar om samansetjingar:
Kategoriar:
kompatibilitet mellom språk
xfst vs. hfst Normativ analysator (analyser-gt-norm.*) tillet meir enn stavekontrollen (tools/spellcheckers/fstbased/desktop/analyser-desktopspeller-gt-norm.hfst)
stavekontrollen har to typar avgrensingar:
+CmpN/*
- SgGen, SgNom, osb+CmpNP/*
- First, Last, Prefix, None, Only, …Dei normative analsyatorane avgrensar med leksikon og +Err-taggar.
Både form- og posisjonstaggane blir konvertert til flaggdiakritika. Dei finst berre på oversida. For å få dei på begge sidene bruker vi opersjonen dobbeltsidig-tag, slik at eit flagg på ei side blir overført også til den andre sida.
Denne operasjonen krasjar på Xerox. Samtidig er Xerox raskast.
Denne hfst-konfigurasjonen er den raskaste, i snitt ca 2,5 gonger Xerox:
$ ./configure --with-hfst --without-xfst --enable-reversed-intersect --enable-alignment --with-backend-format=foma
Alle -norm-fst-ar bortsett frå med Xerox skal ha same oppførsel som stavekontrollane, dvs at +CmpN-taggane blir teke omsyn til. Dette betyr at Hfst og Xerox-fst-ane ikkje lenger er like, fordi Hfst vil bli meir restriktiv enn Xerox.
Sjur legg inn endringane som trengst.
Vi vil ha møte for å diskutera normativitet for samansetjingar:
Dán illu boddui lei son čiŋadan sámi gávttiin , ja dasa lassin lei son ivdnehahttán vuovttaid alit fiskadin , nugo juo Álttá ivnnit leat .
"<illu boddui>"
"illuboddu" N Sem/Time Sg Ill Err/SpaceCmp <W:0> @ADVL> MAP:16752 &msyn-compound #2->2 ADD:8933:compound
msyn-compound
"illuboddu" N Sem/Time Sg Ill <W:0> @ADVL> MAP:16752 &SUGGEST #2->2 COPY:8935:compound
illuboddu+N+Sg+Ill illuboddui
* ** "boddu" N Sem/Time Sg Ill <W**: 0> "<boddui>"
* ** "illu" N Sem/Perc-emo Sg Nom <W**: 0> "<illu>"
:
Analyse for samansetjingsfeil bør vi køyre gjennom heile korpuset, for dels å sjå slike feil, sjå om vi kan få betre syntaktiske analyser, og få betre grunnlag for grammatikkontrollarbeidet. Vi kjører først parallelt med xfst-analyse, og for å sammenlikne resultatet og evt. finne ting som må rettes opp.
Sjur har meir sans for gramktrl-klitikonhandsaming enn det som blir gjort i Apertium, men ut over det veit vi for lite om skilnadene.
Plan framover: hfst-tokenize på beina hos oss: Først i grammatikkontrollen, og deretter i korpusanalyse. Deretter kan vi evt. gå attende til MT og sjå om vi har noko betre å tilby.