The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages
View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no
Møte om bug 2377
Til stede: Sjur, Ciprian, Trond, Thomas, Linda, Lene
Saksliste:
Det er problemtatisk for Korp at det er ambiguitet mellom en del tagger. F.eks. er søkefunksjonen som er mest brukervennlig, er å søke etter “inneholder Nom” som .Nom. eller .Ess.
Taggene:
Vedtak: endra taggane i Korp (og berre der). Endra taggar: sjå over.
Eksempel på hva som er bra i CG:
Eksempel på hva som er dårlig i CG:
Problematisk:
Vi endrar ingen ting i lexc eller CG (i alle fall ikkje no).
Dobbeltagga POS (NN, VV, etc) - heller prefiks?
Vedtak:
Taggane blir endra:
Eit undersett av dei genererte taggane, nemleg dei semantiske taggane, bir drege ut, og lista skal heretter bli lagra i svn + ein opsjon som gjer at ein kan slå av bygginga av semtagg-lista.
Det vil gjera det slik at ein ikkje treng å byggja semtagg-lista og regexar baserte på den om ein ikkje vil, og berre når det kjem ny versjon i svn vil ein byggja desse på nytt.
Grammatikkontroll-config:
./configure --with-hfst --without-xfst --enable-grammarchecker --enable-tokenisers --enable-alignment --enable-reversed-intersect --enable-morpher
Tek under 13 min for Sjur (utan twolc-kompilering)
Apertium-config:
./configure --with-hfst --without-xfst --enable-alignment --enable-reversed-intersect --enable-apertium --with-backend-format=foma
Tek ca 11 min for Sjur.
Optimalisering:
--with-backend-format=foma
Tvingar Hfst til å bruka eit uvekta fst-format, som igjen gjer at Foma blir brukt til kompileringa der det er mogleg. Både Foma og mangel på vektar gjer at det går raskare.
NB!!! Om ein endrar backend-format, MÅ ein køyra make clean
fyrste
gongen, for å unngå feilmeldingar pga fst-ar av ulikt format.