Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Page Content

Møte om bug 2377

Til stede: Sjur, Ciprian, Trond, Thomas, Linda, Lene

Saksliste:

Taggambiguitet

Det er problemtatisk for Korp at det er ambiguitet mellom en del tagger. F.eks. er søkefunksjonen som er mest brukervennlig, er å søke etter “inneholder Nom” som .Nom. eller .Ess.

Taggene:

Vedtak: endra taggane i Korp (og berre der). Endra taggar: sjå over.

Eksempel på hva som er bra i CG:

Eksempel på hva som er dårlig i CG:

Problematisk:

Vi endrar ingen ting i lexc eller CG (i alle fall ikkje no).

Dobbelttagga POS-taggar

Dobbeltagga POS (NN, VV, etc) - heller prefiks?

Vedtak:

Semtaggar og kompileringstid

Taggane blir endra:

Eit undersett av dei genererte taggane, nemleg dei semantiske taggane, bir drege ut, og lista skal heretter bli lagra i svn + ein opsjon som gjer at ein kan slå av bygginga av semtagg-lista.

Det vil gjera det slik at ein ikkje treng å byggja semtagg-lista og regexar baserte på den om ein ikkje vil, og berre når det kjem ny versjon i svn vil ein byggja desse på nytt.

Generelt om kompileringstid

Grammatikkontroll-config:

./configure --with-hfst --without-xfst --enable-grammarchecker --enable-tokenisers --enable-alignment --enable-reversed-intersect --enable-morpher

Tek under 13 min for Sjur (utan twolc-kompilering)

Apertium-config:

./configure --with-hfst --without-xfst --enable-alignment --enable-reversed-intersect --enable-apertium --with-backend-format=foma

Tek ca 11 min for Sjur.

Optimalisering: --with-backend-format=foma

Tvingar Hfst til å bruka eit uvekta fst-format, som igjen gjer at Foma blir brukt til kompileringa der det er mogleg. Både Foma og mangel på vektar gjer at det går raskare.

NB!!! Om ein endrar backend-format, ein køyra make clean fyrste gongen, for å unngå feilmeldingar pga fst-ar av ulikt format.