Møte om bug 2377
Til stede: Sjur, Ciprian, Trond, Thomas, Linda, Lene
Saksliste:
- Taggambiguitet
- Dobbelttagga POS-taggar
- Semtaggar og kompileringstid
- Generelt om kompileringstid
Taggambiguitet
Det er problemtatisk for Korp at det er ambiguitet mellom en del tagger. F.eks. er søkefunksjonen som er mest brukervennlig, er å søke etter “inneholder Nom” som .Nom. eller .Ess.
Taggene:
- Actio Ess, Actio Nom, Actio Loc, Action Com osv (ambigiøst med Ess, Nom) => Actioess, Actionom, Actioloc, Actiocom
- NomAg (ambigiøst med Nom) => Nmag
- VGen => Vgen
Vedtak: endra taggane i Korp (og berre der). Endra taggar: sjå over.
Eksempel på hva som er bra i CG:
- CG regler som slår (og skal slå) både ved Actio Loc og Loc
- verb valens med Actio Loc og Loc
Eksempel på hva som er dårlig i CG:
- CG regler som slår til på Ess og treffer både verb (Actio Ess) og substantiv Ess
Problematisk:
- Nom og NomAg er begge substantiver
- Mulig streng +N+NomAg+Sg+Nom
Vi endrar ingen ting i lexc eller CG (i alle fall ikkje no).
Dobbelttagga POS-taggar
Dobbeltagga POS (NN, VV, etc) - heller prefiks?
Vedtak:
- Ex/N, Ex/A, Ex/V, …
- Ex = “tidlegare” “/” som i derivasjonskonvensjonen vår, og deretter original (“tidlegare”) ordklasse
- Resultatet blir at vi får apertiumtaggen direkte:
etc.
Semtaggar og kompileringstid
Taggane blir endra:
- I functions.cg3
- I disambigation.cg3
- CG frå giella til apertium: map semtag med liten forbokstav
- Her bør vi heller gjere for CG som vi gjer for fst
- ha automatisk overgang frå t.d. +Sem/Hum til
, for alle taggar - deretter, i ei separat fil, endre til
osb.
Eit undersett av dei genererte taggane, nemleg dei semantiske taggane, bir drege ut, og lista skal heretter bli lagra i svn + ein opsjon som gjer at ein kan slå av bygginga av semtagg-lista.
Det vil gjera det slik at ein ikkje treng å byggja semtagg-lista og regexar baserte på den om ein ikkje vil, og berre når det kjem ny versjon i svn vil ein byggja desse på nytt.
Generelt om kompileringstid
Grammatikkontroll-config:
./configure --with-hfst --without-xfst --enable-grammarchecker --enable-tokenisers --enable-alignment --enable-reversed-intersect --enable-morpher
Tek under 13 min for Sjur (utan twolc-kompilering)
Apertium-config:
./configure --with-hfst --without-xfst --enable-alignment --enable-reversed-intersect --enable-apertium --with-backend-format=foma
Tek ca 11 min for Sjur.
Optimalisering:
--with-backend-format=foma
Tvingar Hfst til å bruka eit uvekta fst-format, som igjen gjer at Foma blir brukt til kompileringa der det er mogleg. Både Foma og mangel på vektar gjer at det går raskare.
NB!!! Om ein endrar backend-format, MÅ ein køyra make clean fyrste
gongen, for å unngå feilmeldingar pga fst-ar av ulikt format.