The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages
View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no
Sjur og Trond 18.10. 2016
Saker:
Alle språk har no mwe-dis.cg3 (må tilpassast for kvart språk).
Vi vil analysera heile korpuset med hfst-disamb/hfst-tokenise. Sjur ber Børre om å laga 2 alternative analyser med Hfst:
Jf:
giella+Sem/Lang_Tool:giella GOAHTI-A ;
(dvs default, som betyr CmpN/SgN for nordsamisk)
$ echo giellagiella | hfst-lookup -q -p src/analyser-gt-norm.hfstol
giellagiella giella+N+Cmp#giella+N+Sg+Nom 10,000000
$ echo gielagiella | hfst-lookup -q -p src/analyser-gt-norm.hfstol
gielagiella gielagiella+? inf
$ echo gielaidgiella | hfst-lookup -q -p src/analyser-gt-norm.hfstol
gielaidgiella gielaidgiella+? inf
Jf med deskriptiv analysator:
$ echo giellagiella | hfst-lookup -q -p src/analyser-gt-desc.hfstol
giellagiella giella+N+Cmp/SgNom+Cmp#giella+N+Sg+Nom 10,000000
$ echo gielagiella | hfst-lookup -q -p src/analyser-gt-desc.hfstol
gielagiella giella+N+Cmp/SgGen+Cmp#giella+N+Sg+Nom 10,000000
$ echo gielaidgiella | hfst-lookup -q -p src/analyser-gt-desc.hfstol
gielaidgiella giella+N+Cmp/PlGen+Cmp#giella+N+Sg+Nom 10,000000
gielaidgiella giella+N+Err/Orth+Cmp/PlGen+Cmp#giella+N+Sg+Nom 10,000000
Sjur har ikkje gjort noko med sma og smj enno, men prøver å få på plass norm-fst for sma og smj i dag.
Fkv-folka jobbar med yaml-filer, men med filnamn som gjer at dei ikkje blir testa enno. Sjur har informert om korleis ein kan testa ulike fst-ar med ulike yaml-filer.
Børre omorganiserer koden litt, deretter dokumenterer han. Etter det burde det vera enkelt.