Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Page Content

Sjur og Trond 18.10. 2016

Saker:

preprocess / hfst-tokenise

Alle språk har no mwe-dis.cg3 (må tilpassast for kvart språk).

Vi vil analysera heile korpuset med hfst-disamb/hfst-tokenise. Sjur ber Børre om å laga 2 alternative analyser med Hfst:

  1. éin med normativ hfst-analysator (=stavekontroll)
  2. éin med deskriptiv hfst-analysator (≈ Hfst vs Xerox for korpusanalyse)

Normative fst-ar

Jf:

giella+Sem/Lang_Tool:giella GOAHTI-A ;

(dvs default, som betyr CmpN/SgN for nordsamisk)

$ echo giellagiella | hfst-lookup -q -p src/analyser-gt-norm.hfstol
giellagiella	giella+N+Cmp#giella+N+Sg+Nom	10,000000

$ echo gielagiella | hfst-lookup -q -p src/analyser-gt-norm.hfstol
gielagiella	gielagiella+?	inf

$ echo gielaidgiella | hfst-lookup -q -p src/analyser-gt-norm.hfstol
gielaidgiella	gielaidgiella+?	inf

Jf med deskriptiv analysator:

$ echo giellagiella | hfst-lookup -q -p src/analyser-gt-desc.hfstol
giellagiella	giella+N+Cmp/SgNom+Cmp#giella+N+Sg+Nom	10,000000

$ echo gielagiella | hfst-lookup -q -p src/analyser-gt-desc.hfstol
gielagiella	giella+N+Cmp/SgGen+Cmp#giella+N+Sg+Nom	10,000000

$ echo gielaidgiella | hfst-lookup -q -p src/analyser-gt-desc.hfstol
gielaidgiella	giella+N+Cmp/PlGen+Cmp#giella+N+Sg+Nom	10,000000
gielaidgiella	giella+N+Err/Orth+Cmp/PlGen+Cmp#giella+N+Sg+Nom	10,000000

Sjur har ikkje gjort noko med sma og smj enno, men prøver å få på plass norm-fst for sma og smj i dag.

dialektparametrisering av fkv

Fkv-folka jobbar med yaml-filer, men med filnamn som gjer at dei ikkje blir testa enno. Sjur har informert om korleis ein kan testa ulike fst-ar med ulike yaml-filer.

korpus

stavekontrollar på nett

Børre omorganiserer koden litt, deretter dokumenterer han. Etter det burde det vera enkelt.