Sjur og Trond 18.10. 2016
Saker:
- preprocess / hfst-tokenise
- normative fst-ar
- dialektparametrisering av fkv
- korpus
- stavekontrollar på nett
preprocess / hfst-tokenise
Alle språk har no mwe-dis.cg3 (må tilpassast for kvart språk).
Vi vil analysera heile korpuset med hfst-disamb/hfst-tokenise. Sjur ber Børre om å laga 2 alternative analyser med Hfst:
- éin med normativ hfst-analysator (=stavekontroll)
- éin med deskriptiv hfst-analysator (≈ Hfst vs Xerox for korpusanalyse)
Normative fst-ar
Jf:
giella+Sem/Lang_Tool:giella GOAHTI-A ;
(dvs default, som betyr CmpN/SgN for nordsamisk)
$ echo giellagiella | hfst-lookup -q -p src/analyser-gt-norm.hfstol
giellagiella giella+N+Cmp#giella+N+Sg+Nom 10,000000
$ echo gielagiella | hfst-lookup -q -p src/analyser-gt-norm.hfstol
gielagiella gielagiella+? inf
$ echo gielaidgiella | hfst-lookup -q -p src/analyser-gt-norm.hfstol
gielaidgiella gielaidgiella+? inf
Jf med deskriptiv analysator:
$ echo giellagiella | hfst-lookup -q -p src/analyser-gt-desc.hfstol
giellagiella giella+N+Cmp/SgNom+Cmp#giella+N+Sg+Nom 10,000000
$ echo gielagiella | hfst-lookup -q -p src/analyser-gt-desc.hfstol
gielagiella giella+N+Cmp/SgGen+Cmp#giella+N+Sg+Nom 10,000000
$ echo gielaidgiella | hfst-lookup -q -p src/analyser-gt-desc.hfstol
gielaidgiella giella+N+Cmp/PlGen+Cmp#giella+N+Sg+Nom 10,000000
gielaidgiella giella+N+Err/Orth+Cmp/PlGen+Cmp#giella+N+Sg+Nom 10,000000
Sjur har ikkje gjort noko med sma og smj enno, men prøver å få på plass norm-fst for sma og smj i dag.
dialektparametrisering av fkv
Fkv-folka jobbar med yaml-filer, men med filnamn som gjer at dei ikkje blir testa enno. Sjur har informert om korleis ein kan testa ulike fst-ar med ulike yaml-filer.
korpus
- vi treng meir skjønlitteratur - minna Davvi Girji på manglande filer
- Ailu jobbar ut januar - kva kan han gjera før han sluttar?
- korpusmøte D+GT
- Arbeid med parallelltekst
stavekontrollar på nett
Børre omorganiserer koden litt, deretter dokumenterer han. Etter det burde det vera enkelt.