The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages
Tilstede: Lene, Trond Tr, Trond Ty, Chiara
einspråkleg sme var analysert før sommaren. No køyrer nob-smj.
Det er eit problem med +Use/Circ
.
echo "1814" | hfst-tokenise --print-all --giella-cg --no-weights --unique tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst | vislcg3 --grammar tools/tokenisers/mwe-dis.bin | cg-mwesplit | vislcg3 --grammar src/cg3/disambiguator.bin | vislcg3 --grammar src/cg3/functions.cg3 | vislcg3 --grammar src/cg3/dependency.bin
"<1814>"
"1814" Num Sem/Year
Use/Circ"1814" Num Arab
Use/Circ"1814" Num Err/Orth Arab
:\n
Chiara fjernar taggen ad-hoc. Trond Tr ser på ei permanent løysing.
Vi vil ha forfattarnamn i metadata. Sjekk at det ikkje er mogleg å hente fulle romanar ved å søke på forfattarnamn.
Det fungerer ikkje med https. Chiara får ikkje svar frå IT-avdelinga. Chiara tar det med Rolf.
biggies/trunk/gt/common/speccorp/Turi/muitalus.txt
Chiara legg den i ´´boundcorpus/orig/sme/ficti/´´
Chiara [https://ranlp.org/ranlp2021/start.php]
Neural gjev rare feil. Regelbasert sine framlegg er fornuftige
Lene
Trond Tr
Trond Tr diskuterer med Echkard, og med Lene om tidspunkt. Konkret avtale etter UD.
Diskusjon om sma-nob vs. sme-nob. Det er argument for begge. sme-nob har det mest utbygde utgangspunktet.
Framlegg om samarbeid
Satsing på Senter for leksikografi
Vi må argumentere for at sma, smj er nivå III hos europarådet.
Lemma for rus fungerer, men ikkje bøygde former. Vi må sjekke rus i saan, der også dei bøygde formene fungerer.
mellomrom foran komma, t.d. идти. Dette er eit problem.
Ekstra taggar for å styre rekkjefylgja på verbformer med +Var/ Trond Ty pratar med Sjur om å filtrere bort desse.
Presentasjon er 9.10. Vi må opne VPN før den tid, og det må i så fall skje seinast på fredag i arbeidstida. Chiara avtalar tidspunkt for publisering med E.
Trond Tr og Sjur ser på tastaturting.
Søk fungerer dårleg – knapt i det heile teke.