Language Technology at UiT The Arctic University of Norway

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Page Content

Giellateknomøte: 29.09.2021

Tilstede: Lene, Trond Tr, Trond Ty, Chiara

Saksliste

Korp

Situasjonen:

einspråkleg sme var analysert før sommaren. No køyrer nob-smj.

Use/Circ

Det er eit problem med +Use/Circ.

echo "1814" | hfst-tokenise --print-all --giella-cg --no-weights --unique tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst | vislcg3 --grammar tools/tokenisers/mwe-dis.bin | cg-mwesplit | vislcg3 --grammar src/cg3/disambiguator.bin | vislcg3 --grammar src/cg3/functions.cg3 | vislcg3 --grammar src/cg3/dependency.bin
"<1814>"
    "1814" Num Sem/Year
     Use/Circ"1814" Num Arab
     Use/Circ"1814" Num Err/Orth Arab
:\n

Chiara fjernar taggen ad-hoc. Trond Tr ser på ei permanent løysing.

Forfattarnamn

Vi vil ha forfattarnamn i metadata. Sjekk at det ikkje er mogleg å hente fulle romanar ved å søke på forfattarnamn.

http vs. https

Det fungerer ikkje med https. Chiara får ikkje svar frå IT-avdelinga. Chiara tar det med Rolf.

biggies/trunk/gt/common/speccorp/Turi/muitalus.txt

Chiara legg den i ´´boundcorpus/orig/sme/ficti/´´

Orienteringspunkt

Chiara [https://ranlp.org/ranlp2021/start.php]

Neural gjev rare feil. Regelbasert sine framlegg er fornuftige

Lene

Trond Tr

MT

MT for CG

Trond Tr diskuterer med Echkard, og med Lene om tidspunkt. Konkret avtale etter UD.

Diskusjon om sma-nob vs. sme-nob. Det er argument for begge. sme-nob har det mest utbygde utgangspunktet.

Samarbeid med NPK og med NB?

Framlegg om samarbeid

Programmering

Satsing på Senter for leksikografi

Vi må argumentere for at sma, smj er nivå III hos europarådet.

sanj

Lemma for rus fungerer, men ikkje bøygde former. Vi må sjekke rus i saan, der også dei bøygde formene fungerer.

mellomrom foran komma, t.d. идти. Dette er eit problem.

Ekstra taggar for å styre rekkjefylgja på verbformer med +Var/ Trond Ty pratar med Sjur om å filtrere bort desse.

Presentasjon er 9.10. Vi må opne VPN før den tid, og det må i så fall skje seinast på fredag i arbeidstida. Chiara avtalar tidspunkt for publisering med E.

Trond Tr og Sjur ser på tastaturting.

giellalt.github.io

Søk fungerer dårleg – knapt i det heile teke.