Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Giellateknomøte 25.9.2019

Tilstede: Trond, Chiara, Lene, Risten

Saker

Korpus

Prosessering frå analyse til Korp

Det er ein manglande xsl-bit, og i svn er det eit script frå før 2018. (Scriptet ligg i 2017-mappa men ikkje i 2018-mappa).

Chiara ser på dette denne veka, satsar på python.

Parallellkorpus

Parallelliseringa går med ny corpustools direkte til prestable , og ikkje til tmx, som før. Det blir ikkje sjekka inn

tail -14 prestable/tmx/nob2sme/bible/osko/*.tmx l

Preprosessering

Vi treng data til forkortingar. Vi må også sjå på propria.

Korpusmedarbeidar

Alternativ 2 gjekk heller ikkje (akkurat no).

ArtLab

Lene og Trond tar møtet i dag kl. 17.

CG-MT og perl

Scriptet vil ha sme.nor.dict.db. Vi har:

sme/tools/mt/cgbased/sme.nob.dict

Vi fekk rydda opp i filnamn. Chiara og Trond må sjå på dette.

API og Nasjonalbiblioteket

Chiara sender adressa.

Lulesamiske numeraler

Trond ser pâ dette, for â fâ det opp â gâ. Neste steg er â generalisere scripta, â gjere sprâk til ein variabel.

Trond og Chiara ser pâ dette.

Feedback fra NDS

Vi fekk 4 kommentarar. Trond sende dei vidare til dei relevante lingvistane. Etter det har ho svart pâ nytt, og lingvistane har ikkje svart.

Trond svarer henne (forklarer det med kontekst) og purrar pâ lingvistane.