Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Giellateknomøte 29.10.2021

Saksliste:

Korp og ordbild

Oppdatert: sme, smj, nobsme

Nokre samansette ord fekk ikkje lemma, pga ein bug der + vart lagt til mellom samansetjingar. Det er ein del feil i analysen.

Chiara og Børre har debugga, og vi bør alle oppdatere CorpusTools det er ein ny versjon av convert2xml.

Vi slår saman fsub, sub, fobj, obj, piler høgre/venstre Det må vere ei eiga køyring for semtaggar.

Chiara lagar nytt grepkorpus, vi ser på resultatet. Deretter kjem det oppdatering av f_korp, u_korp

Gjennomgang av makefilene for lemmatesting

Dette kan Trond Ty sjå på. Lene viser problema.

Prioriteringar, plan, Chiara

Korp ein god stund framover.

Dokumentasjon

Chiara lagrar scripta for Korp inn i CorpusTools-mappene. Børre integrerer dette i sjølve skriptet CorpusTools. Dette dokumenterer så Børre og Chiara for CorpuTools, for prosedyrer korp_mono, korp_para.

NDS

Børre har tidlegare rydda ein del i python i NDS, skrive om funksjonar, gjort koden meir leseleg.

Chiara tilrår at vi går over til backenden for satni.org i staden for å bruke tid på å utvikle NDS. Han må då bli utvida for å støtte analyse, samansetningar m.m.

Ting vi må fikse om vi skal halde på NDS:

  1. python3
  2. fjerne ubrukt og uaktuell kode som ligg att, språkversjonar som er fjerna
  3. skilje språkavhengig og språkuavhengig

Installering og oppstart av satni.org er godt dokumentert, men sjølve koden er det ikkje.

Vi tar denne diskusjonen med Divvun.

Utlysing til ny programmerer

Vi tar fram gamle annonsar.