Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Giellateknomøte 19.8.2019

Tilstede: Trond, Chiara, Lene, Risten (under korpusarbeid)

Saker:

Myhre og maskinlæring

Det blir møte på tysdag. Chiara og Trond diskuterer eit opplegg og nettside med relevant informasjon.

Vi lagar ei side maskinlæring under forsking, med lenkje til giellalt.

Korpusarbeid

August: Risten har parallellisert admin/sd-mappa (sma, nob), med utgangspunkt i ei liste Lene har laga på nettet. Børre skal legge inn i korpustools ein sjekk for at fila ikkjer er parallellisrt frå før, men til no er det lister som gjeld.

Korpora som har prioritet

Innsamling:

Ristens prioritetsliste:

  1. parallellisering: Reettas liste fin-sme
  2. innhenting og parallellisere: nob og sme sametingsprotokoller (2016->)
  3. parallellisering: nob-sma/smj/sme, fin-smn/sms/sme (i dag har vi: nob-sme, nob-sma, fin-smn)

Prioriteringsprinsipp, generelt:

  1. nob, sme: hente og parallellisere (på ein fornuftig måte)
  2. Kontrollere nye parallelliserte filer for alle 6 språkpar (evt. prioritere deltakarar til seminaret)

Status for freecorpus/prestable/tmx:

Bør lages ei liste med antall setninger/ord for hvert språkpar.

Chiara vil ikkje oppdatere noko før andre veke i september.

Trond ser på dei finske filene til neste møte, Risten arbeider etter lista over.

Korp-oppdatering og Göteborg-reise

Chiara tar kontakt med Gbg. (Husk lemgram for Korp)

NDS

Press TAB or touch screen to select

For lærere og brukere (lage dokumentasjonsside, undervise på kurs)

Chiara legger til korpuslinker også til paradigmer for andre PoS enn verb.

Oversikt, planar denne høsten

Færøyane

Trond samarbeider med universitetet der om FST og stavekontroll, drar dit i september.