Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Page Content

Korpusmøte 5.10.2017

Til stades: Børre, Ciprian, Lene, Sjur

Saker

Overgripande tema: kva er det som hindrar arbeidet?

Nettinnsamling (tråling)

Vi har fleire innsamlarar, men berre nrk sin fungerer.

Viktige steder:

Legge dokumenter i en pøl:

En strategi: Laste ned alt fra nettsteder man mistenker har samisk tekst. Legge inn samiske tekster inn i korpus og manuelt legge til paralleller på andre språk. Finner man systematisk sammenheng mellom paralleller, legg slikt inn automatisk.

Anna manuell innsamling

Opprette ei liste (hvor?) hvor alle i Giellatekno/Divvun skriver info når de kommer over (ny) samisk tekst på internett:

  1. dato
  2. språk-kode
  3. info om parallellitet (m, p:se:url)
  4. eget navn
  5. url (bare til nettstedet)

Børre

Leverandørinnsamling

Dvs. innsamling som krev avtale med underskrift.

Vi treng ein person som gjer dette på full tid over ein periode. Børre pratar med aktuelle kandidatar.