Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Korpusmøte 12.3. 2014

Til stades:

Børre, Ciprian, Lene, Trond, Sjur

Tema:

Lagring av samiske data

Møte om vår hverdagsrutine med korpus-konvertering hver dag. Det går ikke an å ta vare på alt data som vi generere.

Det er for lite plass, vi tar vare på data vi ikkje treng.

Noverande modell:

Spare mykje, for mykje (ikkje plass itl alt).

Ny modell for konvertering, analyse og lagring:

Referansekorpus for å evaluere analysatoren (fjern-lagring):

rene nob-data.

Laura og Hanne (UiO) om nob-data for noe projekt.

Cip har lokalt alle korpora som man kan nedlaste fra Språkbanken. Han har gjort en del job med rensing, xml-formatering, etc.

Det er minst tre plass som trenges nob-dataen i store mengden og så godt som mulig (minst) pos-tagget.

  1. Cips phd: jeg vil gjerne se lit på partikkelverber in nob
  2. GT/Divvun: alltid i sammenhang med smX-nob/nob-smX (se, td, frekvenslister)
  3. Laura/Hanne sin projekt.

Problem:

  1. Problem: vi trenger mer plass!
  2. Problem: Vi må ha en mulighet for å dele dataen med annet folk, ikke bare oss imellom (I just wanted to use the one and only postposition in nob).