Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Giellatekno-møte: Planlegging

Tilstede: Trond, Ciprian, Lene

Store spørsmål på kort sikt

smefin i jorgal eller ikkje

Konklusjon: prioriteres IKKE

Korpusarbeid

  1. Innsamling
    1. Websider (dei kan forsvinne): 4 språk, 3 land
    2. NB: Gode rutiner for metadata ved registrering
  2. Rydding i filer (rusk, metadata)
    1. metadata (kan vente til Korp-oppdatering)
      1. (Vi må ta opp det å ha mulighet for å legge til flere typer forfatter, språk og tittel enn vi har no, f.eks. Beatles-sang oversatt til samisk (vi ønsker å beholde den engelske tittelen også), eller Knut Hamsun dikt oversatt til samisk via engelsk (burde nob også registreres?))
    2. Teste om ny språkidentifisering er betre enn gammal (Sjur: 2 siders Java > Python?
    3. pdf-konvertering
  3. Parallellisering
    1. Inventering av identifiserte parallellfier + evt. identifisere nye
    2. Sjekke kor mange som ikkje er parallellisert
    3. Setningsgrense med hfst-tokenize?
    4. Forbetra ankerlister?
    5. Evaluere parallelliseringa

Prioritering for RJ:

  1. Innsamling
  2. Rydding i filer (rusk, metadata)
  3. Parallellisering

Plan: Møte for Reetta, Børre, Ciprian, Trond neste veke.

Trond kontaktar Reetta etter dette møtet.

ei vekes innføringskurs i gt-infra-fst-cg i juni

mari, mansi, …, Syktyvkar-folket kan ikkje kome i juni Trond sett opp ei ideskisse-side for dette i main/courses

SAALS 3, Freiburg 18-20. oktober

Mindre spm på kort sikt

Prioritering av:

Leksikon/korpus-arbeid

MT:

Artikkelskriving

NDS:

f.eks.

TODO-lista

Samarbeid med Oulu

Undervisning

Mulige

F.eks. “Våren 2018 har vi kurs her og studentane frå Oulu kjem hit det semesteret”

Store spm på lang sikt

Giellatekno og undervisning

Tidsplan

Ikkje nye språkpar eller tema før vi har artiklar om dette

Ferie 2017

Neste møte

onsdag 10. mai kl 9.00