Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Korpusmöte 16.11.2016

Áilu, Børre, Ciprian, Trond

Saksliste frå sist

Gjennomgang, status

Lista frå førre møte (sjå kommentarar nedanfor)

DG

Børre har prata med DG, ordna med praktiske ting. Dei hadde e-format-bøker som skulle til .epub, måtte OCR-e bøker, og ville deretter sende til oss.

Buggane:

Det norske nasjonalbiblioteket

Vi får alle dei opne tekstane dei har. Vi legg til side eldre ortografi, og ser på tekstar med gjeldande ortografi. Når vi får dei må vi sjå på kvaliteten av dei, og dra konklusjonar.

Det finske nasjonalbiblioteket

Vi har ca. 130000 ord med 1800-talssamisk, med metadata, og med varierande OCR-kvalitet.

I år vil vi også få OCR-versjonar av Sagai Muitalægje, Nuortanaste, Sami Usteb. Det er mogleg dei har betre kvalitet

Det som må gjerast for å få dette inn i korpuset:

  1. OCR-forbetring ??
  2. mekanisme for automatisk forbetring (perl = ordna regelsett)
  3. manuell gjennomgang

Tiltak

Parallelltekst i samme fil i .txt-format

Vi har mekanismer for andre filformat.

  1. Áilu legg inn ein versjon av fila i kvar språkmappe, kvar av filene har eiga metadatafil
  2. Børre lagar opplegg for .txt, og Áilu ventar med å prosessere til då.
  3. Áilu

Prioritering av metadata:

  1. årstal
  2. forfattar
  3. tittel
  4. originalspråk

Neste møte

Vi diskuterer dette neste veke når Børre og Sjur er i Tromsø.