Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Sjur- og Trond-møte

13.2.2024

Saksliste

Oppfølgjingssaker frå sist

Ordboksstruktur

To diskusjonar: Teknisk format og konseptuell struktur

Teknisk format

Tekstformat eller binærformat (databaser). Vi har meir sansen for tekstformat, som er meir fleksibelt. Så er spørsmålet kva tekstformat:

Vi må sjå nærare på dette, men det kan godt vere at json får med fordelene med tekst utan å ha ulempene med xml.

Konseptuelt format

Anders, Børre, Flammie, Sjur har diskutert format for ei moderne ordboks- og terminologiplattform

I dag: talo i (minst) 9 filer:

Eit mogleg mål: Alle 9 i ei fil (!). Både fordelane og ulempene med dette systemet er opplagde.

Oppfølgjing før fredag til lunsj denne veka.

isof + Divvun-samling

Samisk symposium Hfors

Artikkelidear

Vi bør ha mange innlegg.

Maskinlæring

Tre ulike tema seglar op:

fst-ar i git

Terminologimøte m/UiB - samarbeid om samisk terminologi i termportalen.no (GG+)

taleteknologi, delte data, språkbanken i Finland

Alle treng samiske taledata, det er allmennkringkastarane som sitt på dei store ressursane. Initiativet kom sist frå SVT. Dei ser det blir for dyrt med manuell teksting på samisk, vil ha automatisk teksting.

Jaska og prosjektarbeidet i Finland

Nasjonalbiblioteket

Trond har diskutert med Yngvild Beyer om OCR, vi skal følgje opp det. Det vi treng er eit oppsett for historiske tiesktar i corpus-aaa-orig/

Faste møte framover

Kvar 14 dag+. Neste møte 27.2. 09.00-10.00, Sjur sender innkalling.