Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Giellateknomøte

Tema: Infrastruktur

Tidspunkt: 10.2.2026

Til stades: Trond, Trond, Anders og Brede

Saker

Mykje av dette er avhengig av kvarandre, så delar av møtet bør gå med til å sjå på prosjektflyt og avklare kva som ventar på kva.

Korpus: parallellkorpus; (rutine for oppdatering)

Parallellkorpus Korp:

Trenger i utgangspunktet bare å konfigureres.

Göteborg lagar no ny backend for korp. Spørsmålet er om vi skal vente på den.

Status:

Påbegynt av Trond Tynnøl. Men ikke så lett å sette opp Korp, dependsproblemer, da CWB-softwaren er utdatert. Vi må kompilere egen.

Relatert:

Upstream (Gøteborg) holder på med full rewrite av Korp backend, forhåpentligvis blir ikke neste versjon vanskeligere å sette opp.

Automatiske analyser av corpus-xxx:

Status:

Br har nedpriorert det. F skulle se på noe? Anders har noen ideer og eksperimenter i Azure, men ingenting ferdig.

Resten av automatisk oppdatering av korp avhenger av corpus-xxx analyser, men skal være mer eller mindre klart. Nye korp_mono forbedrer også gamle, med bedre lemma.

korp-mono var (er) skriptet for å gjere analyse-output om til CWB-format, inkludert “trappemodellen” for dynamisk samansetjing.

Tiltak

cgi-bin => “webpipeline”

Status for overgang til nytt system

Cgi-bin:

Webpipelines fungerer, men vi oppdager stadig nye ting i cgi-bin som ikke fungerer, og vi vil ha det bedre for webpipelines.

Note: Har ikke lyst til å pensjonere cgi-bin, selv om webpipelines overtar. Greit å ha som referanse, og for evt brukere som vil ha det.

Problem: Ulike variantar, paradigme for spesifikke ord (fertet, vuovdi x 2, kantuvra)

NomAg er med i genereringsfst-en, +v1, +v2 er ikkje med der. Løysing: Ha med alle relevante taggar. Dei er der i fst-en no, men gjev enno ikkje resultatet vi treng. fst-en ser bra ut:

$ e kantuvra+v1+N+Sg+Nom|hdsme
kantuvra+v1+N+Sg+Nom        kantuvra        0,000000
kantuvra+v1+N+Sg+Nom        kántuvra        0,000000

$ e kantuvra+v1+N+Sg+Nom|hdsmeNorm
kantuvra+v1+N+Sg+Nom        kantuvra        0,000000

$ e kantuvra+v2+N+Sg+Nom|hdsmeNorm
kantuvra+v2+N+Sg+Nom        kontuvra        0,000000

$ e biila+v2+N+Sg+Nom|hdsmeNorm
biila+v2+N+Sg+Nom        biila+v2+N+Sg+Nom+?        inf

Vi må med andre ord berre sørge for at formene generert med same subtagg kjem i lag.

API

Anders: jobber med oppdatering av APIet.

Frontend

Brede: Jobber med frontend, paradigmetabeller, +++ Kommentar Trond Ty: Kan vi fjerne kildinsamisk?

For øvrig: Navnet. Webpipelines? Det var egentlig bare et placeholder-navn… tenke på å bytte?

Tiltak

Giellatekno-heimeside

Situasjonen

Fortsatt Forrest…. Utfordringa her er at det er eit system utan utvikling. Vi bør med andre ord vere budd på å måtte finne eit alternativ.

Anders: Omskrive til SvelteKit? Vi kan starte med enkelt design, og så forbedre etter hvert, så lenge funksjonaliteten er der. Går an å vurdere å prøve med LLM-hjelp for raskere omskriving?

Krav: Fleirspråklegheit, integrering med nettenester (“webpipeline”)

Tiltak

NDS (tekniske ting)

TTS

Eit alternativ er å ha fleire automatiske kontrollrutiner.

sme-mul

Trond lagar skript for sme-fin, sme-nob => sme-mul

metadict

login-problemet:

Anders: Har satt automatisk omstart hver 8. time, har testet, skal fungere. Den ideale løysinga er at det skal fungere utan restart. Anders ser på det på ein godversdag.

MEN: Har opplevd problemer som skyldes github selv, og da får vi ikke logget inn! Vurdere å bytte til selv-styrt database over brukere? Mer arbeid: administrasjon, og ikke minst omskriving av api/database-kode.

Ellers skal det være ok.

Innhold

… er pågående arbeid når webpipelines er litt meir på plass.

Tiltak

Annet:

Planlagt nedetid

Helgevakt

Dokumentasjon

Avhengigheit

Neste møte

Om 14 dagar.

Sitemap