Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Giellateknomøte 23.8.23

Til stades: Anders, Lene, Trond

Saksliste

Vi fortel kva vi har gjort og gjer

Trond har halde føredrag om små språk i skuggen av ChatGPT, og kan t.d. halde det neste veke.

Anders har studert Azure. Virtuelle servarar er ikkje populære, noko som får konsekvens for arbeidet vårt (mindre rett fram). Han har også arbeidd med ordbøkssaker (sjå under).

Lene har lagt smesmj til rtx-formalismen, og den er nå omtrent på samme nivå som .txN. Diskusjonen held fram i lag med Kevin.

Webdict

Anders har testa med webdict på Azure, og kan flytte over. Han har testa ut den nye Webdict. Viktig resultat: Lettare å oppdatere, finare grensesnitt.

ny webdict (Azure Lab): https://new-webdict–96z55xu.nicewave-ede6118a.westus2.azurecontainerapps.io/

Tilgjengeleg offline

Wiseflow

No får vi ordboka i arbeidsminnet. I WiseFlow er det mogleg å vise til url-en.

Andre eksamenssituasjonar.

Anders har laga ei last ned-lenkje

NDS

Reader-bug

Anders har ikkje sett på dette.

Tilbake-knapp

Dette er delvis fiksa. Det fungerer viss du bruker søke-knappen men ikkje viss du bruker ENTER. Problemet var å replikere feilen lokalt.

Anders ser på dette med brukarar. Problemet er at POST må endrast til GET, og det står POST svært mange gonger i koden. Her er lista over NDS-ordbøker.

sma-paradigme i NDS (baakoeh)

Lene har lagt til ei linje i neahtta/configs/language_specific_rules/paradigms/sma/nouns.paradigm, og dessuten laga ei ny fil: nouns.context.

Situasjonen er: Substantivparadigmet (sjekk for ordet maana) skal ha ein tilleggsinformasjon etter essiv. No kjem “avledet diminutiv nominativ “ etter komitativ men før essiv. Anders følgjer opp, det er ssv. ei table-fil ein stad.

Dette er relevant også for smn (Trond ser på det).

NDS for arkitekturord

.. treng to ting: Innhald og brukargrensesnitt. NDS kan vere eit grensesnitt

Miniparadigme for adverb

Trondty fann etter kvart feilen, men

adverb    johtilit         
komparativ   adverb    (vel) johtileappot         
superlativ   adverb    (buot) johtilamosit         
superlativ   adverb    (buot) johtilepmosit                       

Analysert i fst:

johtileappot
johtileappot    johtil+A+Der/Comp+A+v1+Der/AAdv+Adv    0,000000
johtileappot    johtileappot+Adv    0,000000

Denne er ferdig modellert, her berre la Lene inn i kjeldekoden i NDS og vi fekk regel for paradigme.

maŋŋelaš har også miniparadigme, men det er ikkje derivert frå A, men skrive inn i fst-en. Det vi vil er å lage tilsvarande miniparadigme for relevante adverb som manglar. I dag er det 7 slike adverb, Lene går gjennom og leiter etter fleire.

Vi har dermed:

maŋŋelažžii
maŋŋelažžii    maŋŋelaš+Adv+Ill    0,000000
maŋŋelažžii    maŋŋelažžii+Adv    0,000000

Den siste forma er leksikalisert. Poenget her er den første forma, som er frå eit eige fst-paradigme.

Lene går gjennom og ser på dei manglande.

Serversaker

Azure

Anders hadde møte med IT rett før sommaren. Møtet resulterte ikkje i ei tidsramme, men i ein lab-brukar for Anders. Neste steg er at Anders tar kontakt på nytt, først med Børre og så med IT (i beste fall: Møte med IT i divvunveka no i august).

Krasj for NDS

Vi fekk timeout på eit par dagar sidan, det såg ut til at problemet var zombie-prosjektar. Anders restarta servaren, og deretter var alt bra att. Problem: Vi veit ikkje korfor det gjekk tregt.

Korp

Oppdatering til Korp 9

Korp9 er online, her.

Debugging: Vi bruker alle (også) den nye versjonen, og rettar eller melder frå til Anders.

Eit problem er presentasjon av taggar, jf. feilmelding

Lokalisering

Det er fleire opne saker i lokaliseringa. Nokre av filene ligg her.

Dato

Dette må bli ordna (sjå førre referat). Sjå feilmelding.

Ordbild

Vi kjem attende til dette på neste møte (omtrent). Sjå feilmelding

Parallellkorpus

Vi treng eit møte mellom Trond, Børre, Jacob. Trond ser på dette.

cgi-bin

Generelt, framgang

Vi kjem attende til dette.

Paradigmegenerering

Prosessen med å bygge fst-ar (alle, dei store) krasjar for Anders når han prøver. Anders og Trond ser på kompilering (evt. lar Børre eller Sjur følgje opp). Det fungerer på Anders si maskin

Generere i Rust? Det er ikkje Børre eller Sjur som har skrive rust-koden.

smesmj (både symposiumpresentasjon og ordbok)

Translittereringsfila ligg i main/words/dicts/smesmj/scripts. Sjå README-fila for kompilering, det må litt manuell mekking til for å få separat fst for substantiv.

Lene vil samanlikne ordboksoutput med Levenshteinsdistanse (etter translitterering).

Dermed treng ho også Anders sitt Levenshteinskript. Problem: hfst som pythonmodul fungerer ikkje på mac. Lene sender til Anders. Lene og Trond ser på scriptet.

anders les kolonne 1 og 3 for: sme<tab>pos<tab>smj<tab>pos<tab>nob

Giellateknosida

… har gamal UiT-logo.

Prioritering framover

Neste møte

Etter divvun-veka