Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Giellateknomøte 29.6.2023

Til stades: Anders, Brede, Lene, Trond.

Saksliste

Sidan sist

Lenkje til førre møte

sma-paradigme:

Lene skal sjå på det.

Attende-knappen i nettlesar til NDS

Denne fungerte før, men ikkje no. Anders ser på det (med Trond)

webdict

Anders har oppretta git-repositorium under giellatekno/webdict, og har laga eit oppsett som er nyskrive og som kan vere offline.

Adresse https://webdict.z1.core.windows.net

Trond discuterer nedlastbar webdict med Sjur etter sommaren, med utgangspunkt i Anders sitt opplegg. Trond ser også på README-fil for oppdatering av innhald.

Anders gjer ting ferdig.

Referat servermøte

IT ville ha eit oversyn. Anders laga eit googledoct.

Korp

Ny versjon

Nye korpusar er sett opp (minus ordsky (ordbild)

Vi tar opp Ordbild etter ferien.

Datobug

Først må dato på plass i Korp9, deretter ser vi på buggen.

regex

søk på “Nom” gjev også “NomAg” og “NomAct”. “Pl” gjev også “Plc”. Vi har derfor fjerna semtaggar i Korp. Derimot er semtaggar ekstremt interessant i Ordbild. Chiara såg på dette, men vi fekk det ikkje til. Strategi: Prøv å få det til i Ordbild, og viss ikkje: fjern semtaggar.

Få taggrense til å fungere i søket. (jf. diskusjon om Pl, Pl., Pl. og i-menyen: i-menyen må fungere).

Generering av cmp og der

Dei som bruker Korp skal ikkje måtte vite kva vi har leksikalisert og ikkje. Ciprian hadde ei rutine for å generere +Der/x og +Cmp.. vart generert og dermed søkbare. Den delen av pipeline forsvann ved siste oppdatering.

Måten å gjere dette: Generere lemma.

Dette må vi gjere til neste oppdatering, m.a. sjå på kva Ciprian og Chiara gjorde.

(eksempelord: čázádatvuoigatvuođaid).

Konteaksta

Detmar svarte (bruk ny versjon av log4j), men det har vi prøvd.

Konklusjon: Til hausten leiter vi etter ein Java-person.

Oppsummering cgi-bin

Anders har ein ny versjon lokalt.

Anders finpussar i løpet av sommaren.

smesmj

Vi vil sjå på smesmj til hausten.

Nye metodar:

- GIZA++ light (Anders)
- Dependensanalyse (også det Anders)

Dette må vi sjå på før vi køyrer.

Pivotmetoden gjev 42000, vi skal sannsynlegvis ned i under 10000.

Lene og Trond ser på dette på fredag.

Oppsummering korpus

For å oppdatere Korp treng vi meir korpus, vi treng oppdatert tospråklege korpora og vi treng parallelltekstar, kanskje særleg dei samiske språka imellom.

Oppsummering korpusarbeid

Brede har sett på crawlerscript. Ingen av dei gamle scripta fungerte. Delvis var dette pga gamle katalogar hos oss, delvis fordi nettsidene vi hausta hadde vorte endra:

- det finske sametinget
- det norske sametinget
- statsforvaltaren

Sida til det norske sametinget filtrerte ut teksten betre enn det finske. Det norske sametinget er ok, det finske er meir vanskeleg. Vi klarer no å hente tekstar frå det norske sametinget og parallellisere dei. Det er ca. 1000 filer på nordsamisk, 160 er på lulesamisk, 350 på sørsamisk, nesten alle er på norsk.

Arbeid som står att:

- Dokumentere skripta: **Brede**
- Køyre skripta og legge inn i korpus: **Børre**.

Sommaren

Børre kan få Lab-bruker i Azure. Anders oppdaterer Børre om Azure.

Ting å gjere til sommaren:

Neste møte

… i august.