Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Giellateknomøte 14.4.2021

Trond, Chiara, Lene

Saksliste

Saker frå siste møte

Ikke alt er fulgt opp.

Korp-oppdatering

F-korp

Chiara har retta.

SIKOR

Grep-korpus: Chiara har oppdatert.

Spørsmålet er om smn hadde siste analysator for grep-korpuset. Problem: Dobbel POS-tag kom framleis gjennom i POS. Vi debugga dette i mars, det ser ut som om Chiara har siste versjon av smn-hfst på si maskin, men i grepkorpuset er det ein gammal versjon. Chiara analyserer på nytt.

Sem-taggar: Vi legg dei til for nordsamisk førebels. Lene ser på gruppering og sender forslag på epost.

msd får ikke brukervennlig oversetting (i Korp) Chiara fikser det

HFST-konfigurering for korpusanalyse: Trond diskuterer dette med Sjur og Børre

./configure --with-backend-format=openfst-tropical --enable-tokenisers

Ellers venter vi på at Sjur fikser slik at Use/MT tagget kode ikke kommer med, pluss at det er et numeralproblem i smj.

NDS

Overgang til HFST:

Chiara har testa, og det fungerer bra for sma og også for andre språk. Chiara oppdaterer sanit og baakoeh og inari slik at vi går over til HFST (og etterhvert de andre)

NDS-dokumentasjon om ordavleiing og infinitte verbformer

Lene har dette under arbeid, for å kunne lenke til ordboka

Paradigmestruktur for finsk og andre språk

Trond har sett på dette men ikkje funne ut av det, skal sjå meir.

Oppdatering av nob-fst

Trond går gjennom nob-orda i smenob og nobsme og sjekkar om dei manglar i nob.fst.

MT

Lene orienterte om sme-smj MT og samarbeid med media

Vi bør få ut lister over ordpar som ikke er rørt, siden bidix blei generert, for å kunne sjekke dem. Lene skriver dokumentasjon for Chiara.

Helsingfors

Vi diskuterte samarbeidet

Sommarjobb for studenter

Trond ser på økonomi.

Wordpress og servar

Lene har skrive e-post til en ny person, vi får sjå.

Dokumentasjon og git

Trond demonstrerte, vi diskuterte om hvor vi bør legge møtereferater om tagger osv. Viktig å være konsekvent med hva vi kaller ting, nå er det både North og Northern osv