Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Giellateknomøte 17.03.2021

Trond, Lene, Chiara

Saker

Saker frå siste møte

Korp oppdatering

f_korp

under arbeid, grensesnitt + innhold oppdatering

SIKOR

Chiara lager grep-corpus for samisk så snart Tronds endringer i sms er med

Semantiske taggar

Seemantiske tagger skal ikke filtreres bort, men være med i Korp. Vi gjer forenklinga på Korp-sida.

cat src/fst/root.lexc |grep 'Sem/'|wc -l
     282
cat src/fst/root.lexc |grep 'Sem/'|cut -d"_" -f1|sort|uniq|wc -l
     153

Lene lager forslag til forenkling av semtagger, til i mårra

Bibelen

Ingen svar frå Noreg eller Finland enno.

Sametingsavtalen for bruk av tekstar

Vurdering: Gå direkte til Sametinget

HFST-konfigurering for korpusanalyse

Trond diskuterer dette med Sjur og Børre

./configure --with-backend-format=openfst-tropical --enable-tokenisers

NDS som integrert del av Korp-grensesnittet

Dette er på lista over forbetring i Korp.

NDS

Lene skal skrive dokumentasjon om ordavledninger og linke fra NDS-artikler

Det er ønske Legge inn eksplisitt stjernesøk i selve xml-fila (dvs at søket ikke blir sendt til analysator), evt. som regexsøk. Dvs at regex-søket innledes med f.eks. % . Chiara ser på dette etter Korp-oppdateringa

Sette opp automatisk oppdatering av NDS på server. Chiara ser på dette når hun har tid.

NDS-ordbok-IP for eksperiment

Trond diskuterer med Orakelet.

  1. Sikre at alle i same rom har same IP-adresse (og ingen andre har den same adressa?), evt. innlogging?
  2. Sette opp IP-boksar og ha internett på tråd

Forbetringar

Vi oppdaterer lista i dokumentasjonen.

Studenter

Vi bør arrangere sommarjobbprosjekt for studentar, både samisk masterstudenter og IT-studenter

Trond sjekker økonomien, vi alle tenker på temaer

Flytte Kursa wordpress til egen server

Trond og Chiara ser på dette.