Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Giellateknomøte 14.1.21

Tilstede: Trond, Lene, Chiara

Saker

Saker frå siste møte

Migrering av python2 til python3

Dette er framleis på oppdateringslista.

MT

smesmj

smj: Lene hjar snakka med Per B. i Ávvir, som ventar på LTK for å arbeide med smj. Lene har diskutert med Inga om ulike språklege ting. Ávvir bestemmer om de skal bruke MT etter vurdering av LTK. Lene har jobbet mye med å forbedre systemet.

Lene vil vurdere intervju med lesarar, gje gratis digitalt abonnement for å delta i intervju.

Arbeidsgang ved publisering (dette er rutinar som må publiserast):

  1. Tekstene oversettes med vår MT og lagres på Ávvir-server, pga. av publisering med rammer osv.
  2. Leserne må be om oversetting via knapp, dvs at det vil for dem fungere likt som annen MT
  3. LTK tar ein manuell gjennomgang i løpet av eit par timar, og Lene forbedrer bidix og transfer
  4. Ávvirs oversetting oppdateres på deres server

Problem med inc-katalogar og automatisk konvertering av sme-ord til f.eks. smj:

smesmn

Systemet er i marginal bruk. Vi bør sikre at det kjem leksikalske oppdateringar inn i takt med bruken, og også sjekke at transfer fungere som det skal, f.eks. vil taggendringer i FST kunne virke inn på analyser og generering (Trond ser på det)

Vedlikehald av MT generelt

Det var møte 190604 om scripting av semtaggar. Dette har ikkje vorte fulgt opp av programmerere etter møtet.

TODO: Sjå på automatisk oppdatering av sem-taggar med Sjur og Børre (Trond).

Plan for minimums MT-oppdatering

Lene og Trond ser på dette i lag.

CGMT

Trond har ikkje snakka med Eckhard. sme-nob er mest aktuell

Digitalisering og Samisk arkiv

Trond til å sjå på dette.

oahpa.no

Sida blir no oppdatert kvar dag.

Nasjonale minoritetsspråk

Trond følgjer opp dette.

ssh og nøklar

Vi bør bestemme kva vi vil gjere, Chiara må svare. Hvis alle bruker ssh-nøkkel, kan man stenge for passordinnlogging. Trond og Lene følger opp.

Korpusoppdateringa: status og arbeid

Grepkorpus

Chiara har laga grepkorpus, Lene har gått gjennom og gjort rettinger i de samiske FSTene og påpekt hva som skal rettes i sms. Trond følgjer opp med sms, +Comp > +Der+Der/Comp+A og +Superl > +Der+Der/Superl+A er viktigst.

Korp

Tekstar

Bibeltekstar i usx. Trond snakkar med Bibelselskapet. Vi vil få nobsme in toto. For dei andre er delar omsett. Diskusjon med Børre om sjekking og parallellisering.

Buggar i frontend

Det uralske korpuset er publisert, med god mottaking. JB har laga ein film om dette.

Arbeid

  1. Fikse u_korp bugger
  2. oppdatere f_korp
  3. oppdatere korp
  4. endre grensesnittet (se forrige møtereferat)

MT og neurale nett (møtet i neste veke)

Møte 20.1. klokka 10.

Plugins i CAT. Vi bør spørje om Wordfast, og meir om Uleåborgprosjektet.

NMT: Jf. diskusjon om dekolonialisering (Trond sender artikkel til oss andre).

Prioritering av programmeringsarbeid + evt. ting å ta opp med Divvun-gruppa

Chiara og Børre er enige om at begge skal kunne oppdatere alle nettsteder (giellatekno, dicts, divvun, oahpa, giellalt)

https: //github.com/divvun/registry

Oppfølging av Bugzilla

Evt andre saker

Opne saker i Bugzilla

Generelt

Baakoeh-bug

http://giellatekno.uit.no/bugzilla/show_bug.cgi?id=2678

[https://baakoeh.oahpa.no/detail/sma/nob/åarjelsaemiengïele.html?no_compounds=true&lemma_match=true&e_node=-7574647772174511428]

Dette krever overgang til HFST. dict-FST på server er oppdatert med riktig configure.

Vi må bruke denne for å få med vekting:

./configure –with-backend-format=openfst-tropical

Er dette innebakt i –enable-tokenisers ?

./configure –with-hfst –enable-tokenisers –enable-reversed-intersect

gir for Trond:

  HINTRSCT generator-raw-gt-desc.tmp1.hfst
/usr/local/bin/hfst-compose-intersect: warning: Transducer type mismatch in <stdin> and fst/phonology.rev.hfst; using former type as output
  HXFST    generator-raw-gt-desc.tmp.hfst
libc++abi.dylib: terminating with uncaught exception of type TransducerTypeMismatchException
/bin/sh: line 1: 92187 Done                    /usr/bin/printf "read regex 			@\"filters/reorder-subpos-tags.hfst\"             .o. @\"filters/reorder-semantic-tags.hfst\"           		.o. @\"generator-raw-gt-desc.tmp1.hfst\" 		;\n	 save stack generator-raw-gt-desc.tmp.hfst\n	 quit\n"
     92188 Abort trap: 6           | /usr/local/bin/hfst-xfst -p -q --format=openfst-tropical
make[2]: *** [generator-raw-gt-desc.tmp.hfst] Error 134
make[1]: *** [all-recursive] Error 1
make: *** [all-recursive] Error 1

UArctic

Digitalisering og sirkumpolare språk. Trond har kontakt med Svein på SA om dette

ICALL i Sverige?

Diskusjon mellom Trond og Gbg. Trond sender info til oss andre.

NFR + forskarskole?

NFR-webinar på måndag. Trond gjev info og sender epost til Lene. Det startar no fleire stipendiatar neste høst, både på UiT og SA.

HIF-kurs i språkteknologi høsten 2021?

På samisk har vi ikkje bachelorstudentar akkurat no slik at kurset sannsynligvis er ikke er relevant for samiskstudenter.

Samisk masterkurs i språkteknologi + korpuslingvistikk, V22.

Neste møte

26.1. klo. 0900.

Trond sender invitasjon.