Giellateknomøte 14.1.21
Tilstede: Trond, Lene, Chiara
Saker
- Saker frå siste møte
- Korpusoppdateringa: status og arbeid
- MT og neurale nett (møtet i neste veke)
- Prioritering av programmeringsarbeid + evt. ting å ta opp med Divvun-gruppa
- UArctic
- ICALL i Sverige?
- NFR + forskarskole?
- HIF-kurs i språkteknologi høsten 2021 ?
Saker frå siste møte
Migrering av python2 til python3
Dette er framleis på oppdateringslista.
MT
smesmj
smj: Lene hjar snakka med Per B. i Ávvir, som ventar på LTK for å arbeide med smj. Lene har diskutert med Inga om ulike språklege ting. Ávvir bestemmer om de skal bruke MT etter vurdering av LTK. Lene har jobbet mye med å forbedre systemet.
Lene vil vurdere intervju med lesarar, gje gratis digitalt abonnement for å delta i intervju.
Arbeidsgang ved publisering (dette er rutinar som må publiserast):
- Tekstene oversettes med vår MT og lagres på Ávvir-server, pga. av publisering med rammer osv.
- Leserne må be om oversetting via knapp, dvs at det vil for dem fungere likt som annen MT
- LTK tar ein manuell gjennomgang i løpet av eit par timar, og Lene forbedrer bidix og transfer
- Ávvirs oversetting oppdateres på deres server
Problem med inc-katalogar og automatisk konvertering av sme-ord til f.eks. smj:
- Det er mange falske venner mellom f.eks. sme og smj
- Å blande usjekka ordpar inn i produksjon gjør at man ikke får ordene i missinglist, det er vanskelig å se hva som er feil
smesmn
Systemet er i marginal bruk. Vi bør sikre at det kjem leksikalske oppdateringar inn i takt med bruken, og også sjekke at transfer fungere som det skal, f.eks. vil taggendringer i FST kunne virke inn på analyser og generering (Trond ser på det)
Vedlikehald av MT generelt
Det var møte 190604 om scripting av semtaggar. Dette har ikkje vorte fulgt opp av programmerere etter møtet.
TODO: Sjå på automatisk oppdatering av sem-taggar med Sjur og Børre (Trond).
Plan for minimums MT-oppdatering
Lene og Trond ser på dette i lag.
CGMT
Trond har ikkje snakka med Eckhard. sme-nob er mest aktuell
Digitalisering og Samisk arkiv
Trond til å sjå på dette.
oahpa.no
Sida blir no oppdatert kvar dag.
Nasjonale minoritetsspråk
Trond følgjer opp dette.
ssh og nøklar
Vi bør bestemme kva vi vil gjere, Chiara må svare. Hvis alle bruker ssh-nøkkel, kan man stenge for passordinnlogging. Trond og Lene følger opp.
Korpusoppdateringa: status og arbeid
Grepkorpus
Chiara har laga grepkorpus, Lene har gått gjennom og gjort rettinger i de samiske FSTene og påpekt hva som skal rettes i sms. Trond følgjer opp med sms, +Comp > +Der+Der/Comp+A og +Superl > +Der+Der/Superl+A er viktigst.
Korp
- Laste ned knappen er fiksa.
Tekstar
Bibeltekstar i usx. Trond snakkar med Bibelselskapet. Vi vil få nobsme in toto. For dei andre er delar omsett. Diskusjon med Børre om sjekking og parallellisering.
Buggar i frontend
Det uralske korpuset er publisert, med god mottaking. JB har laga ein film om dette.
- [https://github.com/giellatekno/korp-frontend/issues]
Arbeid
- Fikse u_korp bugger
- oppdatere f_korp
- oppdatere korp
- endre grensesnittet (se forrige møtereferat)
MT og neurale nett (møtet i neste veke)
Møte 20.1. klokka 10.
Plugins i CAT. Vi bør spørje om Wordfast, og meir om Uleåborgprosjektet.
NMT: Jf. diskusjon om dekolonialisering (Trond sender artikkel til oss andre).
Prioritering av programmeringsarbeid + evt. ting å ta opp med Divvun-gruppa
Chiara og Børre er enige om at begge skal kunne oppdatere alle nettsteder (giellatekno, dicts, divvun, oahpa, giellalt)
https: //github.com/divvun/registry
Oppfølging av Bugzilla
Evt andre saker
Opne saker i Bugzilla
Generelt
- Sjå på prioriteringa av dei sakene vi finn viktige (er merkinga rett)
- Diskutere eksplisitt med relevante personar
Baakoeh-bug
http://giellatekno.uit.no/bugzilla/show_bug.cgi?id=2678
[https://baakoeh.oahpa.no/detail/sma/nob/åarjelsaemiengïele.html?no_compounds=true&lemma_match=true&e_node=-7574647772174511428]
Dette krever overgang til HFST. dict-FST på server er oppdatert med riktig configure.
Vi må bruke denne for å få med vekting:
./configure –with-backend-format=openfst-tropical
Er dette innebakt i –enable-tokenisers ?
./configure –with-hfst –enable-tokenisers –enable-reversed-intersect
gir for Trond:
HINTRSCT generator-raw-gt-desc.tmp1.hfst
/usr/local/bin/hfst-compose-intersect: warning: Transducer type mismatch in <stdin> and fst/phonology.rev.hfst; using former type as output
HXFST generator-raw-gt-desc.tmp.hfst
libc++abi.dylib: terminating with uncaught exception of type TransducerTypeMismatchException
/bin/sh: line 1: 92187 Done /usr/bin/printf "read regex @\"filters/reorder-subpos-tags.hfst\" .o. @\"filters/reorder-semantic-tags.hfst\" .o. @\"generator-raw-gt-desc.tmp1.hfst\" ;\n save stack generator-raw-gt-desc.tmp.hfst\n quit\n"
92188 Abort trap: 6 | /usr/local/bin/hfst-xfst -p -q --format=openfst-tropical
make[2]: *** [generator-raw-gt-desc.tmp.hfst] Error 134
make[1]: *** [all-recursive] Error 1
make: *** [all-recursive] Error 1
UArctic
Digitalisering og sirkumpolare språk. Trond har kontakt med Svein på SA om dette
ICALL i Sverige?
Diskusjon mellom Trond og Gbg. Trond sender info til oss andre.
NFR + forskarskole?
NFR-webinar på måndag. Trond gjev info og sender epost til Lene. Det startar no fleire stipendiatar neste høst, både på UiT og SA.
HIF-kurs i språkteknologi høsten 2021?
På samisk har vi ikkje bachelorstudentar akkurat no slik at kurset sannsynligvis er ikke er relevant for samiskstudenter.
Samisk masterkurs i språkteknologi + korpuslingvistikk, V22.
Neste møte
26.1. klo. 0900.
Trond sender invitasjon.