The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages
Giellateknomøte 14.1.21
Tilstede: Trond, Lene, Chiara
Dette er framleis på oppdateringslista.
smj: Lene hjar snakka med Per B. i Ávvir, som ventar på LTK for å arbeide med smj. Lene har diskutert med Inga om ulike språklege ting. Ávvir bestemmer om de skal bruke MT etter vurdering av LTK. Lene har jobbet mye med å forbedre systemet.
Lene vil vurdere intervju med lesarar, gje gratis digitalt abonnement for å delta i intervju.
Arbeidsgang ved publisering (dette er rutinar som må publiserast):
Problem med inc-katalogar og automatisk konvertering av sme-ord til f.eks. smj:
Systemet er i marginal bruk. Vi bør sikre at det kjem leksikalske oppdateringar inn i takt med bruken, og også sjekke at transfer fungere som det skal, f.eks. vil taggendringer i FST kunne virke inn på analyser og generering (Trond ser på det)
Det var møte 190604 om scripting av semtaggar. Dette har ikkje vorte fulgt opp av programmerere etter møtet.
TODO: Sjå på automatisk oppdatering av sem-taggar med Sjur og Børre (Trond).
Lene og Trond ser på dette i lag.
Trond har ikkje snakka med Eckhard. sme-nob er mest aktuell
Trond til å sjå på dette.
Sida blir no oppdatert kvar dag.
Trond følgjer opp dette.
Vi bør bestemme kva vi vil gjere, Chiara må svare. Hvis alle bruker ssh-nøkkel, kan man stenge for passordinnlogging. Trond og Lene følger opp.
Chiara har laga grepkorpus, Lene har gått gjennom og gjort rettinger i de samiske FSTene og påpekt hva som skal rettes i sms. Trond følgjer opp med sms, +Comp > +Der+Der/Comp+A og +Superl > +Der+Der/Superl+A er viktigst.
Bibeltekstar i usx. Trond snakkar med Bibelselskapet. Vi vil få nobsme in toto. For dei andre er delar omsett. Diskusjon med Børre om sjekking og parallellisering.
Det uralske korpuset er publisert, med god mottaking. JB har laga ein film om dette.
Møte 20.1. klokka 10.
Plugins i CAT. Vi bør spørje om Wordfast, og meir om Uleåborgprosjektet.
NMT: Jf. diskusjon om dekolonialisering (Trond sender artikkel til oss andre).
Chiara og Børre er enige om at begge skal kunne oppdatere alle nettsteder (giellatekno, dicts, divvun, oahpa, giellalt)
https: //github.com/divvun/registry
Oppfølging av Bugzilla
http://giellatekno.uit.no/bugzilla/show_bug.cgi?id=2678
[https://baakoeh.oahpa.no/detail/sma/nob/åarjelsaemiengïele.html?no_compounds=true&lemma_match=true&e_node=-7574647772174511428]
Dette krever overgang til HFST. dict-FST på server er oppdatert med riktig configure.
Vi må bruke denne for å få med vekting:
./configure –with-backend-format=openfst-tropical
Er dette innebakt i –enable-tokenisers ?
./configure –with-hfst –enable-tokenisers –enable-reversed-intersect
gir for Trond:
HINTRSCT generator-raw-gt-desc.tmp1.hfst
/usr/local/bin/hfst-compose-intersect: warning: Transducer type mismatch in <stdin> and fst/phonology.rev.hfst; using former type as output
HXFST generator-raw-gt-desc.tmp.hfst
libc++abi.dylib: terminating with uncaught exception of type TransducerTypeMismatchException
/bin/sh: line 1: 92187 Done /usr/bin/printf "read regex @\"filters/reorder-subpos-tags.hfst\" .o. @\"filters/reorder-semantic-tags.hfst\" .o. @\"generator-raw-gt-desc.tmp1.hfst\" ;\n save stack generator-raw-gt-desc.tmp.hfst\n quit\n"
92188 Abort trap: 6 | /usr/local/bin/hfst-xfst -p -q --format=openfst-tropical
make[2]: *** [generator-raw-gt-desc.tmp.hfst] Error 134
make[1]: *** [all-recursive] Error 1
make: *** [all-recursive] Error 1
Digitalisering og sirkumpolare språk. Trond har kontakt med Svein på SA om dette
Diskusjon mellom Trond og Gbg. Trond sender info til oss andre.
NFR-webinar på måndag. Trond gjev info og sender epost til Lene. Det startar no fleire stipendiatar neste høst, både på UiT og SA.
På samisk har vi ikkje bachelorstudentar akkurat no slik at kurset sannsynligvis er ikke er relevant for samiskstudenter.
Samisk masterkurs i språkteknologi + korpuslingvistikk, V22.
26.1. klo. 0900.
Trond sender invitasjon.