The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages
View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no
Til stades: Berit Merete, Børre, Ciprian, Sjur, Trond
Cip har klart å installera Moses. VislCG-installeringsproblemet løyst. Begge bruker boost
, og det vart konflikt mellom Moses- og VislCG-bruken av boost
.
Ciprian har no byrja med Giza og ordparallellisering. Det finst eit setningslengdeparameter. For å trena språkmodellen er det med parameterverdi 50 i utgangspunktet.
Støy:
“setningar” som berre inneheld lister med tal
clean data, especially long sentences with
///<E2><89><A5>//||\\\ @ ...,
etc
har sett på setningar lengre enn 100 ord - setnignar med støy, reelt innhald er truleg innafor grensene til Giza, støyen gjer setninga lengre pga støy-“ord”
Vi ser bort i frå støyen no, og konsentrerar oss på å få ferdig prosesseringslinja. Deretter kan vi gå attende og justera parameter og fjerna støy manuelt (i konverteringa).
Børre har retta Bugzilla-lus #1291 - 220 macroman <U+0087> for á in Assu newscorpus.
Ingen ting elles gjort når det gjeld konverteringane. Børre har senddt inn kontraktar til Sametinget for ca 3 veker. Har sendt purring pr e-post. Kontraktane skal underskrivast av Sametinget, og kopi skal gå til dei ulike partane. Dei må nesten få sin eigen gjenpart for at vi kan kontakta dei for å be om elektroniske kopiar. 5-6 forfattarar omfatta av desse kontrakane.
En del av Skániid girji-kontraktane er underskrivne av Sametinget. Vi veit ikkje om dei underskrivne kontraktane er sendt ut til alle partar. Resten er sendt direkte frå forlag til forfattarar, som skulle senda dei til Sametinget. Mange er sendt inn til Sametinget.
TILTAK:
Må venta til etter 1. april pga Hunspell og TeX-hyph for InDesign/Ávvir.
Ein del rettinar i preprocess, ikkje alt har vorte konvertert i ein periode, men den feilen er retta opp. Dei siste endringane er ikkje sjekka inn i toktmx.
TILTAK:
Vi bør tilby ferdig nedlastbare korpuspakker av det materialet vi har bearbeidd.