The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages
Giellateknomøte 20.11.19
Til stades: Trond, Chiara, Lene
https://giellalt.uit.no/admin/giellatekno/191024.html
Ingenting har skjedd. Den nye sida fungerer, både ny og gammal adresse fungerer. Chiara kan skrive og høyre kva som skjer.
Chiara kan logge seg inn, men Kasia kan ikkje gjere det. Ho må få tilgang. Chiara ser på det.
Vi bør også hugse sme-smn (Lene ser på samansetjingsstiar også for smn).
Dette er lyd i Korp (jf. epost frå Lene med bilde av poster fra NoDaLiDa). Det var ikkje lett å finne informasjon om dette på csc sine sider. Trond tar kontakt med folk på csc om dette.
Chiara og Trond arbeidde mykje med Biret Merete og logging sist veke. Trond oppdaterte eit perlscript for å fikse oppslagsord som nettadresser (%A0%C4 og liknande), slik at vi no kan bruke access-loggen betre.
Vi bør kanskje skrive ein dokumentasjon på access-loggen (Trond diskuterer med BM)
Lene har systematisk sjekket og lagt til type til substantiver. Lene skal skrive Bz for å komme direkte til sme-lemma fra nobsme.
Den tospråklege nob-sma vart analysert med xfst. Chiara har arbeidd med å flytte til hfst. Det som kjem ut av hfst har anna struktur, Chiara har tatt kode frå det einspråklege oppsettet (generere lemma for samansetjingar). Det ser bra ut, men Chiara skal teste meir.
Chiara forbetrar dokumentasjonen og sjekkar inn filene til dette..
du -sh for det gamle 2012-korpuset og for heile (gammalt + nytt) gjev:
Det har med andre ord komme til 16MB nytt innhald etter FAD-prosjektet (2012).
Sametinget har lovd å sende tekster, men det har enda ikke kommet. Møte med dem 12. desember (Trond og Lene).
Det tospråklege korpuset burde komme inn fortest mulig slik av vi rekker både å parallellisere dem og ha dem med i oppdatert korpus i Korp.
Chiara analyserer 2012-filene no, og 16+ -filene (dvs. dei nye etter 2012 + det som kjem til seminaret) siste veka før seminaret.
Vi bør (når vi får litt meir tekst) lage ei betre inndeling for parallell tekst, t.d. etter land (SNF), institusjon. I dag er situasjonen:
aanaar
allaskuvla
avi.fi
depts
ely-keskus
evalueringsportalen
fefo
ffk
fi_depts
finnmark.no
fylkesmannen
giellagaldu
gonagasviessu.no
guovda
helsenorge
jll.se
kainun_institutti
kirken.no
lansstyrelsen.se
metsa.fi
nordlandfk
nsr
ohcejohka
oikeusministerio
other_files
porsanger
saamicouncil
sd
sogsakk
uffda
uit
ulapland
Når det gjeld tekstane vi har fått ventar vi på Børre.
Lene har arbeidd med MT-versjonar av bibeltekstar + sendt to versjoner sme2sma, dvs. ein eigen versjon der verb med +Cond er merka separat, lemmaCOND, fordi dette har mye å si for oversettinga.
Namn i Bibelen er feilanalysert (alle namn som tostava). Problemet er akkurat no å gjere Bugzilla tilgjengeleg for medarbeidarane våre, og følgje det opp. Trond tar dette opp med Sjur.
Vi har problem med å gje Chiara tilgang til korpuset på gtsvn-servaren. Trond og Chiara
Ikkje gjort: Den nye organiseringa av abbr må implementeres også for dei andre samiske språka også (Trond), og diskuterer med Risten (jf. sist referat).
Framleis ingen dokumentasjon, vi ventar litt og så tar Trond kontakt (etter MONS).
Lene reiser ikke, sjekker med Børre.
Paris vil, i tillegg til posteren, ha 4 sider(?). Trond høyrer med Sjur. Vi må i alle fall lage poster.
Trond snakkar med Sjur om alt-i-eitt-versjonen av pipeline, og om MT-veka, og skriv til E om ting som ikkje fungerer (store bokstavar, halvparten av orda blir ikkje generert).
Trond skriv dokumentasjon for Wordfast.
Lene er borte 25.-28.11
Writing retreat på gamle Nordlysobservatoriet siste uka før jul
Chiara reiser til Italia 2.12-9.12 Trond reiser til Paris 2.12-9.12