Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Giellateknomøte 20.11.19

Til stades: Trond, Chiara, Lene

Saksliste

Gjennomgang av situasjonen og prioriteringar frå sist møte

https://giellalt.uit.no/admin/giellatekno/191024.html

Wordpress

Ingenting har skjedd. Den nye sida fungerer, både ny og gammal adresse fungerer. Chiara kan skrive og høyre kva som skjer.

Chiara kan logge seg inn, men Kasia kan ikkje gjere det. Ho må få tilgang. Chiara ser på det.

Apertium sme-smn

Vi bør også hugse sme-smn (Lene ser på samansetjingsstiar også for smn).

Annex

Dette er lyd i Korp (jf. epost frå Lene med bilde av poster fra NoDaLiDa). Det var ikkje lett å finne informasjon om dette på csc sine sider. Trond tar kontakt med folk på csc om dette.

NDS

Chiara og Trond arbeidde mykje med Biret Merete og logging sist veke. Trond oppdaterte eit perlscript for å fikse oppslagsord som nettadresser (%A0%C4 og liknande), slik at vi no kan bruke access-loggen betre.

Vi bør kanskje skrive ein dokumentasjon på access-loggen (Trond diskuterer med BM)

Lene har systematisk sjekket og lagt til type til substantiver. Lene skal skrive Bz for å komme direkte til sme-lemma fra nobsme.

Korp

Den tospråklege nob-sma vart analysert med xfst. Chiara har arbeidd med å flytte til hfst. Det som kjem ut av hfst har anna struktur, Chiara har tatt kode frå det einspråklege oppsettet (generere lemma for samansetjingar). Det ser bra ut, men Chiara skal teste meir.

Chiara forbetrar dokumentasjonen og sjekkar inn filene til dette..

du -sh for det gamle 2012-korpuset og for heile (gammalt + nytt) gjev:

Det har med andre ord komme til 16MB nytt innhald etter FAD-prosjektet (2012).

Sametinget har lovd å sende tekster, men det har enda ikke kommet. Møte med dem 12. desember (Trond og Lene).

Det tospråklege korpuset burde komme inn fortest mulig slik av vi rekker både å parallellisere dem og ha dem med i oppdatert korpus i Korp.

Chiara analyserer 2012-filene no, og 16+ -filene (dvs. dei nye etter 2012 + det som kjem til seminaret) siste veka før seminaret.

Vi bør (når vi får litt meir tekst) lage ei betre inndeling for parallell tekst, t.d. etter land (SNF), institusjon. I dag er situasjonen:

aanaar
allaskuvla
avi.fi
depts
ely-keskus
evalueringsportalen
fefo
ffk
fi_depts
finnmark.no
fylkesmannen
giellagaldu
gonagasviessu.no
guovda
helsenorge
jll.se
kainun_institutti
kirken.no
lansstyrelsen.se
metsa.fi
nordlandfk
nsr
ohcejohka
oikeusministerio
other_files
porsanger
saamicouncil
sd
sogsakk
uffda
uit
ulapland

Bibelen

Når det gjeld tekstane vi har fått ventar vi på Børre.

Lene har arbeidd med MT-versjonar av bibeltekstar + sendt to versjoner sme2sma, dvs. ein eigen versjon der verb med +Cond er merka separat, lemmaCOND, fordi dette har mye å si for oversettinga.

Namn i Bibelen er feilanalysert (alle namn som tostava). Problemet er akkurat no å gjere Bugzilla tilgjengeleg for medarbeidarane våre, og følgje det opp. Trond tar dette opp med Sjur.

mhr og mrj

Vi har problem med å gje Chiara tilgang til korpuset på gtsvn-servaren. Trond og Chiara

Preprosessering

Ikkje gjort: Den nye organiseringa av abbr må implementeres også for dei andre samiske språka også (Trond), og diskuterer med Risten (jf. sist referat).

nasjonalbiblioteket

Framleis ingen dokumentasjon, vi ventar litt og så tar Trond kontakt (etter MONS).

Prioriteringar fram mot jul

Paris

Lene reiser ikke, sjekker med Børre.

Paris vil, i tillegg til posteren, ha 4 sider(?). Trond høyrer med Sjur. Vi må i alle fall lage poster.

CG-MT

Trond snakkar med Sjur om alt-i-eitt-versjonen av pipeline, og om MT-veka, og skriv til E om ting som ikkje fungerer (store bokstavar, halvparten av orda blir ikkje generert).

tmx minne

Trond skriv dokumentasjon for Wordfast.

LIA seminar

Lene er borte 25.-28.11

Artikkelskriving

Writing retreat på gamle Nordlysobservatoriet siste uka før jul

Andre saker

Chiara reiser til Italia 2.12-9.12 Trond reiser til Paris 2.12-9.12