Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Page Content

Parallelliseringsmøte 12.1.2012

Berit Merete, Børre, Sjur

Saksliste

Status for testbed for gullkorpus

Ferdig.

Status for gullkorpus

Stadige justeringar og rettingar. Finnmarkslova parallellført på nytt, retta opp, og lagt inn som ny versjon av gullstandarden - spara ein god del manuelt arbeid med å forbetra gullstandarden.

Status for parallellføringa

Børre har testa seg fram til vinnarverdiar for tca2. Dette har gjeve ei markant betring for samla parallellføring av gullstandarddokumenta:

Likevel ein del regresjonar, særleg gjeld det §-teiknet. Eit døme frå Finnmarksloven:

-Meahcceduopmostuollu sáhttá gáibidit , ahte guoskevaš diggeriekti čađaha gažademiid .
-§ 42 Váidalus ja guoddalus Meahcceduopmostuolu mearrádusain sáhttá váidalit Alimusriektái .
+Meahcceduopmostuollu sáhttá gáibidit , ahte guoskevaš diggeriekti čađaha gažademiid . §
+42 Váidalus ja guoddalus Meahcceduopmostuolu mearrádusain sáhttá váidalit Alimusriektái .

Problemet må liggja i tca2, sidan det er den einaste komponenten / prosessen som varierer mellom dei to resultata.

BM & Børre har laga ein ny kategori forkortingar, num-noab, som skal fungera som ein kombinasjon av tr-numab og noab, t.d. su som ikkje er forkorting når han står sist i setninga, men ei forkorting dersom det kjem eit taluttrykk etterpå.

Arbeid framover

Tiltak: