The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages
View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no
Berit Merete, Børre, Sjur
Ferdig.
Stadige justeringar og rettingar. Finnmarkslova parallellført på nytt, retta opp, og lagt inn som ny versjon av gullstandarden - spara ein god del manuelt arbeid med å forbetra gullstandarden.
Børre har testa seg fram til vinnarverdiar for tca2. Dette har gjeve ei markant betring for samla parallellføring av gullstandarddokumenta:
Likevel ein del regresjonar, særleg gjeld det §-teiknet. Eit døme frå Finnmarksloven:
-Meahcceduopmostuollu sáhttá gáibidit , ahte guoskevaš diggeriekti čađaha gažademiid .
-§ 42 Váidalus ja guoddalus Meahcceduopmostuolu mearrádusain sáhttá váidalit Alimusriektái .
+Meahcceduopmostuollu sáhttá gáibidit , ahte guoskevaš diggeriekti čađaha gažademiid . §
+42 Váidalus ja guoddalus Meahcceduopmostuolu mearrádusain sáhttá váidalit Alimusriektái .
Problemet må liggja i tca2, sidan det er den einaste komponenten / prosessen som varierer mellom dei to resultata.
BM & Børre har laga ein ny kategori forkortingar, num-noab
, som skal fungera som ein kombinasjon av tr-numab
og noab
, t.d. su som ikkje er forkorting når han står sist i setninga, men ei forkorting dersom det kjem eit taluttrykk etterpå.
Tiltak:
preprocess
til å handtera num-noab
-forkortingar (Børre)