Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Page Content

Korpusmøte Børre og Sjur

Børre har slått av språkgjenkjenningstesten pga alt for mykje støy frå særleg sørsamiske OCR-dokument. Problemet er OCR, ikkje språkgjenkjenningstestinga. Børre skal merka opp alle dokument som kjem frå OCR med passande metadata, og deretter oppdatera convert2xml til å hoppa over slike dokument med mindre dei blir eksplisitt spesifiserte eller bede om. Etter det kan språkgjenkjenningstesten bli slått på igjen, og bør gje nyttig informasjon.

Gjort til no:

TODO:

Mål: mot slutten av neste veke kan vi byrja å fylla opp prestable med tekstar gode for parallellføring. Vi bør ha nokre merkbare innsjekkingar i prestable før veka er slutt.

Deretter - over i prestable: