Korpusmøte Børre og Sjur

Børre har slått av språkgjenkjenningstesten pga alt for mykje støy frå særleg sørsamiske OCR-dokument. Problemet er OCR, ikkje språkgjenkjenningstestinga. Børre skal merka opp alle dokument som kjem frå OCR med passande metadata, og deretter oppdatera convert2xml til å hoppa over slike dokument med mindre dei blir eksplisitt spesifiserte eller bede om. Etter det kan språkgjenkjenningstesten bli slått på igjen, og bør gje nyttig informasjon.

Gjort til no:

auka minimumsgrensa for text_cat - no krevst det minst 10 bokstavar før text_cat prøver seg -> bør føra til færre språkgjenkjenningsfeil
lagt til språkkoder for alle språk som hadde dansk tekst i seg, slik at berre dei faktiske språka i dokumenta no blir prosesserte
- gjeld sme/admin/
- vil òg føra til færre språkgjenkjenningsfeil

TODO:

merka opp alle dokument med OCR-bakgrunn (dvs ocr som digitaliseringskjelde må inn som metadata i xsl-fila) - vi hoppar over dei den nærmaste tida - 3 timar
legg til ein opsjon i convert2xml for å inkludera OCR-filer (dei blir hoppa over i utgangspunktet, jf det førre punktet) - 2 timar
sjekk om det enno finst uventa språk i det konverterte materialet, og oppdater xsl der det trengst - heile converted/sme/ - 1 dag
endra ccat slik at om ikkje -l er spesifisert, får du alle språk - 3 timar
legg inn ein sjekk på tome dokument - bruk ccat -a -S, både med og utan -l - 3 timar
slå på att språkgjenkjenningstesten - 0,5 time
sjekk parallellføringa - 2 dagar
- sjekk at parallelldokumentet finst
  - seinare: konverter alle samtidig, og legg inn parallellpeikarar berre til dei som faktisk blir konvertert
- sjekk at orda er ca like mange i begge/alle språka
hyph-buggane - 1 dag

Mål: mot slutten av neste veke kan vi byrja å fylla opp prestable med tekstar gode for parallellføring. Vi bør ha nokre merkbare innsjekkingar i prestable før veka er slutt.

Deretter - over i prestable:

alle html - sjekk parallelle pdf-filer, byt ut mot html dersom det er mogleg
alle txt
alle doc
alle pdf

Sitemap

Language Technology at UiT

Page Content

Korpusmøte Børre og Sjur

Sitemap