The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages
View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no
Til stades: Lene, Thomas, Børre, Sjur, Trond
Ulike typar ocr-lese filar:
Sametinget sine referat som .tiff
Dette blir ocr-lese, og ocr-programmet lagrar både tekst og bilete jf. 2302.
Thomas og Maja har scanna. Første OCR-versjon dukka opp,
bug 2299
Vi skisserer typane slik vi vil ha det. filnamn_b
er ikkje-ocr-filer.
filnamn_a.ocr
er ei fil som er ocr-lese, og filnamn_a.ocr.correct
er same fil, men manuelt korrigert.
orig/
filnamn_b.doc <== denne skal til konverterast til converted (vanlege filer)
filnamn_b.doc.xsl
filnamn_a.ocr.doc <== skal ikkje konverterast til boundcorpus/converted (x)
filnamn_a.ocr.doc.xsl <== har 'ocr' i metadata ==> blir ikkje konvertert
filnamn_a.ocr.correct.txt <== denne skal konverterast til goldstandard/converted (xx)
filnamn_a.ocr.correct.txt.xsl
Dette er t.d. Anna Jacobsen sine tekstar, men også t.d.
orig/sme/ficti/lindgren-sme-010-019corr.txt
Her er eit oversyn over Anna Jacobsen:
giellatekno:boundcorpus boerre$ find orig -name 'annajakobsen_don_jih_daan_bijre*.xsl'
orig/sma/ficti/annajakobsen_don_jih_daan_bijre_1_kap_1-45.orig.rtf.xsl <== i buggen (x)
orig/sma/ficti/annajakobsen_don_jih_daan_bijre_2_kap_1-45.orig.doc.xsl <== i buggen
orig/sma/ficti/annajakobsen_don_jih_daan_bijre_3_kap_1-38.orig.doc.xsl <== i buggen
orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_1.binorig.rtf.xsl (også (x))
orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_1.doc.xsl
orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_1.ocrorig.correct.txt.xsl (xx)
orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_1_kap_46-50.correct.txt.xsl
orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_2.binorig.rtf.xsl
orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_2.doc.xsl
orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_2.ocrorig.correct.txt.xsl
orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_2.ocrorig.rtf.xsl
orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_2_kap_46-50.correct.txt.xsl
orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_3.binorig.doc.xsl
orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_3.ocrorig.correct.txt.xsl
orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_3.ocrorig.rtf.xsl
orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_3_kap_39-45.correct.txt.xsl
Det er ein del rot i filene i dag, det må bli rydda opp. Tema her er ikkje denne oppryddinga, men kva vi vil ha, korleis vi vil utføre rettingar og konverteringar.
Våre filer – Anna Jacobsen – har vorte retta med ocrleif§feil, t.d. slik:
goImeIuhkieuktsie§(golmeluhkieuktsie), Snåasesne golmeIuhkiegovhte§(golmeluhkiegovhte), Raanesne
Sametingsprotokollane har vorte retta med søk/erstatt.
Vi har med andre ord to alternativ:
a. (Sjur)
Dette er feIl§feil og dette er ei fIllesak§fillesak l (ei fil)
b. (Lene)
Dette er feIl og dette er ei fIllesak (fil i.)
Dette er feil og dette er ei fillesak (fil ii.)
diff-skript som produserer ny fil:
leif§feil
fIllesak§fillesak
Filene i systemet vårt:
Framtidig ocr:
… blir tema for neste møte, over jul.