The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages
View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no
Parallelliseringsmøte 8.12.2011
Berit Merete, Børre, Ciprian, Sjur, Trond
Utfordringar med å avgjera om noko er parallelt:
Aksiom: den lineære strukturen er ukrenkeleg. Viss vi har inndata, er denne parallelliseringa god:
<tu>
<tuv xml:lang="sme">
<seg>~
</seg>
</tuv>
<tuv xml:lang="nob">
<seg>
</seg>
</tuv>
</tu>
<tu>
<tuv xml:lang="sme">
<seg>35 ~
</seg>
</tuv>
<tuv xml:lang="nob">
<seg>
</seg>
</tuv>
</tu>
<tu>
<tuv xml:lang="sme">
<seg>Áviissa ásahedje ovttastumi bokte , gaskal ovdalaš Min Áigi ja Áššu áviissaid , ja almmuhuvvui vuosttaš gearddi guovvamánu 6. beaivvi 2008 .
</seg>
</tuv>
<tuv xml:lang="nob">
<seg>Avisen ble til gjennom fusjonen mellom de tidligere avisene Min Áigi og Áššu , og ble første gang ~ 35 ~ utgitt 6 . Februar 2008 .
</seg>
</tuv>
</tu>
Gáldu: Mediabearráigeahčču 2009 2.4 Áviisafáladat
<tu>
<tuv xml:lang="sme">
<seg>2.4.1 Ságat áviissas lassánan deaddilanlohku– sámegielat áviissain njiedjan</seg>
</tuv>
<tuv xml:lang="nob">
<seg>2.4.1 Økt opplag for Ságat – nedgang for samiskspråklige aviser</seg>
</tuv>
</tu>
<tu>
<tuv xml:lang="sme">
<seg>Landslaget for Lokalaviser ja Mediebedriftenes Landsforening almmuhit jahkásaččat deaddilanloguid mat maiddái muitalit Ságat ja Ávvira birra.</seg>
</tuv>
<tuv xml:lang="nob">
<seg>Landslaget for lokalaviser og Mediebedriftenes Landsforening publiserer årlig opplagstall som omfatter både Ságat og Ávvir.</seg>
</tuv>
</tu>
~/main$echo "2.4.1 Landslaget" | preprocess --abbr=gt/sme/bin/abbr.txt
2.4.1
Landslaget
~/main$echo "2.4.1 Landslaget" | preprocess --abbr=st/nob/bin/abbr.txt
2.4.1
Landslaget
~$echo "2.4.1. Landslaget" | preprocess --abbr=~/main/st/nob/bin/abbr.txt
2.4.1
.
Landslaget
Vi vil ha det slik, jf:
Jf. pdf:
</p>
<p>2.4.1
</p>
<p>Ságat áviissas lassánan deaddilanlohku– sámegielat
áviissain njiedjan
</p>
<p>Landslaget for Lokalaviser ja Mediebedriftenes Landsforening almmuhit
<p>2.4.1 Økt opplag for Ságat – nedgang for samiskspråklige
aviser
Landslaget for lokalaviser og Mediebedriftenes Landsforening publiserer
sme1 sme2 sme3 = nob1
Parallellføringa tar omtrent 12 timar. Det er mogleg med ein arbeidssyklus med arbeid kvar dag og ny parallellføring kvar natt.
Børre: Det beste er å gjere tmx om til rein tekst, og så diffe tekstane
Eit dokument med 1000
origspråksetning<TAB>omsetjingsspråksetning
Testbenken bør gje som resultat / rapport:
Resultat finnmarkulahka_web_letters.pdf.tmx: 1 - 84/632 = 86.7 %
Resultat Fil2: 1 - 84/632 = 86.7 %
Resultat Fil3: 1 - 84/632 = 86.7 %
Resultat Fil4: 1 - 84/632 = 86.7 %
...
pakka inn i eit passande xml-format. Forslag til xml-format:
<paragstesting>
<testrun><!-- Add one for each test run at the top --></testrun>
<testrun datetime="20111208-1234">
<file name="abc" gspairs="634" diffpairs="84"/>
<file name="xyz" gspairs="634" diffpairs="84"/>
</testrun>
</paragstesting>
Filnamn: testruns.paragsxml
TILTAK
Mål før møtet tysdag 13.12:
Tirsdag formiddag 13.12. kl 10