Parallelliseringsmøte 28.11.2011
Børre, Sjur, Trond
Gullstandard
(tmx-format vs. tca2-format -> egentlig det samme. tca2 spytter ut to tekstfiler, der hver linje tilsvarer den parallelle teksten i den andre filen. I .tmx er disse linje pakket inn i en xml-snutt)
Status quo:
Vi har no tre gullstandardfiler.
Det å jobbe i grafisk gjekk ikkje så bra (problem med å mate inn nye setningar og med å endre 1-1 til m-m).
(Der a, b er setningar i sme og 1, 2 er setningar i nob, og 0 = tom setning:)
a-0
0-1
==>
a-1
0-0
==>
a-1
Situasjon:
a. b. vs. 1 2. (dvs. det mangla punktum etter setning 1)
I dag seier gullstandarden:
ab-12
Det burde vi altså ikkje ha gjort. Vi burde dermed ha gjort slik:
a-1
b-2
Resultatet er at vi har færre (eller fleire!) setningspar i gull enn i forlegget.
Arbeidsmetode:
- Lese i
tmx/smenob/fil.tmx.html - Rette i
tmx/gullstandard/nobsme/fil.tmx
Døme:
- jmf. er ikkje ei forkorting på norsk, men på samisk. Det må rettast.
- Store bokstavar pluss punktum pluss arabiske tal har ulik handsaming på nob og sme.
TODO:
- Teste gullstandardfilene, lage testbenk (Børre?)
- Køyr test 1 – få resultat
- Rette i abbr.txt og whatnot
- Køyr test 2 – få betre resultat
- Lage eigen gullstandard berre med problematiske ting?
Ordparallellisering
Dette er neste steg.
Autshumato
Intern dokumentasjon for autsh
TODO
- Oppdater den interne dokumentasjonen (Sjur?)