Parallelliseringsmøte 14.12.2011
Berit Merete, Børre, Sjur, Trond
Saksliste
- status quo for testbed for gullkorpus
- status quo for gullkorpus
- arbeid framover
Status quo for testbed for gullkorpus
- Tabell er oppe og køyrer, fint.
cat fad_gull_diff_test-res.txt |tr '\n' '™'|sed 's/The diff for /€/g;'|sed 's/The tmx diff /€/g;' | tr '€' '\n' |grep 'nob '|tr '™' '\n'|l
Dette gjev output av typen:
@@ -74 +77,2 @@
-Lámispenš. 16–66 jagi – pr. 1000 ássi(1999 )
+Lámispenš .
+16–66 jagi – pr. 1000 ássi(1999 )
Den andre typen av feil er:
Setningspar:
testing prestable/tmx/goldstandard/nob2sme/laws/other_files/finnmarksloven.pdf.tmx …
The tmx diff is
Alle innbyggerne i den enkelte kommune har rett til utnyttelse av visse naturressurser innenfor kommunens grenser , blant annet egg- og dunsanking og begrenset hogst . Buot gieldda ássiin galgá leat vuoigatvuohta ávkkástallat dihto luondduvalljodagain gieldda rájáid siskkobealde , earret eará mannet , uvjet ja murret dihto mearrái .
-Buot gieldda ássiin galgá leat vuoigatvuohta ávkkástallat dihto luondduvalljodagain gieldda rájáid siskkobealde , earret eará mannet , uvjet ja murret dihto mearrái .
+Buot gieldda ássiin galgá leat vuoigatvuohta ávkkástallat dihto luondduvalljodagain gieldda rájáid siskkobealde , earret eará mannet , uvjet ja murret dihto
+mearrái .
Anker:
ocean / hav, sjø / meara, mearr / meri, mere / meara, X / saelht saalht*
Den abstrakte tydinga er vanlegare enn den konkrete, så vi må få begrenset, grad inn på norsk.
TILTAK
- Diffane som del av testresultat:
- alle tre versjonar: tmx, sme, nob.
- sme, nob separat
- Korpus av forkortingar
- dra ut par
asdf.vs.asdf.frå gull/konvertert-fil-para (Børre) - evaluere, og lagre som unit-test-dokument (Berit Merete, Trond)
- dra ut par
Status quo for gullkorpus
Vi har no to runder
TILTAK
- Penare tabell (Sjur)
4/345 341/345
3/345 342/345
25% 75% 0,0x%
Arbeid framover
Spm. er strategi for forbetring:
Forbetring
tca2-parametersetjing
Bruk gullkorpuset som referanse, og sjå om det er mogleg å få betre resultat ved hjelp av andre parameterverdiar i tca2.
Jf. dokumentasjon. Vi bruker i dag standardverdiar, som er laga for norsk-engelsk.
- Setningslengde (eit empirisk spm)
- Dice
- Vekting av dei ulike komponentane
TILTAK
- Test dei tre parameterverdiane (Børre)
Ankerfil
- Lese ankerfila med eit kritisk blikk (Børre, Trond, Berit Merete)
- Top-down: Køyr korpuset gjennom anker-fst-en, og legg til nye anker frå toppen, sjå på mest frekvente missing, (Sjur)
- prestable/tmx/…/sme/… og gjennom ein anchor.fst for sme
- prestable/tmx/…/nob/… og gjennom ein anchor.fst for nob
- Legge til i anchor (Børre, Trond, Berit Merete)
- Korpusdrive: Gå gjennom gullkorpuset, og legg til ord frå dei setningane som er feilparallellisert
abbr-jobbing
Det føreset nye gullfiler (eller å berre lese gjennom resultat)
TILTAK Berit Merete og Trond held fram.
Forbetre konverteringa
pdf: Fjerne topp- og bunntekst.
Terskelnivå
Når har vi eit bra nok resultat til å bedrive ordparallellisering?
TILTAK
- Spørre folk (Trond)
Neste møte
20.12. kl. 10.00.
(nb! Nye resultat til neste møte)