Parallelliseringsmøte 20.12.2011
Berit Merete, Børre, Sjur, Trond
Saksliste
hmm:
- status quo for testbed for gullkorpus
- status quo for gullkorpus
- arbeid framover
Status quo for testbed for gullkorpus
Vi har no 4 testar.
Vi får diff-filer generert, jf. nettside.
Sjølve filene ligg no i techdoc/ling, dei skal flyttast til eigen katalog techdoc/ling/tca2testing/
Lenkje frå tabell er ikkje laga.
Prinispp for unit-testing:
- Ikkjetrivielle tilfelle skal inn i unit-testing for å teste, feks b.
- Trivielle ting skal vi berre rette med det same. (jf. “ein fork. Test”)
b.
Diskusjonen held fram i Bugzilla. Problemet ligg i preprocess linje 480ff.
TILTAK
- ny katalog for testresultat (Børre)
- Lenkje frå testtabell (Sjur) - gjort
- b. som i Bugzilla.
- Korpus av forkortingar
- Dra ut par
asdf.vs.asdf.frå gull/konvertert-fil-para (Børre) - Evaluere, og lagre som unit-test-dokument (Berit Merete, Trond)
- Ikkjetrivielle: abbr-test.py
-
Trivielle: echo “ein fork. Test” preprocess –abbr=sme/bin/abbr.txt eller legg til
- Dra ut par
status quo for gullkorpus
Fleire filer? Vi ventar til vi har evaluert det vi har.
TILTAK
- Penare tabell (Sjur) - halvgjort
arbeid framover
tca2 sine parameter
Status quo: Nettside
TILTAK
- Rekne ut tabellen på nytt utan samiske tall forteller
- For kvart parameter: kåre ein vinnar (max/min)
- Lage eit parameteroppsett med berre vinnarverdiar, og køyr det
Ankerfil
tca2 forstår initial stor bokstav sjølv om ankerfila berre har liten bokstav Det gjer derimot ikkje vår notinanchor.fst Den må også gjere det: inituppercase.fst .o. notinanchor.fst
I dag ligg ankerfila anchor.txt i $GTHOME/gt/common/src/
Anchor-missing:
$GTHOME/tools/alignment-tools/tca2/missing/
Testresultat (diffene) i $GTHOME/techdoc/ling/tca2testing/
TILTAK
- Top-down: Køyr korpuset gjennom anker-fst-en, og legg til nye anker frå toppen,
sjå på mest frekvente missing, (Sjur)
- prestable/tmx/…/sme/… og gjennom ein anchor.fst for sme
- prestable/tmx/…/nob/… og gjennom ein anchor.fst for nob
- Legge til i anchor (Børre, Trond, Berit Merete)
- Korpusdrive: Gå gjennom gullkorpuset, og legg til ord frå dei setningane som er feilparallellisert
abbr-jobbing
Det føreset å berre lese gjennom resultat.
TILTAK Berit Merete og Trond held fram.
Forbetre konverteringa
TILTAK pdf: Fjerne topp- og bunntekst. (Børre)
Terskelnivå
Når har vi eit bra nok resultat til å bedrive ordparallellisering?
~/freecorpus/prestable$ccat -r converted/sme/ | wc -w 1731030 ~/freecorpus/prestable$ccat -r converted/nob/ | wc -w 2097929
spectie: here is my intuition:
spectie: the difference in quality of alignments between 2million words and 4
million words will probably be noticeable
spectie: for the lexicographers it will make no difference
spectie: because probably they want 50% of good alignments
spectie: whereas we are talking in the range of 10-20%
spectie: but the best thing to do is find out what they are expecting
spectie: and what they are willing to work with
Neste møte
Vi tar ein prat tre av oss før jul (torsdag).
- Børre borte 23.12-4.1.
- BM borte?
- Trond på jobb i mellomjula.
- Sjur i Trondheim