Parallelliseringsmøte 20.12.2011

Berit Merete, Børre, Sjur, Trond

Saksliste

hmm:

status quo for testbed for gullkorpus
status quo for gullkorpus
arbeid framover

Status quo for testbed for gullkorpus

Vi har no 4 testar.

Vi får diff-filer generert, jf. nettside. Sjølve filene ligg no i techdoc/ling, dei skal flyttast til eigen katalog techdoc/ling/tca2testing/

Lenkje frå tabell er ikkje laga.

Prinispp for unit-testing:

Ikkjetrivielle tilfelle skal inn i unit-testing for å teste, feks b.
Trivielle ting skal vi berre rette med det same. (jf. “ein fork. Test”)

b.

Diskusjonen held fram i Bugzilla. Problemet ligg i preprocess linje 480ff.

TILTAK

ny katalog for testresultat (Børre)
Lenkje frå testtabell (Sjur) - gjort
b. som i Bugzilla.
Korpus av forkortingar
- Dra ut par asdf. vs. asdf. frå gull/konvertert-fil-para (Børre)
- Evaluere, og lagre som unit-test-dokument (Berit Merete, Trond)
- Ikkjetrivielle: abbr-test.py
- Trivielle: echo “ein fork. Test” preprocess –abbr=sme/bin/abbr.txt eller legg til

status quo for gullkorpus

Fleire filer? Vi ventar til vi har evaluert det vi har.

TILTAK

Penare tabell (Sjur) - halvgjort

arbeid framover

tca2 sine parameter

Status quo: Nettside

TILTAK

Rekne ut tabellen på nytt utan samiske tall forteller
For kvart parameter: kåre ein vinnar (max/min)
Lage eit parameteroppsett med berre vinnarverdiar, og køyr det

Ankerfil

tca2 forstår initial stor bokstav sjølv om ankerfila berre har liten bokstav Det gjer derimot ikkje vår notinanchor.fst Den må også gjere det: inituppercase.fst .o. notinanchor.fst

I dag ligg ankerfila anchor.txt i $GTHOME/gt/common/src/

Anchor-missing: $GTHOME/tools/alignment-tools/tca2/missing/

Testresultat (diffene) i $GTHOME/techdoc/ling/tca2testing/

TILTAK

Top-down: Køyr korpuset gjennom anker-fst-en, og legg til nye anker frå toppen, sjå på mest frekvente missing, (Sjur)
- prestable/tmx/…/sme/… og gjennom ein anchor.fst for sme
- prestable/tmx/…/nob/… og gjennom ein anchor.fst for nob
Legge til i anchor (Børre, Trond, Berit Merete)
Korpusdrive: Gå gjennom gullkorpuset, og legg til ord frå dei setningane som er feilparallellisert

abbr-jobbing

Det føreset å berre lese gjennom resultat.

TILTAK Berit Merete og Trond held fram.

Forbetre konverteringa

TILTAK pdf: Fjerne topp- og bunntekst. (Børre)

Terskelnivå

Når har vi eit bra nok resultat til å bedrive ordparallellisering?

~/freecorpus/prestable$ccat -r converted/sme/ | wc -w 1731030 ~/freecorpus/prestable$ccat -r converted/nob/ | wc -w 2097929

spectie: here is my intuition:
spectie: the difference in quality of alignments between 2million words and 4
		 million words will probably be noticeable
spectie: for the lexicographers it will make no difference
spectie: because probably they want 50% of good alignments
spectie: whereas we are talking in the range of 10-20%
spectie: but the best thing to do is find out what they are expecting
spectie: and what they are willing to work with

Neste møte

Vi tar ein prat tre av oss før jul (torsdag).

Børre borte 23.12-4.1.
BM borte?
Trond på jobb i mellomjula.
Sjur i Trondheim

Sitemap

Language Technology at UiT

Page Content

Parallelliseringsmøte 20.12.2011

Saksliste

Status quo for testbed for gullkorpus

b.

status quo for gullkorpus

arbeid framover

tca2 sine parameter

Ankerfil

abbr-jobbing

Forbetre konverteringa

Terskelnivå

Neste møte

Sitemap