Language Technology at UiT The Arctic University of Norway

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Page Content

Parallelliseringsmøte 20.12.2011

Berit Merete, Børre, Sjur, Trond

Saksliste

hmm:

Status quo for testbed for gullkorpus

Vi har no 4 testar.

Vi får diff-filer generert, jf. nettside. Sjølve filene ligg no i techdoc/ling, dei skal flyttast til eigen katalog techdoc/ling/tca2testing/

Lenkje frå tabell er ikkje laga.

Prinispp for unit-testing:

  1. Ikkjetrivielle tilfelle skal inn i unit-testing for å teste, feks b.
  2. Trivielle ting skal vi berre rette med det same. (jf. “ein fork. Test”)

b.

Diskusjonen held fram i Bugzilla. Problemet ligg i preprocess linje 480ff.

TILTAK

status quo for gullkorpus

Fleire filer? Vi ventar til vi har evaluert det vi har.

TILTAK

arbeid framover

tca2 sine parameter

Status quo: Nettside

TILTAK

  1. Rekne ut tabellen på nytt utan samiske tall forteller
  2. For kvart parameter: kåre ein vinnar (max/min)
  3. Lage eit parameteroppsett med berre vinnarverdiar, og køyr det

Ankerfil

tca2 forstår initial stor bokstav sjølv om ankerfila berre har liten bokstav Det gjer derimot ikkje vår notinanchor.fst Den må også gjere det: inituppercase.fst .o. notinanchor.fst

I dag ligg ankerfila anchor.txt i $GTHOME/gt/common/src/

Anchor-missing: $GTHOME/tools/alignment-tools/tca2/missing/

Testresultat (diffene) i $GTHOME/techdoc/ling/tca2testing/

TILTAK

abbr-jobbing

Det føreset å berre lese gjennom resultat.

TILTAK Berit Merete og Trond held fram.

Forbetre konverteringa

TILTAK pdf: Fjerne topp- og bunntekst. (Børre)

Terskelnivå

Når har vi eit bra nok resultat til å bedrive ordparallellisering?

~/freecorpus/prestable$ccat -r converted/sme/ | wc -w 1731030 ~/freecorpus/prestable$ccat -r converted/nob/ | wc -w 2097929

spectie: here is my intuition:
spectie: the difference in quality of alignments between 2million words and 4
		 million words will probably be noticeable
spectie: for the lexicographers it will make no difference
spectie: because probably they want 50% of good alignments
spectie: whereas we are talking in the range of 10-20%
spectie: but the best thing to do is find out what they are expecting
spectie: and what they are willing to work with

Neste møte

Vi tar ein prat tre av oss før jul (torsdag).