The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages
Berit Merete, Børre, Sjur, Trond
hmm:
Vi har no 4 testar.
Vi får diff-filer generert, jf. nettside.
Sjølve filene ligg no i techdoc/ling
, dei skal flyttast til eigen katalog techdoc/ling/tca2testing/
Lenkje frå tabell er ikkje laga.
Prinispp for unit-testing:
Diskusjonen held fram i Bugzilla. Problemet ligg i preprocess linje 480ff.
TILTAK
asdf.
vs. asdf.
frå gull/konvertert-fil-para (Børre)Trivielle: echo “ein fork. Test” | preprocess –abbr=sme/bin/abbr.txt eller legg til |
Fleire filer? Vi ventar til vi har evaluert det vi har.
TILTAK
Status quo: Nettside
TILTAK
tca2 forstår initial stor bokstav sjølv om ankerfila berre har liten bokstav Det gjer derimot ikkje vår notinanchor.fst Den må også gjere det: inituppercase.fst .o. notinanchor.fst
I dag ligg ankerfila anchor.txt i $GTHOME/gt/common/src/
Anchor-missing:
$GTHOME/tools/alignment-tools/tca2/missing/
Testresultat (diffene) i $GTHOME/techdoc/ling/tca2testing/
TILTAK
Det føreset å berre lese gjennom resultat.
TILTAK Berit Merete og Trond held fram.
TILTAK pdf: Fjerne topp- og bunntekst. (Børre)
Når har vi eit bra nok resultat til å bedrive ordparallellisering?
~/freecorpus/prestable$ccat -r converted/sme/ | wc -w 1731030 ~/freecorpus/prestable$ccat -r converted/nob/ | wc -w 2097929
spectie: here is my intuition:
spectie: the difference in quality of alignments between 2million words and 4
million words will probably be noticeable
spectie: for the lexicographers it will make no difference
spectie: because probably they want 50% of good alignments
spectie: whereas we are talking in the range of 10-20%
spectie: but the best thing to do is find out what they are expecting
spectie: and what they are willing to work with
Vi tar ein prat tre av oss før jul (torsdag).