The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages
Sist veke: Tall for parallellkorpora
Kategori | Nordsamisk | Lulesamisk | Sørsamisk |
---|---|---|---|
Samiske ord i tospråkleg korpus | 2 825 160 | 51 807 | 50 452 |
Samiske ord i einspråkleg korpus | 18 055 008 | 622 994 | 437 507 |
Prosent av korpuset med norsk parallell | 16 % | 8 % | 12 % |
(korrigert for ¶ er storleiken på sme-korpuset 17,6 mill.)
Sett på det grafiske grensesnittet for tca2, forstå korfor vi får feila vi får, og rette på dei.
Lene: tca2 tar ikkje 3:1-par (jf. Lene sin artikkel)
The program supposes that these kinds of alignments are possible:
Det er naturlig å se spesielt på 0-1 og 1-0 setninger ved manuell sjekk, de kan være den manglende 3. setninga (3-1, 1-3)
The program gives scores to the sentence combinations according to these criteria: * anchor word list, also with wild cards. Phrases are possible. The current list contains 1096 word pairs (2009). * proper nouns (words with uppercase first letter and the same spelling). * string similarity, with the Dice coecient * sentence length (the number of characters for each sentence candidate sme/smj, eventually multiplied with a length factor (sentences in language B expected to be e.g. 1.1 times longer than sentences in language A)) – OBS her er et parameter!
TODO:
Rapportering for goldstandard fungerte ikkje. £, ¥ osb. vart ikkje konvertert. Cronjobben er på, men sender ikkje e-post (til Sjur, i det minste) 02:05 kvar natt skal det gå ein e-post. Den kjem til Børre men ikkje til Sjur (mystisk).
Det konverterte gullstandardkorpuset inneheld framleis dei originale feilmerkingsmerka, og ikkje xml-merking.
Børre ser 43 filer med feil i gullkorpuset.
TODO
Det er framleis konverteringsfeil, men langt færre systematiske, no er dei meir filspesifikke.
TODO:
Siste køyring er 28.3.
TODO
Sjur, Børre, Brandon Molloy har jobbet med å lage et veldig bra normativt verktøy for å teste input og output av lookup og hfst-lookup, mao. man ser om analyse og ordform stemmer overens og får opp feilmeldinger dersom det er noe som ikke stemmer. Dette verktøyet er laget for sørsamisk, lulesamisk og nordsamisk.
Dette verktøyet skal brukes til å teste det du selv spesifiserer at du skal teste. Dette kan bli et nyttig verktøy for oss etterhvert. Her er dokumentasjonen
Kommandoene er:
make fsttest GTLANG=sma
, test av Xerox-transduseremake hfsttest GTLANG=sma
, test av HFST-transdusereAbbr, acro, der, sms, osb
Testing Xerox FST dictionaries
[PASS] - Test 0: Noun - gåetie (Lexical/Generation)
[FAIL] - Test 1: Noun - gåetie (Surface/Analysis)
[PASS] - Test 2: Noun - gåata (Lexical/Generation)
[FAIL] - Test 3: Noun - gåata (Surface/Analysis)
[PASS] - Test 4: Noun - maana (Lexical/Generation)
[FAIL] - Test 5: Noun - maana (Surface/Analysis)
[PASS] - Test 6: Noun - bearkoe (Lexical/Generation)
[FAIL] - Test 7: Noun - bearkoe (Surface/Analysis)
[FAIL] - Test 8: Noun - nïejte (Lexical/Generation)
[FAIL] - Test 9: Noun - nïejte (Surface/Analysis)
[PASS] - Test 10: Noun - gierehtse (Lexical/Generation)
[FAIL] - Test 11: Noun - gierehtse (Surface/Analysis)
[PASS] - Test 12: Noun - daktere (Lexical/Generation)
[FAIL] - Test 13: Noun - daktere (Surface/Analysis)
[PASS] - Test 14: Adj - noere (Lexical/Generation)
[FAIL] - Test 15: Adj - noere (Surface/Analysis)
[PASS] - Test 16: Verb - båetedh (Lexical/Generation)
[FAIL] - Test 17: Verb - båetedh (Surface/Analysis)
Total fails: 38
Feilmelding til Sjur :-) ===> svn up, og prøv på nytt
gt$HfstTester.py -C -x -i -c sma/testing/sma-tests.yaml
Traceback (most recent call last):
File "/home/trond/gtsvn/gt/script/HfstTester.py", line 43, in ?
import os, json, traceback
ImportError: No module named json
Ny versjon:
~/gtsvn/gt$HfstTester.py -C -x -i -c -t 'Noun - gåetie' sma/testing/sma-tests.yaml
Testing Xerox FST dictionaries
[PASS] - Test 0: Noun - gåetie (Lexical/Generation)
[FAIL] - Test 1: Noun - gåetie (Surface/Analysis)
Total fails: 8
TODO
$GTPRIV
og sjekke om disse er innlemmet i våre programmer (Trond, Sjur)Vi må diskutere tre ting når det gjelder ordbøker:
TODO
Trond har levert ein rapport til FAD om prosjektet 31.3 (plan/externalprojects/fad/fadv.tex)
Fordelinga av korrekte former i kvar tidel av konfidensintervallet (0.0 < 0.1 ; 0.1 < 0.2 < …). Dårleg nytt: Formene er jamnt fordelt i forhold til probability-verdien
TODO
Tomi’s bugs are fixed. Now going to compile a new speller.
Vi venter på støtte for InDesign, 64-bits Office
Divvun 2.2 vil innehalde
TODO
Vi diskuterte ulike alternativ.
Artikkel om Divvun-omorganiseringa i avisa Ságat i forrige uke.
Det ser ut til å bli fart i arbeidet fra FADs side for å få omorganiseringa gjennomført.
Vil vi Tromsø arrangere konferansen i mai 2013? 100-120 deltakere.
samisk-finskugrisk workshop?
Samarbeid med Senter for samiske studier, IS? Få hjelp av studenter og andre frivillige
TODO