Language Technology at UiT The Arctic University of Norway

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Page Content

Meeting setup

Agenda

Opening, agenda review, participants

Korpus

Parallellføring

Sist veke: Tall for parallellkorpora

Kategori Nordsamisk Lulesamisk Sørsamisk
Samiske ord i tospråkleg korpus 2 825 160 51 807 50 452
Samiske ord i einspråkleg korpus 18 055 008 622 994 437 507
Prosent av korpuset med norsk parallell 16 % 8 % 12 %

(korrigert for ¶ er storleiken på sme-korpuset 17,6 mill.)

Sett på det grafiske grensesnittet for tca2, forstå korfor vi får feila vi får, og rette på dei.

Lene: tca2 tar ikkje 3:1-par (jf. Lene sin artikkel)

The program supposes that these kinds of alignments are possible:

Det er naturlig å se spesielt på 0-1 og 1-0 setninger ved manuell sjekk, de kan være den manglende 3. setninga (3-1, 1-3)

The program gives scores to the sentence combinations according to these criteria: * anchor word list, also with wild cards. Phrases are possible. The current list contains 1096 word pairs (2009). * proper nouns (words with uppercase first letter and the same spelling). * string similarity, with the Dice coecient * sentence length (the number of characters for each sentence candidate sme/smj, eventually multiplied with a length factor (sentences in language B expected to be e.g. 1.1 times longer than sentences in language A)) – OBS her er et parameter!

TODO:

  1. Få tca2 til å fungere på alle relevante maskiner (Berit Merete, Børre, Trond, …)
  2. sjekke om det er eit tak på 2-1/1-2, og diskutere med Øystein Reigem (Børre, Trond)
  3. sjå på preprosesseringa (Ser vi på etterpå)

Konvertering av feilmerking i gullkorpuset.

Rapportering for goldstandard fungerte ikkje. £, ¥ osb. vart ikkje konvertert. Cronjobben er på, men sender ikkje e-post (til Sjur, i det minste) 02:05 kvar natt skal det gå ein e-post. Den kjem til Børre men ikkje til Sjur (mystisk).

Det konverterte gullstandardkorpuset inneheld framleis dei originale feilmerkingsmerka, og ikkje xml-merking.

Børre ser 43 filer med feil i gullkorpuset.

TODO

Konvertering av det allmenne korpuset.

Det er framleis konverteringsfeil, men langt færre systematiske, no er dei meir filspesifikke.

TODO:

  1. Se på filspesifikke missing-lister for å finne feil.

Cronjob-analysene på xserven

Siste køyring er 28.3.

TODO

Infrastruktur

Sjur, Børre, Brandon Molloy har jobbet med å lage et veldig bra normativt verktøy for å teste input og output av lookup og hfst-lookup, mao. man ser om analyse og ordform stemmer overens og får opp feilmeldinger dersom det er noe som ikke stemmer. Dette verktøyet er laget for sørsamisk, lulesamisk og nordsamisk.

Dette verktøyet skal brukes til å teste det du selv spesifiserer at du skal teste. Dette kan bli et nyttig verktøy for oss etterhvert. Her er dokumentasjonen

Kommandoene er:

Abbr, acro, der, sms, osb

Testing Xerox FST dictionaries
[PASS] - Test 0: Noun - gåetie (Lexical/Generation)
[FAIL] - Test 1: Noun - gåetie (Surface/Analysis)
[PASS] - Test 2: Noun - gåata (Lexical/Generation)
[FAIL] - Test 3: Noun - gåata (Surface/Analysis)
[PASS] - Test 4: Noun - maana (Lexical/Generation)
[FAIL] - Test 5: Noun - maana (Surface/Analysis)
[PASS] - Test 6: Noun - bearkoe (Lexical/Generation)
[FAIL] - Test 7: Noun - bearkoe (Surface/Analysis)
[FAIL] - Test 8: Noun - nïejte (Lexical/Generation)
[FAIL] - Test 9: Noun - nïejte (Surface/Analysis)
[PASS] - Test 10: Noun - gierehtse (Lexical/Generation)
[FAIL] - Test 11: Noun - gierehtse (Surface/Analysis)
[PASS] - Test 12: Noun - daktere (Lexical/Generation)
[FAIL] - Test 13: Noun - daktere (Surface/Analysis)
[PASS] - Test 14: Adj - noere (Lexical/Generation)
[FAIL] - Test 15: Adj - noere (Surface/Analysis)
[PASS] - Test 16: Verb - båetedh (Lexical/Generation)
[FAIL] - Test 17: Verb - båetedh (Surface/Analysis)
Total fails: 38

Feilmelding til Sjur :-) ===> svn up, og prøv på nytt

gt$HfstTester.py -C -x -i -c sma/testing/sma-tests.yaml
Traceback (most recent call last):
  File "/home/trond/gtsvn/gt/script/HfstTester.py", line 43, in ?
    import os, json, traceback
ImportError: No module named json

Ny versjon:

~/gtsvn/gt$HfstTester.py -C -x -i -c -t 'Noun - gåetie' sma/testing/sma-tests.yaml
Testing Xerox FST dictionaries
[PASS] - Test 0: Noun - gåetie (Lexical/Generation)
[FAIL] - Test 1: Noun - gåetie (Surface/Analysis)
Total fails: 8

TODO

Ordbøker

Vi må diskutere tre ting når det gjelder ordbøker:

TODO

Forvaltningsordboksprosjektet

Trond har levert ein rapport til FAD om prosjektet 31.3 (plan/externalprojects/fad/fadv.tex)

Fordelinga av korrekte former i kvar tidel av konfidensintervallet (0.0 < 0.1 ; 0.1 < 0.2 < …). Dårleg nytt: Formene er jamnt fordelt i forhold til probability-verdien

TODO

Divvun 2.2

Tomi’s bugs are fixed. Now going to compile a new speller.

Divvun 2.2 vil innehalde

TODO

Vikar for Maja

Vi diskuterte ulike alternativ.

Divvun-omorganiseringa

Artikkel om Divvun-omorganiseringa i avisa Ságat i forrige uke.

Det ser ut til å bli fart i arbeidet fra FADs side for å få omorganiseringa gjennomført.

NoDaLiDa 2013

Vil vi Tromsø arrangere konferansen i mai 2013? 100-120 deltakere.

samisk-finskugrisk workshop?

Samarbeid med Senter for samiske studier, IS? Få hjelp av studenter og andre frivillige

TODO

Vårprogrammet