Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Parallelliseringsmøte 14.12.2011

Berit Merete, Børre, Sjur, Trond

Saksliste

Status quo for testbed for gullkorpus

cat fad_gull_diff_test-res.txt |tr '\n' '™'|sed 's/The diff for /€/g;'|sed 's/The tmx diff /€/g;' | tr '€' '\n' |grep 'nob '|tr '™' '\n'|l

Dette gjev output av typen:

@@ -74 +77,2 @@

-Lámispenš. 16–66 jagi – pr.  1000 ássi(1999 )
+Lámispenš .
+16–66 jagi – pr.  1000 ássi(1999 )

Den andre typen av feil er:

Setningspar:

testing prestable/tmx/goldstandard/nob2sme/laws/other_files/finnmarksloven.pdf.tmx …

The tmx diff is

Alle innbyggerne i den enkelte kommune har rett til utnyttelse av visse naturressurser innenfor kommunens grenser , blant annet egg- og dunsanking og begrenset hogst . Buot gieldda ássiin galgá leat vuoigatvuohta ávkkástallat dihto luondduvalljodagain gieldda rájáid siskkobealde , earret eará mannet , uvjet ja murret dihto mearrái .

-Buot gieldda ássiin galgá leat vuoigatvuohta ávkkástallat dihto luondduvalljodagain gieldda rájáid siskkobealde , earret eará mannet , uvjet ja murret dihto mearrái .
+Buot gieldda ássiin galgá leat vuoigatvuohta ávkkástallat dihto luondduvalljodagain gieldda rájáid siskkobealde , earret eará mannet , uvjet ja murret dihto
+mearrái .

Anker:

ocean / hav, sjø / meara, mearr / meri, mere / meara, X / saelht saalht*

Den abstrakte tydinga er vanlegare enn den konkrete, så vi må få begrenset, grad inn på norsk.

TILTAK

Status quo for gullkorpus

Vi har no to runder

TILTAK

4/345  341/345
3/345  342/345

25% 75% 0,0x%

Arbeid framover

Spm. er strategi for forbetring:

Forbetring

tca2-parametersetjing

Bruk gullkorpuset som referanse, og sjå om det er mogleg å få betre resultat ved hjelp av andre parameterverdiar i tca2.

Jf. dokumentasjon. Vi bruker i dag standardverdiar, som er laga for norsk-engelsk.

  1. Setningslengde (eit empirisk spm)
  2. Dice
  3. Vekting av dei ulike komponentane

TILTAK

Ankerfil

  1. Lese ankerfila med eit kritisk blikk (Børre, Trond, Berit Merete)
  2. Top-down: Køyr korpuset gjennom anker-fst-en, og legg til nye anker frå toppen, sjå på mest frekvente missing, (Sjur)
    1. prestable/tmx/…/sme/… og gjennom ein anchor.fst for sme
    2. prestable/tmx/…/nob/… og gjennom ein anchor.fst for nob
    3. Legge til i anchor (Børre, Trond, Berit Merete)
  3. Korpusdrive: Gå gjennom gullkorpuset, og legg til ord frå dei setningane som er feilparallellisert

abbr-jobbing

Det føreset nye gullfiler (eller å berre lese gjennom resultat)

TILTAK Berit Merete og Trond held fram.

Forbetre konverteringa

pdf: Fjerne topp- og bunntekst.

Terskelnivå

Når har vi eit bra nok resultat til å bedrive ordparallellisering?

TILTAK

Neste møte

20.12. kl. 10.00.

(nb! Nye resultat til neste møte)