Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Parallelliseringsmøte 19.1.2012

Berit Merete, Børre, Sjur, Ciprian, Trond

Saksliste

status for gullkorpus

Gullkorpus er under arbeid, det er ikkje ferdig.

Sidan sist: Køyringa 4.1. hadde 543 korrekte. Køyring i går hadde 548 rette. I tillegg til 5 fleire rette, var det nokre nye feil på …geavaheddji/geavaheaddji etc. Det kan vere preprocess har køyrd med --corr den eine gongen og utan --corr den andre.

Spørsmål: Har vi dei gamle gullkorpusversjonane? Nja. Vi har diff for dei ulike versjonane.

Siste køyring (18.1.) har nominelt gjeve oss dårlegare resultat enn før i visse prosjekt. Det er to grunnar til det: Siste svn-endringar var ikkje med på køyringa, og vi har ulik handsaming av ordformer, ssv. pga –corr.

TILTAK:

status for parallellføringa

Vi har no ikkje møte. Tema for neste møte, etter neste køyring.

arbeid framover

Fase 1: Setningsparallellisere

  1. forbetre parallelliseringa (Børre)
  2. leggje til nye tekstar (Børre)
  3. teste tmx i Autshumato (Sjur)
  4. setje strek og ordparallellisere - dato: 10.2.

Fase 2: Ordparallellisere

  1. Kontakte Francis og setje opp pipeline (parallelt med 1), 10.2. (Cip)
  2. Ta heile parallellkorpus og ordparallellisere

Fase 3: Vaske parallelle ord

Produktutvikling

Levere til FAD og rapportere

Rapport til FAD.

Neste møte

25.1. kl. 11.00 (norsk tid).