Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Møte om parallellisering, 25.11.

Børre, Sjur, Trond.

Lage gullkorpus

Teste

Mål:

  1. Kor bra er parallelliseringa av gullkorpuset
  2. Deretter parameterjustering

Metode:

  1. Ta filer
  2. Ta problematiske avsnitt “parallellisere manglande avsnitt”

Måle med diff?

Lage gullstandard ved hjelp av det grafiske grensesnittet. Dokumenta skal vera:

Gullstandardfilene blir lagra i $GTFREE/prestable/tmx/goldstandard/

TODO

Dokumentasjon

Nok til å sparke i gang den grafiske klienten

Dokumentasjon ligg i README.txt

java -jar dist/lib/alignment-.jar

Dette vart fiksa under møtet.

Forbetring av parallelliseringa

Ankerfilene

Med effektiviseringa rett bak oss er storleiken på ankerfilene ikkje noko problem.

Derimot kan feiltreff vere det.

  1. Gjev ankerpar misvisande par?
  2. Er fila så lang at prossesseringstid blir eit problem
  3. Er det ordpar som ikkje finst i ankerlista?

Dette ser vi på etter at gullkorpuset er på plass.

Parameter for setningslengde

  1. Take the corpus,
  2. divide it in sentences,
  3. count the number of sentences,
  4. count the number of characters,
  5. calculate number of char / sent.

TODO

Andre parameter

Dette kjem etter kvart som vi ser.