Møte om parallellisering, 25.11.
Børre, Sjur, Trond.
Lage gullkorpus
Teste
Mål:
- Kor bra er parallelliseringa av gullkorpuset
- Deretter parameterjustering
Metode:
- Ta filer
- Ta problematiske avsnitt “parallellisere manglande avsnitt”
Måle med diff?
Lage gullstandard ved hjelp av det grafiske grensesnittet. Dokumenta skal vera:
- Tilfeldige dokument
- Alle sjangrar: admin, facta, law
- Alle filtyper: doc, html, pdf
- Evt. også problemdokument
- Dokument som vi ser inneheld feil i dag
- Dels regjeringen.no (manglande avsnitt), dels sametingsprotokollar (forkortingar)
Gullstandardfilene blir lagra i $GTFREE/prestable/tmx/goldstandard/
- tmx/sme2nob/ (for visse facta)
- tmx/nob2sme/katalogstruktur_som_i_orig.tmx (for alle admin, law, og visse facta)
TODO
- Plukke ut filer (Trond)
- Lage gullstandarden (Børre, Trond)
- setja opp testinfrastruktur, slik at vi får ja-nei-svar ut (Børre)
Dokumentasjon
Nok til å sparke i gang den grafiske klienten
Dokumentasjon ligg i README.txt
java -jar dist/lib/alignment-.jar
Dette vart fiksa under møtet.
Forbetring av parallelliseringa
Ankerfilene
Med effektiviseringa rett bak oss er storleiken på
ankerfilene ikkje noko problem.
Derimot kan feiltreff vere det.
- Gjev ankerpar misvisande par?
- Er fila så lang at prossesseringstid blir eit problem
- Er det ordpar som ikkje finst i ankerlista?
Dette ser vi på etter at gullkorpuset er på plass.
Parameter for setningslengde
- Take the corpus,
- divide it in sentences,
- count the number of sentences,
- count the number of characters,
- calculate number of char / sent.
TODO
Andre parameter
- Proper names
- Forkortingar
- Dice
- …
Dette kjem etter kvart som vi ser.