Parallelliseringsmøte 7.2.2012
Berit Merete, Børre, Sjur, Ciprian, Trond
Saksliste
- status for gullkorpus
- status for parallellføringa
- status for ordparallellisering
- status for fase 1
- arbeid framover
Status for gullkorpus
BM: korleis blir typos-lista brukt? Korleis skal data som ligg i
fila sjå ut? Kan ein bruka regulære uttrykk i oppføringane?
Svar: nei + kort historikk for typos-fila.
Status: 528 feil (7 færre feil enn førre bestenotering med same
data, 95,82 % rett most tidlegare 95,74 %)
TILTAK
- Doble eller fleire mellomrom som output av preprosessor må skvisast
til eitt, for å sikre konsistens. Gullkorpus må dermed også
kontrollerast for evt. doble mellomrom.
- “sør” + punktum
- “su” + punktum
- flytte unnimuspenšonista lenger opp i anchor-lista
- sjekka matsjealgoritmen for ankerlista - er det fyrste treff som
gjeld, eller noko anna? Det bør vera lengste treff som vinn, men
fyrste treff er ok - då kan vi sortera på lengde (dvs lengst fyrst)
- skråstrek / treng betre handtering - dvs punktum + skråstrek
- men ikkje gjer noko med A/S (eller D/S ol.)
- “dr.polit.-utdanningen” - feil segmentering
- Det same gjeld punktum pluss alle desse symbola:
Status for parallellføringa
Gullstandardtalet i dag er 95,82.
Status for ordparallellisering
Enno ikkje dokumentert, men vi har fått ei lenke
TILTAK
- Pipeline klar til 13.2.
- sjå på Giza (Ciprian)
- diskuter med Francis (Trond)
Status for fase 1
Fase 1: Setningsparallellisere
- forbetre parallelliseringa (Børre) - kontinuerleg
- leggje til nye tekstar (Børre) - kontinuerleg (og automatisk)
- teste tmx i Autshumato (Sjur) - gjort, ser bra ut, krev rein tmx
- setje strek og ordparallellisere - dato: 10.2.
Skal vere ferdig på fredag.
Arbeid framover
- 10.2. parallellisering
- 10.2. tidsestimat for ordparallellisering
- 13.2. setningsparallellisert korpus
- 13.2. pipeline for ordparallellisering
- konvertera pseudo-tmx til ekte tmx (dvs utan ekstra mellomrom)
- testa og dokumentera bruken av Autshumato med TMX
- særleg bruken av sentrale tmx-lager
- sjekka tmx-krava til Trados
- laga ferdige TMX-pakker til nedlasting?
- frist for TMX: 1.3. (samtidig som rapporten)
Neste møte
Mandag 13.2.2012 kl 10