Parallelliseringsmøte 1.2.2012
Berit Merete, Børre, Sjur, Ciprian, Trond
Saksliste
- status for gullkorpus
 - status for parallellføringa
 - status for fase 1
 - arbeid framover
 
status for gullkorpus
TILTAK:
- finna kjelda til eaddjii-feilen, og retta han (Børre)
 - retta andre feil i konverteringa og parallellføringa (Børre)
 - retta opp feil i gullstandardkorpuset (Berit Merete)
 
Mål: parallellføringa må tilbake til eller bli betre enn ho var før siste regresjon.
status for parallellføringa
førre veka: 976 feil denne veka: 763 feil - halvvegs til målet om å nå ned til der vi var før regresjonen
BM jobbar med å retta feil (manglar) i Abbr, rettar skrivefeil i xsl. Børre jobbar med parallellføringa.
Mykje tid har gått med til å setja opp fyrst gamal og så ny (låne)maskin for BM.
status for fase 1 & 2
- parallellføring
    
- betre, men ikkje bra enno
 
 - nye tekstar
    
- Børre la til nye tekstar sist veke.
 
 - Sjur har testa autshumato:
    
- installert tmx som omsetjingsminne og brukt desse tmx-tekstane som omsetjingsminne
        
- Resultat: Treff i ca. 20% av setningarne. Det hendar at Autsh (OmegaT) segmenterer ulikt oss. 2-3 funksjonsord på norsk i same setning er godt nok til å generere ein kandidat.
 
 - prøveomsett tekst
 
 - installert tmx som omsetjingsminne og brukt desse tmx-tekstane som omsetjingsminne
        
 
Dokumentasjon og opplæring er den verkelege utfordringa ved Autsh.
Preprosessoren sett inn linjeskift og andre blankteikn rundt setningsgrense og teiknsetting. Dette blir støy når teksten skal brukast som omsetjingsminne. Dette er tidkrevjande. For å kunne bruke parallelltekstane våre som omsetjingsminne må vi rekonstruere teksten til ein versjon utan ekstra mellomrom.
Konklusjon: vi har noko som er brukbart som det er med tilgjengeleg omsetjingsminne. No er det berre å finjustera tmx-filene (fjerna ekstra blankteikn osb.) og laga dokumentasjon og nedlastingspakker.
OPPGÅVER:
- prøva Autsh. på Windowsar
 - skriva dokumentasjon (den eksisterande dokumentasjonen er for proffe IT-folk)
 - laga ferdige nedlastingspakker
 
arbeid framover
- abbr-arbeid
 - Setningsdeling ut over forkortingar (sitat, parantes, grenseteikn generelt)
 - Ordparallellisering
 - Autshumato-dok og -pakke
 
Regulære uttrykk for å finna problematiske korkortingar:
ccat -l sme -r converted/sme/ | kwic-snt '[0-9]\. b\. [A-Z]'
ccat -l sme -r converted/sme/ | kwic-snt ' kom\. [A-Z]'
Diskusjon kring segmenting og hermeteikn, både rundt og i setningar:
Han refererte til "Rapport om it.
 2004.
 " og sa videre  =>
<seg>Han refererte til "Rapport om it. 2004." og sa videre</seg>
Skolestyret sa: "øaksdjf aøksfj aø aøskfdj øaks ø. Ølkajskløf. Aøskjf. Øalksjf. Ølaksjf øl aløskfj."!!!!!!! =>
<seg>Skolestyret sa: "øaksdjf aøksfj aø aøskfdj øaks ø.</seg><seg>Ølkajskløf asf a;lks.</seg>
<seg>Aøskjf.</seg><seg> Øalksjf.</seg><seg> Ølaksjf øl aløskfj."</seg>
<seg>Skolestyret sa: "øaksdjf aøksfj aø aøskfdj øaks ø. Ølkajskløf. Aøskjf. Øalksjf. Ølaksjf øl aløskfj."<seg>
«Med disse ord,» sa formannen, «erklærer jeg møtet for hevet.»
Hvis Eva mener at «Adam er en idiot», bør hun søke avskjed av Paradiset. //
Mannen sa: «Så spør de meg hva det er i sekken. ‘Malt,’ svarer jeg.»
Finn-Erik Vinje: Sitat i sitat.
Mannen sa: // «Så spør de meg hva det er i sekken. // ‘Malt,’ svarer jeg.» Trond
Mannen sa: // «Så spør de meg hva det er i sekken. ‘Malt,’ svarer jeg.»    Børre meiner dette.
Trond: FEV er litt kompleks. Ein enkel versjon er denne:
Mannen sa: // «Så spør de meg hva det er i sekken. // Jeg nekter å svare.» Trond
Mannen sa: // «Så spør de meg hva det er i sekken. // Jeg nekter å svare.»    Børre meiner dette.
Mannen sa: // «Så spør de meg hva det er i sekken. // Jeg nekter å svare.» og satte seg tungt på stolen.     Trond
Mannen sa:    «Så spør de meg hva det er i sekken. Jeg nekter å svare.» og satte seg tungt på stolen. //  Børre
Resultatet av diskusjonen var denne regelen:
Ignorer hermeteikn
Neste møte
7.2.2012 kl. 10.00 (norsk tid).