Trond
- korpusstrukteren (kva er kor, generell info (Lene sitt utgangspunkt))
- konverteringsrutinene (“korleis konverteringa skal fungere”)
- praktisk konvertering av freecorpus (har vi twig og perl på plass?)
- feilmeldingane i tmp/
- bruk av dei filspesifikke .xsl-filene (“korleis føre inn rettingar”)
- å legge til nye filer / bruke convert2xml.pl til konvertering av nye filer
- gullstandardfilene, korleis dei går inn i heilskapen, korleis dei er merka, konvertert
Lene
brukere av korpuset. dvs.
- struktur,
- varianter av ccat-kommandoen,
- hva gjør vi hvis vi finner feil,
- om:
- xsl-filene,
- gullkorpuset,
- det analyserte korpuset på divvun-serveren,
- regler for bruk av bound…
Trond2
brukarperspektivet gjeld (bør gjelde) for oss alle:
- korleis vi ser på korpuset (ccat)
- korleis vi legg inn rettingar i .xsl-filene
Eit av problema med korpuset er jo at både brukarane og konverterarane i for liten grad har sett på resultatet.
Forslag
Brukarperspektiv:
- struktur (vic, lokalt, xserve + free, bound - alt er svn)
- orig
- converted
- stable
- goldstandard
- ccat og andre måtar å bruka korpuset på
- om konverteringsprosessen
- fyrste steg (til førebels xml (= xhtml, docbook, m.m.)
- andre steg (til rå korpusxml - hovudkonverteringa)
- tredje steg (til nesten ferdig korpusxml - xsl-fil)
- fjerde steg (finpuss - språkattkjenning, feilmerkingskonvertering)
- feilretting:
- utanfor goldstandard
- i goldstandard
- etter feiltype:
- skrivefeil
- strukturfeil
- feil språk
- andre konverteringsfeil
- xsl-filene:
- kva, kor
- korleis dei blir brukte
- bruksreglar for bound
Konverteringsperspektiv:
- leggja til nye filer
- konvertera filer
- feilmeldingane in
tmp/
- omkonvertera allereie konverterte dokument:
- sjekka regresjonar + progresjonar
- sjekka inn nykonverteringa
- korleis testa konverteringa:
- sjå på før- og eter-teksten
- analysera alle ord
- sjekka alle setningar - at dei er setningar (og blir avslutta med .?! osb.)
Feilbehandling
Automatisk generert feilskriving i news
bilde:Leif
titt:Čiekčamat
mtitt:Ii
tekst:Álgočiekčamat
ingress:Mannan
byline:Johan
BILDETEKST:Dá
ÐMun
ÐGalanihtoguovllus
DagÈ
ÒVassdalenisÓ
oahpponeavvo-ráhkadeapmaiÓ
filer hvor de nordsamiske bokstavene er forsvunnet: Reportáaid Dieuid osv
Vi har ei felles common.xsl som blir brukt for alle konverteringar.
Her er det mogleg å leggje inn ei retting av typen “bilde: LÁIDEJIT”.
Sametinget har enno ikkje (?) fått i stand ein klausul for språkteknologisk forsking for tekst produsert med støtte av Sametinget.
Samarbeidsavtalen mellom fylkeskommunane og Sametinget bør inkludera overlevering av samiske dokument (og norske parallellfiler) til den samiske korpussamlinga.
Wordcount bør være med i metadata.
metadata mangler i xml-filene:
/apache_corpus/boundcorpus/orig/sme/news/Avvir_xml-filer/Avvir_2010_xml-filer
(sjekka f.eks. year, ingen av filene inneholder ordet).