Korpus-møte
Til stades: Børre, Sjur, Trond
- nye metadata: kva slags bruk dokumentet er ok for (dokumentert med kva slags testar som har vorte køyrde)
- automatiserte testar for så mykje som mogleg
- Status quo for innsamla data
- Status quo for uinnsamla data
- arbeidsprioritering framover
- kjøpa meir arbeidskraft?
- Ta opp att doku-sida /doc/ling/corpus_maintenance.html
- Andre saker?
Bruksområde
- grammatisk analyse
- terminologi og ordbok
- maskinomsetjing
- stavekontroll
- grammatikkontroll
Krav til konvertering
- Konverteringsfeil på teiknnivå (bokstav inn - bokstav ut)
- Konverteringsfeil på dokumentnivå (dokument inn - (del)dokument ut)
- OCR-feil
- Språkattkjenningsfeil
- Les text_cat xsl? Ja
- er text_cat for dårleg? Tja, med rett inndata er svaret ganske ok
- er modellane for dårleg? - for tidleg å seia, vi må testa med korrekt xsl
- Står relevant data i xsl? – nei
- Identifisere fleirspråklege filer, og leggje til info i deira xsl-filer
- Døme i sme/admin/other_files inneheld 30 av 60 filer (kanskje) nob.
- Klarer text_cat å velje mellom språka når xsl er i orden?
- Börre: ja.
- Den største utfordringa: nob eller swe?
Språkattkjenning
- n-gram
- ordlister
- teiknfrekvens
text_cat er frå Groningen, og perlbasert. Brendan Molloy har laga ein ny
versjon, for sin eigen del og for “miljøet”, reinskrive i Python ut i frå artikkelen som Groningen-verktyet byggjer på.
TODO
- Legge til språkinfo i xsl - halvautomatisk
- ccat+analysator-test
automatiserte testar for så mykje som mogleg
Språkgjenkjenning og OCR-feil
- ccat + analysator
- be ccat om språk X
- analyser språk X
- sjekk forholdet mellom alle ord og ukjende ord: FAIL dersom ukjende er > 5 %
Parallelle setningar
Gjeld berre parallelldokument
- Mål: alle setningar skal vera parallelle, avvik maks 5 %
- Metode: TCA
Status quo for innsamla data
Status quo for uinnsamla data
- jus! nac1993 = NOU (den står i admin/dept/nou og i
- lovtekstar i
- opplæringslova står på sme, ikkje på nno
arbeidsprioritering framover
kjøpa meir arbeidskraft?
Andre saker?