Korpus-møte

Til stades: Børre, Sjur, Trond

nye metadata: kva slags bruk dokumentet er ok for (dokumentert med kva slags testar som har vorte køyrde)
automatiserte testar for så mykje som mogleg
Status quo for innsamla data
Status quo for uinnsamla data
arbeidsprioritering framover
kjøpa meir arbeidskraft?
Ta opp att doku-sida /doc/ling/corpus_maintenance.html
Andre saker?

nye metadata: kva slags bruk dokumentet er ok for (dokumentert med kva slags testar som har vorte køyrde)

Bruksområde

grammatisk analyse
terminologi og ordbok
maskinomsetjing
stavekontroll
grammatikkontroll

Krav til konvertering

Konverteringsfeil på teiknnivå (bokstav inn - bokstav ut)
Konverteringsfeil på dokumentnivå (dokument inn - (del)dokument ut)
OCR-feil
Språkattkjenningsfeil
- Les text_cat xsl? Ja
  - er text_cat for dårleg? Tja, med rett inndata er svaret ganske ok
  - er modellane for dårleg? - for tidleg å seia, vi må testa med korrekt xsl
- Står relevant data i xsl? – nei
  - Identifisere fleirspråklege filer, og leggje til info i deira xsl-filer
  - Døme i sme/admin/other_files inneheld 30 av 60 filer (kanskje) nob.
- Klarer text_cat å velje mellom språka når xsl er i orden?
  - Börre: ja.
  - Den største utfordringa: nob eller swe?

Språkattkjenning

n-gram
ordlister
teiknfrekvens

text_cat er frå Groningen, og perlbasert. Brendan Molloy har laga ein ny versjon, for sin eigen del og for “miljøet”, reinskrive i Python ut i frå artikkelen som Groningen-verktyet byggjer på.

TODO

Legge til språkinfo i xsl - halvautomatisk
ccat+analysator-test

automatiserte testar for så mykje som mogleg

Språkgjenkjenning og OCR-feil

ccat + analysator
- be ccat om språk X
- analyser språk X
- sjekk forholdet mellom alle ord og ukjende ord: FAIL dersom ukjende er > 5 %

Parallelle setningar

Gjeld berre parallelldokument

Mål: alle setningar skal vera parallelle, avvik maks 5 %
Metode: TCA

Status quo for innsamla data

Status quo for uinnsamla data

jus! nac1993 = NOU (den står i admin/dept/nou og i
lovtekstar i
opplæringslova står på sme, ikkje på nno

arbeidsprioritering framover

kjøpa meir arbeidskraft?

Andre saker?

Sitemap

Language Technology at UiT

Page Content