Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Korpus-møte

Til stades: Børre, Ciprian, Sjur, Trond

Status quo for innsamla data

Konverteringa

dtd berre online

xml som blir konvertert gjennom konvertering blir validert mot divvun-servaren. Det vi vil:

  1. Kunne konvertere også offline.
  2. Kunne oppdatere dtd-ane utan manuell kopiering på divvun.no

Løysing: Referere til dtd lokalt gjennom heile konverteringa, men byt ut til dtd-ref på nettet i det ferdigkonverterte dokumentet.

TILTAK

Konverteringsfeil

Dvs convert2xml:

Parallellføring:

  1. finst det eit parallelt dokument?
  2. inneheld det parallelle dokumentet tekst?
  3. inneheld dei parallelle dokumenta tekst på rett språk?

pdf-dokument i stable

~/freecorpus/stable/converted/sme/admin/depts$ll other_files/*xml|wc -l
      62
~/freecorpus/stable/converted/sme/admin/depts$ll regjeringen.no/*xml|wc -l
    1003

Testing

dersom konverteringa er ok, sjekk innhaldet:

Språktagging:

Innhaldssjekking:

Språktagging

cat_text

ccat -l smj -r stable/../sme/../regjeringen.no/ inneheld 15% nordsamisk

Denne innehelt 15% sme. Vi må forbetre cat_text

TILTAK

Testing av stable

testing av sme/../regjeringen.no

Teknisk har konverteringa av html-filene gått bra. Det er ingen vesentlege feil med konvertering og språkattkjenning. Den typen feil som står att treng vi metodar for å finne.

Oppdatering: det er framleis problem med tekstgjenkjenninga (OCR? nei, vanleg tekst), men det krev fyrst og fremst oppdaterte metadata, jf Bugzilla #1146.

testing av sme/../other_files

Korpusstrategi

“stable”

Kva er stable?

  1. Sjur: Kvalitetssikra (automatisk, manuell) og sjekka for minst eitt bruksområde B. Metadata: stable modulo B.
    1. Men: kva er B? ±parallell, ±original == .xsl !!!
  2. Trond: Vi treng både unstable og stable.

Bruksområde:

Framtid:

stable/
	   converted/
	   tagged/
	   goldstandard/

Språkblanda dokument

Dokument som inneheld same tekst fleire gonger, på ulike språk

  1. multikatalog
  2. duplisere og triplisere dokumenta
  3. ha dokumentet i språkkatalogen til språket som står først

Konsensus for 1.? Ja.

Status quo for uinnsamla data

arbeidsprioritering framover, deadlines

  1. ccat-feil for testbenkprosjektet
  2. Innhald
    1. parallell sme-nob (FAD, Autsh, online)
    2. monolingual sma (grammatikkutvikling)

Deadlines

Neste møte