Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Møte om korpus 26.10.2016

Til stades: Áilu, Børre, Ciprian, Lene, Sjur, Trond

Saksliste

Heimeside for korpusforbetring: [/ling/corpus_maintenance.html]

Jf. også: [/tools/tca2.html]

Innsamling av data

Det har skjedd lite i det siste. Forlaga er likevel positive.

$GTHOME/xtdoc/divvun/src/documentation/content/xdocs/adm/legal/writers-and-books.fods

Bøker frå DG:

Bøker med kontrakt i orden frå vår side

TILTAK:

Bøker med intern kontrakt med DG med klausul om korpus

For desse trengst det ikkje meir kontakt med forfattarane. Desse er avhengig av samtale mellom oss og SD (sjå nedanfor).

Bøker på andre forlag, eller eldre Davvi Girji, utan kontrakt

Det er visse forfattarar som er positive. For SBJ er det slik at ho har ikkje fått ein kontrakt. Også TR er positiv og har gitt ut flere tekster de siste årene.

Jf. Bz på eit par forfattarar:

Forlag: CL, Dat, DG før året då SD-kontrakten kom, SG

TILTAK

OCR

For evt. OCR-lesing må vi sjå på det, bruke erfaring frå arbeidet med Tesseract tidlegare.

Det nye kontraktregimet mellom SD og forlaga

Politisk er det vedteke at litteratur finansiert av Sametinget skal bli gjort tilgjengeleg for språkteknologisk forsking og utvikling. I praksis skjer ikkje dette.

Vi har ikke kontakta Sametinget for å høyre korleis dei sett dette vedtaket ut i live. Vi må følgje opp.

SD og Davvi Girji

Kontrakt mellom dei - utgangspunkt i NRK-kontrakten? Sjur pratar med SD.

Innsamling hos institusjonar

Sjur og Børre har prata om at Børre skulle ta ei reise til dei sentrale institusjonane, kanskje før jul.

Nasjonalbiblioteket

Trond tar kontakt om dette.

Det finske nasjonalbiblioteket

Dei har nordsamiske tekstar

Trond tar kontakt med JPH

Sverige

Vi har henta tekst frå sametinget.se og litt frå sentraladministrasjonen (manuell innsamling til sørsamisk, framfor alt).

Trond snakkar med LB

Tidsskrift

Gába (Lindi, Karasjok), Š (Iđut), Sámis

Gába - [http://www.saminissonforum.org/norsk/?page_id=35] Sámis - [http://www.samifaga.org/web/index.php?sladja=40&giella1=sam]

Filspesifikk forbetring av konvertering

Áilu fjernar: sidenummer, innhaldsliste, bibliografi, tabellar, irrelevante språk i tilfelle dokumentet er parallellspråkleg

To måtar å arbeide på:

  1. mixed-katalog: ei originalfil, genererer t.d. nob og sme
  2. same originalfil i to katalogar, nob og sme, med spesifisert område (dette er det Áilu gjer i dag)

Symbolske lenkjer: Vi gjer det i dag innafor same katalog, jf. boundcorpus/orig/sme/science. Symbolsk lenkje t.d. frå orig/nob til orig/sme har den ulempa at vi risikerer at berre sme- eller berre nob-katalogen blir henta.

Effektiv forbetring av metadata

Vi har 88500 filer.

$GTHOME/gt/script/change_xsl_generic.py

This is a script that changes empty values in a corpus xsl file
Call the program like this: change_xsl.py variable-value-pairs filename
This requires an odd number of args to the script
If a value contains a space, use "-chars around it.
e.g. change_xsl_generic.py sub_name "Ola Nordmann" sub_email ola.nordmann@samediggi.no olaolaheia.html.xsl

Vurdere fil- og katalognamn som kjelde til (halv)automatisk datahausting

TILTAK:

Prioriterte kategoriar for metadata:

  1. årstal
  2. originalspråk
  3. forfattarnasjonalitet
  4. forfattarnamn (for- og etternamn)

Korp-felta er desse:

For administrative tekstar: Sametinget, departementsnamn, kommunenamn. Vi siktar på “det lokale toppdomenet”. Sett under etternamn, og la fornamn stå tomt.

Forfattarnamn og forfattarkjønn

Forfattarkjønn og forfattars fødselsår er det mogleg å scripte inn. Vi prioriterer ikkje desse to kategoriane no.

Vi kan lage eit sentralt forfattarregister, med relevant metadata, som vi kan scripte inn.

  1. Dra ut ei liste av dagens forfattarnamn i korpus, lage til database
  2. Slå opp samtlege på Wikipedia, automatisk
  3. Samle varianter av navn som står for samme forfatter
  4. Lage ei samla liste så langt som det går, automatisk
  5. Starte med å fylle ut manglar, manuelt

Parallellisering

Grunnlagsarbeid:

Sjølve parallelliseringa er lett: parallelise og pickparallelfiles. Køyr med ulike grenseverdiar for lik fillengde

Hva med kvalitetssjekking av selve resultatene?

Hunalign og TCA2 gjev stort sett same resultat. Kvaliteten på output er avhengig av kvaliteten på input (kor parallell input er). TCA2 bruker ankerfil, mens Hunalign ikkje gjer det. Viss Hunalign har like gode resultat som TCA2 bør vi dermed bruke Hunalign.

Gamle todos (parallelliseringa er gjort av Lene, men dette skal videre til korpus/Korp):

TILTAK:

  1. Gamle todo (Trond, Ciprian)
  2. Parallelliser eksisterande filpar (Áilu) Kvalitetssikre med pickedparallellfiles og flytt til prestable
  3. Parallellisere alle i prestable med TCA2 og/eller Hunalign (Áilu)
  4. Lage prøve-Korp med alle parallelliserte par (Ciprian)
  5. Samtidig: Kvalitetsvurdere resultatet (det lagar vi detaljert plan for når vi kjem dit, men:)
    1. Vurdere talet på setningar: Sjå på output av filpar som ikkje har omtrent like mange setningar, og sjå manuelt på dei
    2. For filpar med omtrent like mange setningar: Ta stikkprøver og lær av det

Prioritering av desse (og evt. andre) satsingar (prioritere det som

Liste over arbeidsområde:

Overordna prioritering:

  1. Innsamlingsarbeid (dei prioriterte delane av innsamlingsarbeidet)
  2. Korpusarbeid

Detaljert prioritering:

Innsamlingsarbeid

  1. Innsamling av data som kan forsvinne - Børre, Sjur, Áilu
  2. Innsamling av store og/eller lett tilgjengelege data - Børre, Áilu, Trond
  3. Innsamling av vanskeleg tilgjengeleg data - Børre, Trond

Korpusarbeid

  1. parallellisering: Køyre programma - Áilu
  2. metadata - analyse: Ciprian, Børre, Áilu
  3. metadata - arbeid: Áilu
  4. parallellisering - Korp og kvalitetssikring
  5. forbetring av konvertering - Børre, Áilu