Møte om korpus 26.10.2016

Til stades: Áilu, Børre, Ciprian, Lene, Sjur, Trond

Saksliste

Innsamling av data,
filspesifikk forbetring av konvertering,
effektiv forbetring av metadata,
parallellisering,
prioritering av desse, fordeling av arbeid

Heimeside for korpusforbetring: [/ling/corpus_maintenance.html]

Jf. også: [/tools/tca2.html]

Innsamling av data

Det har skjedd lite i det siste. Forlaga er likevel positive.

$GTHOME/xtdoc/divvun/src/documentation/content/xdocs/adm/legal/writers-and-books.fods

Bøker frå DG:

Bøker med kontrakt i orden frå vår side

Dei har lovt å sende den litteraturen (skjønnlitteratur og faglitteratur) som vi har gjeve dei kontrakt for
Vi har fått ein del av dette
Den andre delen står på vent

TILTAK:

Børre sender e-post til JHS

Bøker med intern kontrakt med DG med klausul om korpus

For desse trengst det ikkje meir kontakt med forfattarane. Desse er avhengig av samtale mellom oss og SD (sjå nedanfor).

Bøker på andre forlag, eller eldre Davvi Girji, utan kontrakt

Det er visse forfattarar som er positive. For SBJ er det slik at ho har ikkje fått ein kontrakt. Også TR er positiv og har gitt ut flere tekster de siste årene.

Jf. Bz på eit par forfattarar:

Bz 1551 Árbbolaččat bind 1-3 i korpus (JÁV)
Bz 1630 Tekster fra SG
Bz 1631 SBJ sine tekster mangler i korpus

Forlag: CL, Dat, DG før året då SD-kontrakten kom, SG

TILTAK

Forfattarar med kontrakt:
- Dei kontraktane som kan bli sendt til forlaget blir sendt (Børre)
Forfattarar utan kontrakt:
Lage liste over forfattar, basert på forlagslister (Áilu, Børre)
Diskutere dette på neste møte, og deretter:
- Følgje opp forfattar for forfattar
- Blinke ut dei vi elles har kontakt med
- Lage geografisk baserte lister (Oslo, Tromsø, …)
- Snakke
- Møte opp
Skániid girji: Kontakt på nytt (Børre), deretter vurdere OCR

OCR

For evt. OCR-lesing må vi sjå på det, bruke erfaring frå arbeidet med Tesseract tidlegare.

Det nye kontraktregimet mellom SD og forlaga

Politisk er det vedteke at litteratur finansiert av Sametinget skal bli gjort tilgjengeleg for språkteknologisk forsking og utvikling. I praksis skjer ikkje dette.

Vi har ikke kontakta Sametinget for å høyre korleis dei sett dette vedtaket ut i live. Vi må følgje opp.

Sjur snakkar med Anne-Britt Hætta om dette, i denne veka.

SD og Davvi Girji

Kontrakt mellom dei - utgangspunkt i NRK-kontrakten? Sjur pratar med SD.

Sjur pratar med SD.

Innsamling hos institusjonar

Sjur og Børre har prata om at Børre skulle ta ei reise til dei sentrale institusjonane, kanskje før jul.

Nasjonalbiblioteket

Skjønnlitteratur som er bunde (SD-kontrakt er det ssv. ikkje hjelp i)
Litteratur i det fri
Litteratur (i det fri) med tidlegare ortografi

Trond tar kontakt om dette.

Det finske nasjonalbiblioteket

Dei har nordsamiske tekstar

Trond tar kontakt med JPH

Sverige

Vi har henta tekst frå sametinget.se og litt frå sentraladministrasjonen (manuell innsamling til sørsamisk, framfor alt).

Trond snakkar med LB

Tidsskrift

Gába (Lindi, Karasjok), Š (Iđut), Sámis

Gába - [http://www.saminissonforum.org/norsk/?page_id=35] Sámis - [http://www.samifaga.org/web/index.php?sladja=40&giella1=sam]

Filspesifikk forbetring av konvertering

Áilu fjernar: sidenummer, innhaldsliste, bibliografi, tabellar, irrelevante språk i tilfelle dokumentet er parallellspråkleg

To måtar å arbeide på:

mixed-katalog: ei originalfil, genererer t.d. nob og sme
same originalfil i to katalogar, nob og sme, med spesifisert område (dette er det Áilu gjer i dag)

Symbolske lenkjer: Vi gjer det i dag innafor same katalog, jf. boundcorpus/orig/sme/science. Symbolsk lenkje t.d. frå orig/nob til orig/sme har den ulempa at vi risikerer at berre sme- eller berre nob-katalogen blir henta.

Effektiv forbetring av metadata

Vi har 88500 filer.

$GTHOME/gt/script/change_xsl_generic.py

This is a script that changes empty values in a corpus xsl file
Call the program like this: change_xsl.py variable-value-pairs filename
This requires an odd number of args to the script
If a value contains a space, use "-chars around it.
e.g. change_xsl_generic.py sub_name "Ola Nordmann" sub_email ola.nordmann@samediggi.no olaolaheia.html.xsl

Vurdere fil- og katalognamn som kjelde til (halv)automatisk datahausting

html har publiseringsdata i eigne metadata, det bør vi kunne hente
- år, institusjon, (forfattar), osb.
filnamn har informasjon
katalognamn har informasjon

TILTAK:

Ailu, Ciprian, Trond ser på dette i forlenginga av ei morgonsamling i neste veke

Prioriterte kategoriar for metadata:

årstal
originalspråk
forfattarnasjonalitet
forfattarnamn (for- og etternamn)

Korp-felta er desse:

tittel: UNDEF
år: UNDEF
forfatters etternavn: UNDEF
domain: administration
forfatters fornavn: UNDEF

For administrative tekstar: Sametinget, departementsnamn, kommunenamn. Vi siktar på “det lokale toppdomenet”. Sett under etternamn, og la fornamn stå tomt.

Viss nasjonalitet = FI og originalspråk NONE, så skal “grepkorpuset” på divvunserveren legge desse filene inn i kategorien sme_fin
Viss nasjonalitet = SV og originalspråk NONE, så sme_swe

Forfattarnamn og forfattarkjønn

Forfattarkjønn og forfattars fødselsår er det mogleg å scripte inn. Vi prioriterer ikkje desse to kategoriane no.

Vi kan lage eit sentralt forfattarregister, med relevant metadata, som vi kan scripte inn.

Dra ut ei liste av dagens forfattarnamn i korpus, lage til database
Slå opp samtlege på Wikipedia, automatisk
Samle varianter av navn som står for samme forfatter
Lage ei samla liste så langt som det går, automatisk
Starte med å fylle ut manglar, manuelt

Parallellisering

Grunnlagsarbeid:

Kor mange parallellmerka språkpar har vi, og kor mange filpar for kvart par
Kor mange vil vi ha i korp (i dag: nob-sme)
Vi vil ha så mange parallellkorpora som vi har grunnlag til (?)
Moglege språkpar
- NOB: nob-sme, nob-sma, nob-smj
- SME: sme-sma, sme-smj, sme-smn, sme-sms
- FIN: fin-sme, fin-smn, fin-sms
- SWE: swe-sme, swe-sma, swe-smj (sannsynlegvis for få data) sametinget.se har en del paralleltekster

Sjølve parallelliseringa er lett: parallelise og pickparallelfiles. Køyr med ulike grenseverdiar for lik fillengde

Hva med kvalitetssjekking av selve resultatene?

Hunalign og TCA2 gjev stort sett same resultat. Kvaliteten på output er avhengig av kvaliteten på input (kor parallell input er). TCA2 bruker ankerfil, mens Hunalign ikkje gjer det. Viss Hunalign har like gode resultat som TCA2 bør vi dermed bruke Hunalign.

Gamle todos (parallelliseringa er gjort av Lene, men dette skal videre til korpus/Korp):

samiske tall (tekst-parallelisering),
SDA-2006 (tekst-parallelisering),
Lovtekster (setningsparallelisering)
mer info i [/admin/giellatekno/150114.html]