Møte om korpus 26.10.2016
Til stades: Áilu, Børre, Ciprian, Lene, Sjur, Trond
Saksliste
- Innsamling av data,
- filspesifikk forbetring av konvertering,
- effektiv forbetring av metadata,
- parallellisering,
- prioritering av desse, fordeling av arbeid
Heimeside for korpusforbetring: [/ling/corpus_maintenance.html]
Jf. også: [/tools/tca2.html]
Innsamling av data
Det har skjedd lite i det siste. Forlaga er likevel positive.
$GTHOME/xtdoc/divvun/src/documentation/content/xdocs/adm/legal/writers-and-books.fods
Bøker frå DG:
Bøker med kontrakt i orden frå vår side
- Dei har lovt å sende den litteraturen
(skjønnlitteratur og faglitteratur) som vi har gjeve dei kontrakt for
- Vi har fått ein del av dette
- Den andre delen står på vent
TILTAK:
- Børre sender e-post til JHS
Bøker med intern kontrakt med DG med klausul om korpus
For desse trengst det ikkje meir kontakt med forfattarane.
Desse er avhengig av samtale mellom oss og SD (sjå nedanfor).
Bøker på andre forlag, eller eldre Davvi Girji, utan kontrakt
Det er visse forfattarar som er positive. For SBJ er det slik
at ho har ikkje fått ein kontrakt. Også TR er positiv og har gitt ut flere tekster de siste årene.
Jf. Bz på eit par forfattarar:
- Bz 1551 Árbbolaččat bind 1-3 i korpus (JÁV)
- Bz 1630 Tekster fra SG
- Bz 1631 SBJ sine tekster mangler i korpus
Forlag: CL, Dat, DG før året då SD-kontrakten kom, SG
TILTAK
- Forfattarar med kontrakt:
- Dei kontraktane som kan bli sendt til forlaget blir sendt (Børre)
- Forfattarar utan kontrakt:
- Lage liste over forfattar, basert på forlagslister (Áilu, Børre)
- Diskutere dette på neste møte, og deretter:
- Følgje opp forfattar for forfattar
- Blinke ut dei vi elles har kontakt med
- Lage geografisk baserte lister (Oslo, Tromsø, …)
- Snakke
- Møte opp
- Skániid girji: Kontakt på nytt (Børre), deretter vurdere OCR
OCR
For evt. OCR-lesing må vi sjå på det, bruke erfaring frå arbeidet med Tesseract tidlegare.
Det nye kontraktregimet mellom SD og forlaga
Politisk er det vedteke at litteratur finansiert av Sametinget
skal bli gjort tilgjengeleg for språkteknologisk forsking og
utvikling. I praksis skjer ikkje dette.
Vi har ikke kontakta Sametinget for å høyre korleis dei
sett dette vedtaket ut i live. Vi må følgje opp.
- Sjur snakkar med Anne-Britt Hætta om dette, i denne veka.
SD og Davvi Girji
Kontrakt mellom dei - utgangspunkt i NRK-kontrakten? Sjur pratar med SD.
Innsamling hos institusjonar
Sjur og Børre har prata om at Børre skulle ta ei reise til dei sentrale institusjonane, kanskje før jul.
Nasjonalbiblioteket
- Skjønnlitteratur som er bunde (SD-kontrakt er det ssv. ikkje hjelp i)
- Litteratur i det fri
- Litteratur (i det fri) med tidlegare ortografi
Trond tar kontakt om dette.
Det finske nasjonalbiblioteket
Dei har nordsamiske tekstar
Trond tar kontakt med JPH
Sverige
Vi har henta tekst frå sametinget.se og litt frå
sentraladministrasjonen (manuell innsamling til sørsamisk,
framfor alt).
Trond snakkar med LB
Tidsskrift
Gába (Lindi, Karasjok), Š (Iđut), Sámis
Gába - [http://www.saminissonforum.org/norsk/?page_id=35]
Sámis - [http://www.samifaga.org/web/index.php?sladja=40&giella1=sam]
Filspesifikk forbetring av konvertering
Áilu fjernar: sidenummer, innhaldsliste, bibliografi, tabellar,
irrelevante språk i tilfelle dokumentet er parallellspråkleg
To måtar å arbeide på:
- mixed-katalog: ei originalfil, genererer t.d. nob og sme
- same originalfil i to katalogar, nob og sme, med spesifisert område
(dette er det Áilu gjer i dag)
Symbolske lenkjer: Vi gjer det i dag innafor same katalog, jf.
boundcorpus/orig/sme/science. Symbolsk lenkje t.d. frå orig/nob
til orig/sme har den ulempa at vi risikerer at berre sme- eller
berre nob-katalogen blir henta.
Vi har 88500 filer.
$GTHOME/gt/script/change_xsl_generic.py
This is a script that changes empty values in a corpus xsl file
Call the program like this: change_xsl.py variable-value-pairs filename
This requires an odd number of args to the script
If a value contains a space, use "-chars around it.
e.g. change_xsl_generic.py sub_name "Ola Nordmann" sub_email ola.nordmann@samediggi.no olaolaheia.html.xsl
Vurdere fil- og katalognamn som kjelde til (halv)automatisk datahausting
- html har publiseringsdata i eigne metadata, det bør vi kunne hente
- år, institusjon, (forfattar), osb.
- filnamn har informasjon
- katalognamn har informasjon
TILTAK:
- Ailu, Ciprian, Trond ser på dette i forlenginga av ei morgonsamling
i neste veke
Prioriterte kategoriar for metadata:
- årstal
- originalspråk
- forfattarnasjonalitet
- forfattarnamn (for- og etternamn)
Korp-felta er desse:
- tittel: UNDEF
- år: UNDEF
- forfatters etternavn: UNDEF
- domain: administration
- forfatters fornavn: UNDEF
For administrative tekstar: Sametinget, departementsnamn, kommunenamn.
Vi siktar på “det lokale toppdomenet”. Sett under etternamn, og la
fornamn stå tomt.
- Viss nasjonalitet = FI og originalspråk NONE, så skal
“grepkorpuset” på divvunserveren legge desse filene inn
i kategorien sme_fin
- Viss nasjonalitet = SV og originalspråk NONE, så sme_swe
Forfattarnamn og forfattarkjønn
Forfattarkjønn og forfattars fødselsår er det mogleg å scripte inn.
Vi prioriterer ikkje desse to kategoriane no.
Vi kan lage eit sentralt forfattarregister, med relevant
metadata, som vi kan scripte inn.
- Dra ut ei liste av dagens forfattarnamn i korpus, lage til database
- Slå opp samtlege på Wikipedia, automatisk
- Samle varianter av navn som står for samme forfatter
- Lage ei samla liste så langt som det går, automatisk
- Starte med å fylle ut manglar, manuelt
Parallellisering
Grunnlagsarbeid:
- Kor mange parallellmerka språkpar har vi, og kor mange filpar for kvart par
- Kor mange vil vi ha i korp (i dag: nob-sme)
- Vi vil ha så mange parallellkorpora som vi har grunnlag til (?)
- Moglege språkpar
- NOB: nob-sme, nob-sma, nob-smj
- SME: sme-sma, sme-smj, sme-smn, sme-sms
- FIN: fin-sme, fin-smn, fin-sms
- SWE: swe-sme, swe-sma, swe-smj
(sannsynlegvis for få data) sametinget.se har en del paralleltekster
Sjølve parallelliseringa er lett: parallelise
og
pickparallelfiles
.
Køyr med ulike grenseverdiar for lik fillengde
Hva med kvalitetssjekking av selve resultatene?
Hunalign og TCA2 gjev stort sett same resultat. Kvaliteten på output
er avhengig av kvaliteten på input (kor parallell input er). TCA2 bruker
ankerfil, mens Hunalign ikkje gjer det. Viss Hunalign har like gode
resultat som TCA2 bør vi dermed bruke Hunalign.
Gamle todos (parallelliseringa er gjort av Lene, men dette skal videre til korpus/Korp):
- samiske tall (tekst-parallelisering),
- SDA-2006 (tekst-parallelisering),
- Lovtekster (setningsparallelisering)
- mer info i
[/admin/giellatekno/150114.html]
TILTAK:
- Gamle todo (Trond, Ciprian)
- Parallelliser eksisterande filpar (Áilu)
Kvalitetssikre med pickedparallellfiles og flytt til prestable
- Parallellisere alle i prestable med TCA2 og/eller Hunalign (Áilu)
- Lage prøve-Korp med alle parallelliserte par (Ciprian)
- Samtidig: Kvalitetsvurdere resultatet
(det lagar vi detaljert plan for når vi kjem dit, men:)
- Vurdere talet på setningar: Sjå på output av filpar som
ikkje har omtrent like mange setningar, og sjå manuelt på dei
- For filpar med omtrent like mange setningar: Ta stikkprøver og
lær av det
Prioritering av desse (og evt. andre) satsingar (prioritere det som
Liste over arbeidsområde:
Overordna prioritering:
- Innsamlingsarbeid (dei prioriterte delane av innsamlingsarbeidet)
- Korpusarbeid
Detaljert prioritering:
Innsamlingsarbeid
- Innsamling av data som kan forsvinne - Børre, Sjur, Áilu
- Innsamling av store og/eller lett tilgjengelege data - Børre, Áilu, Trond
- Innsamling av vanskeleg tilgjengeleg data - Børre, Trond
Korpusarbeid
- parallellisering: Køyre programma - Áilu
- metadata - analyse: Ciprian, Børre, Áilu
- metadata - arbeid: Áilu
- parallellisering - Korp og kvalitetssikring
- forbetring av konvertering - Børre, Áilu