Korpus-møte 26.10.2023
Til stades: Lene, Linda, Inga, Maja, Børre, Flammie, Sjur, Anders, Katri
Saksliste:
- Status for automatisk innhausting (jf sommarjobbaren)
- Kort om søknad til NB/Kulturdep
- Diskutera generell innsamling i ljos av søknaden over
- Diskutera korleis vi kan dra nytte av at korpusa no er i GitHub
- tidlegare innmeldte dokument pr e-post og korleis dei har vorte følgt opp
- nye rutinar i samarbeid med sametinga
Status for automatisk innhausting (jf sommarjobbaren)
- Kjørte innhøsting med oppdatering fra i sommer, hentet nye filer fra sametinget.no
- samarbeid med NB/Språkbanken om automatisk innhausting? Så kanskje vi slepp å halda trålarane våre oppdaterte heile tida.
Børre kontaktar NB/Språkbanken.
Kort om søknad til NB/Kulturdep
- vi vil be om alt, både tale og tekst, og alle språk (vi veit at metadata ikkje alltid stemmer)
- prata med kontaktane våre i NB før vi sender søknaden
- sjå på OCR-tilpassa retteprogram
- obs på samiske tekstar som er klassifiserte som andre språk, og som dermed har ført til dårleg OCR
- søkja om pengar for å korrigera OCR og utvikla prosessen deira vidare?
- dra med studentar? Master om OCR og samisk, andre relevante ting?
Innsamling i ljos av søknaden over
Inntil vidare samlar vi inn som tidlegare, sjå elles punktet om Sametinga lenger ned.
Nye rutinar i samarbeid med sametinga
- har laget egen epost-adresse korpus@divvun.no
- retningslinjer for korpus sammen med sametingene
Tidlegare innmeldte dokument pr e-post og korleis dei har vorte følgt opp
- tekstar frå Orkana forlag - Børre tek kontakt
- tilsetja ein eigen person for ein periode, for å
Diskutera korleis vi kan dra nytte av at korpusa no er i GitHub
- automatisk konvertering?
- automatisk parallellisering med manuell kontroll?
- metadata: f.eks: antall dokumenter, ord, setninger, antall setninger med skrivefeil
- korsjn få andra til å referer/siterer vårt korpuser rett?
- leggja ut automatisk genererte metadata og referansedata i dokumentasjonen for korpusa, inkl. metadata for lukka korpus i doc for dei opna korpusa
- dekningsgrad for analysatorane, både på ord- og setningsnivå
Ymse
- fjerne free- og boundcorpus fra gtsvn-apache