Korpusmøte 13.4.2022

Til stades: Børre, Sjur, Trond

Saker:

To hovudproblem:

Spørsmål:

Moglege svar:

Bilder fjernes fra pdf-er med ghostscript

gs -q -o <newname> -sDEVICE=pdfwrite -dFILTERIMAGE -dFILTERVECTOR <oldname>

Prinsipp for kløyving:

Oversyn over repositoria (berre orig-katalogar) på Trond si maskin, i dag:

 39G	rusbound/orig
9,7G	boundcorpus/orig
6,9G	freecorpus/hist_orig/
5,9G	freecorpus/orig
133M	rusfree/orig

Alle filene i hist_orig er ikkje sjekka inn.

Separate repositorium for:

originalfiler
1. kan ha mange repo ved behov
2. dela opp store pdf-filer i ei fil pr side
konverterte

annoterte parallelliserte

Ein person som er interessert i t.d. sme må ha desse repositoria:

MEN: Med Git LFS treng vi ikkje ha historiske tekster i eit separat repo, berre i ein eigen katalog, og med metadata som for alle andre korpusfiler:

corpus-sme-orig # Git LFS
corpus-sme # free, converted osb
corpus-sme-orig-x-closed # Git LFS
corpus-sme-x-closed # Konverterte, lukka filer

Hovudkategoriane i freecorpus/sme/orig/:

Len
admin
bible
blogs
facta
ficti
grammar-realword
laws
news
odda_mahppa
science
speccorp
wikipedia
hist/

Tilsvarande for historiske tekstar i sme:

ls hist_orig/sme/|sort
bible
facta
news

Konklusjon:

vi tek vare på originalfilene
vi har orig-filer i eit separat repo med Git LFS, og nyttar UiT-Azure for LFS-lagringa (vi må prata med IT-avdelinga, ev få hjelp av dei og Gøteborg), metadata blir liggjande i lag med orig, slik som i dag
konverterte og prosesserte data i eigne repo
dvs at inndelinga i repositorium blir som skisser over, dvs med fire repo pr språk
historiske tekstar som ein del av dei vanlege repoa, ingen ting spesielt (anna enn i metadata)
Børre jobbar med å setja opp Git LFS for sme og smj
Sjur gjer dei ikkje-private korpusa opne

Sitemap

Language Technology at UiT