Korpusmøte 13.4.2022
Til stades: Børre, Sjur, Trond
Saker:
- SMJ inneheld ei fil som går over GitHub-grensa
- SME er for stort som repo for GitHub - over 2 GB!
To hovudproblem:
- repo for stort
- filer for store
Spørsmål:
- skal vi ta vare på komplett originalfil?
- kva gjer vi når repoet blir for stort?
- Skal vi ha konvertert materiale i Git? Dei tek ikkje så mykje plass
Moglege svar:
- Git LFS
- kløyva repoet i fleire
- fjerna bilete i pdf
Bilder fjernes fra pdf-er med ghostscript
gs -q -o <newname> -sDEVICE=pdfwrite -dFILTERIMAGE -dFILTERVECTOR <oldname>
Prinsipp for kløyving:
- Historiske korpora (eldre ortografi) skal vere separat
Oversyn over repositoria (berre orig-katalogar) på Trond si maskin, i dag:
39G rusbound/orig
9,7G boundcorpus/orig
6,9G freecorpus/hist_orig/
5,9G freecorpus/orig
133M rusfree/orig
Alle filene i hist_orig er ikkje sjekka inn.
Separate repositorium for:
- originalfiler
- kan ha mange repo ved behov
- dela opp store pdf-filer i ei fil pr side
- konverterte
annoterte parallelliserte
- originalfiler i
git-lfs - converted som eige gitrepositorium
- metadata i lag med converted, der det i dag ligg i lag med orig?
- tmx, annoterte, parallelliserte, i git, i lag med konverterte?
Ein person som er interessert i t.d. sme må ha desse repositoria:
- corpus-sme-lfs
- corpus-sme-converted-and-annotated
- corpus-sme-lfs-x-closed
- corpus-sme-converted-and-annotated-x-closed
- corpus-sme-lfs-x-historical
- corpus-sme-converted-and-annotated-historical
MEN: Med Git LFS treng vi ikkje ha historiske tekster i eit separat repo, berre i ein eigen katalog, og med metadata som for alle andre korpusfiler:
corpus-sme-orig # Git LFS
corpus-sme # free, converted osb
corpus-sme-orig-x-closed # Git LFS
corpus-sme-x-closed # Konverterte, lukka filer
Hovudkategoriane i freecorpus/sme/orig/:
Len
admin
bible
blogs
facta
ficti
grammar-realword
laws
news
odda_mahppa
science
speccorp
wikipedia
hist/
Tilsvarande for historiske tekstar i sme:
ls hist_orig/sme/|sort
bible
facta
news
Konklusjon:
- vi tek vare på originalfilene
- vi har orig-filer i eit separat repo med Git LFS, og nyttar UiT-Azure for LFS-lagringa (vi må prata med IT-avdelinga, ev få hjelp av dei og Gøteborg), metadata blir liggjande i lag med orig, slik som i dag
- konverterte og prosesserte data i eigne repo
- dvs at inndelinga i repositorium blir som skisser over, dvs med fire repo pr språk
- historiske tekstar som ein del av dei vanlege repoa, ingen ting spesielt (anna enn i metadata)
- Børre jobbar med å setja opp Git LFS for sme og smj
- Sjur gjer dei ikkje-private korpusa opne