The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages
View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no
Til stades: Børre, Sjur, Trond
Saker:
To hovudproblem:
Spørsmål:
Moglege svar:
Bilder fjernes fra pdf-er med ghostscript
gs -q -o <newname> -sDEVICE=pdfwrite -dFILTERIMAGE -dFILTERVECTOR <oldname>
Prinsipp for kløyving:
Oversyn over repositoria (berre orig-katalogar) på Trond si maskin, i dag:
39G rusbound/orig
9,7G boundcorpus/orig
6,9G freecorpus/hist_orig/
5,9G freecorpus/orig
133M rusfree/orig
Alle filene i hist_orig er ikkje sjekka inn.
Separate repositorium for:
annoterte parallelliserte
git-lfs
Ein person som er interessert i t.d. sme
må ha desse repositoria:
MEN: Med Git LFS treng vi ikkje ha historiske tekster i eit separat repo, berre i ein eigen katalog, og med metadata som for alle andre korpusfiler:
corpus-sme-orig # Git LFS
corpus-sme # free, converted osb
corpus-sme-orig-x-closed # Git LFS
corpus-sme-x-closed # Konverterte, lukka filer
Hovudkategoriane i freecorpus/sme/orig/:
Len
admin
bible
blogs
facta
ficti
grammar-realword
laws
news
odda_mahppa
science
speccorp
wikipedia
hist/
Tilsvarande for historiske tekstar i sme:
ls hist_orig/sme/|sort
bible
facta
news
Konklusjon: