Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Page Content

Korpusmøte 13.4.2022

Til stades: Børre, Sjur, Trond

Saker:

To hovudproblem:

Spørsmål:

Moglege svar:

Bilder fjernes fra pdf-er med ghostscript

gs -q -o <newname> -sDEVICE=pdfwrite -dFILTERIMAGE -dFILTERVECTOR <oldname>

Prinsipp for kløyving:

Oversyn over repositoria (berre orig-katalogar) på Trond si maskin, i dag:

 39G	rusbound/orig
9,7G	boundcorpus/orig
6,9G	freecorpus/hist_orig/
5,9G	freecorpus/orig
133M	rusfree/orig

Alle filene i hist_orig er ikkje sjekka inn.

Separate repositorium for:

  1. originalfiler
    1. kan ha mange repo ved behov
    2. dela opp store pdf-filer i ei fil pr side
  2. konverterte

annoterte parallelliserte

Ein person som er interessert i t.d. sme må ha desse repositoria:

MEN: Med Git LFS treng vi ikkje ha historiske tekster i eit separat repo, berre i ein eigen katalog, og med metadata som for alle andre korpusfiler:

corpus-sme-orig # Git LFS
corpus-sme # free, converted osb
corpus-sme-orig-x-closed # Git LFS
corpus-sme-x-closed # Konverterte, lukka filer

Hovudkategoriane i freecorpus/sme/orig/:

Len
admin
bible
blogs
facta
ficti
grammar-realword
laws
news
odda_mahppa
science
speccorp
wikipedia
hist/

Tilsvarande for historiske tekstar i sme:

ls hist_orig/sme/|sort
bible
facta
news

Konklusjon: