Saksliste frå sist

Gjennomgang, status
Parallelltekst i .txt-format
Arbeid

Gjennomgang, status

Lista frå førre møte (sjå kommentarar nedanfor)

Følgje opp DG via andre (?) kanalar (Børre)
Skrive framlegg til brev frå SD (Sjur)
Følgje opp Bz 1551, 1630, 1631 (relevante)
Dei kontraktane som kan bli sendt til forlaget blir sendt (Børre)
Utvide lista writers-and-books.fods over forfattar, basert på forlagslister (Áilu, Børre)
Neste møte: Diskusjon om lista
Skániid girji: OCR (Børre)
Politisk vedtak: litteratur finansiert av Sametinget skal bli gjort tilgjengeleg for språkteknologisk forsking og utvikling. Sjur snakkar med Anne-Britt Hætta om dette.
Mail/diskusjon til/med Nasjonalbiblioteket om innsamling (Trond)
Følgje opp finsk nasjonalbibliotek
Trond snakkar med LB
Sjur diskuter med dei i Helsingfors

DG

Børre har prata med DG, ordna med praktiske ting. Dei hadde e-format-bøker som skulle til .epub, måtte OCR-e bøker, og ville deretter sende til oss.

Buggane:

Árbbol. bind 1-3 i korpus: Band 1, via DG (Børre)
Andre JÁV: (Børre)
1630: Skániid. Bøker kjem frå biblioteket

Det norske nasjonalbiblioteket

Vi får alle dei opne tekstane dei har. Vi legg til side eldre ortografi, og ser på tekstar med gjeldande ortografi. Når vi får dei må vi sjå på kvaliteten av dei, og dra konklusjonar.

Det finske nasjonalbiblioteket

Vi har ca. 130000 ord med 1800-talssamisk, med metadata, og med varierande OCR-kvalitet.

I år vil vi også få OCR-versjonar av Sagai Muitalægje, Nuortanaste, Sami Usteb. Det er mogleg dei har betre kvalitet

Det som må gjerast for å få dette inn i korpuset:

OCR-forbetring ??
mekanisme for automatisk forbetring (perl = ordna regelsett)
manuell gjennomgang

Vi må få til det vi gjer i dag betre før vi går inn på historiske tekstar
Vi må ha ein plan for ekstern finansiering

Tiltak

Skrive framlegg til brev frå SD (Sjur)
1631 (Børre)
Dei kontraktane som kan bli sendt til forlaget blir sendt (Børre)
Utvide lista writers-and-books.fods over forfattar, basert på forlagslister (Áilu, Børre)
- Andre forlag: Lag forfattarliste (Áilu) (etter at vi startar produksjon av korp_2016)
Politisk vedtak: litteratur finansiert av Sametinget skal bli gjort tilgjengeleg for språkteknologisk forsking og utvikling. Sjur snakkar med Anne-Britt Hætta om dette.
Det norske nasjonalbiblioteket
Det finske nasjonalbiblioteket
Trond snakkar med LB
Sjur diskuter med dei i Helsingfors

Parallelltekst i samme fil i .txt-format

Vi har mekanismer for andre filformat.

Áilu legg inn ein versjon av fila i kvar språkmappe, kvar av filene har eiga metadatafil
Børre lagar opplegg for .txt, og Áilu ventar med å prosessere til då.
Áilu

Prioritering av metadata:

årstal
forfattar
tittel
originalspråk

Neste møte

Vi diskuterer dette neste veke når Børre og Sjur er i Tromsø.

Sitemap

Language Technology at UiT

Page Content