Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Korpusmöte 25.11.2016

Áilu, Børre, Ciprian, Trond, Sjur

Saksliste

Gjennomgang, status

Tiltalslista frå sist (kommentarar nedanfor)

Skrive framlegg til kontrakt frå SD (Sjur)

Ikkje noko skjedd

1631 (Børre)

Børre finn ein god måte.

Dei kontraktane som kan bli sendt til forlaget blir sendt (Børre)

Utvide lista writers-and-books.fods over forfattar, basert på forlagslister (Áilu, Børre)

Andre forlag: Lag forfattarliste (Áilu) (etter at vi startar produksjon av korp_2016)

$GTHOME/xtdoc/divvun/src/documentation/content/xdocs/adm/legal/writers-and-books.fods

Etter Korp_2016.

Litteratur finansiert av Sametinget

Politisk vedtak: Dette skal bli gjort tilgjengeleg for språkteknologisk forsking og utvikling. Sjur snakkar med Anne-Britt Hætta om dette.

Det norske nasjonalbiblioteket

Vi ventar på metadata og tekst

Det finske nasjonalbiblioteket

Vi ventar på tekst, grc-prosjektet ser på dette

Trond snakkar med LB

Nytt forsøk

Tiltakslista

Dublering av tekst i same fil

Jf. Bz 2274

<?xml version="1.0" encoding="UTF-8"?><article>
    <story id="3E6AF368-7769-4786-A33C-EACD78A3102D">
        <p class="tittel smånytt">Dásseárvointegreren</p>
    </story>
    <story id="19014F7B-3542-43B3-996A-FD81A867FB9B">
        <p class="tekst">Sámediggi ja 17 iežá ....duvvot.</p>
    </story><story id="19014F7B-3542-43B3-996A-FD81A867FB9B">
        <p class="tekst">Sámediggi ja 17 iežá ....</p>
    </story>
    <story id="3E6AF368-7769-4786-A33C-EACD78A3102D"><p class="tittel smånytt">Dásseárvointegreren</p></story></article>

Prosedyre:

  1. Viss det i same dokument er to eller fleire identiske story-id-ar:
    1. kopier dokumentet til katalogen korrektur
    2. Før inn i xsl: Bruk {første/siste} av dei to nodene med identisk story-id i korpus

Prosessering i korrektur-katalogen er ei anna sak, men det ser ut til å vere mogleg å bygge korrektur-korpus automatisk.

Tiltak

Parallelltekst i .txt-format

Eitt txt-dokument med tekst på to eller fleire språk. (jf. tiltakslista ovarfor)

Neste møte

Om to veker, 9.12. kl. 09.30