Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Giellateknomøte 11.9.2019

Tilstede: Chiara, Lene, Trond,

Saksliste

SMARTool

Vi lar SMARTool vere på vår github, og satsar på å prøve ut og samarbeide med russisk om dette. Dette vil føre til bruk

[https://uit-no.github.io/smartool/]

Denne saka er viktig i forhold til å beholde to programmererstillinger.

Uli-føredrag (tidspunkt?)

Neste veke, men ikkje måndag, torsdag, Vårt framlegg: Tysdag (helst så tidleg som mogleg) evt. onsdag etter lunsj. Trond avtaler med henne.

Nasjonalbiblioteket

Lars kommer til UiT i kveld. Chiara og Trond avtaler tidspunkt for møte med Lars.

Her ligg Kurset om grensesnitt for Bokhylla.

Språkhistoriekurset og Janne S

Janne kjem neste veke, held førelesing torsdag på masterkurs og vi tar møte med han fredag frå morgonen og fram til etter lunsj.

cg-mt pg perlstiar

Chiara har fiksa det, og snakka med Sjur. Chiara og Trond ser på dette.

Neste spørsmål vil vere å generere script til fleire språk.

UB: Exhibition on Arctic Indigenous languages

Åpning UB mandag 16/9 kl 15-16. Dei som kan, går.

Oppsummering av besøk hos språkbanken i Göteborg (teakstačoakkaldaga birra)

Chiara har arbeidd i Götebrg, meir eller mindre berre med Ordbild. Det er ein del problem på vår Korp, men Chiara kan ta kontakt.

Tabeller ok, svar frå backend ok, men problem med å vise. Det var ikkje opplagt kva som var problemet

Oppdatering av grensesnitt

Vi har v2 på dei andre Korp-versjonane, v6 for samisk, online er v7, og snart kjem v8. Råd: Oppdater direkte frå v2 til v8. Vi fekk ikkje tid til det.

Ny maskin til Chiara

Konto på bøttemacen, deretter evt. eiga maskin.

Personalmøte

Nye prosjekt: Demografi av svenske kvinner

Det blir oppretta ein AI-lab i Sverige, som skal samarabeide med Språkbanken [http://ai.se].

Dei viste også verkty for å annotere korpus.

Dei har eit prosjekt med Lund for å undersøke korleis rykte blir spreidd på nett.

Dei kjem alle til å vere på NoDaLiDa.

Ordbild (mo buoridit min Korp-prográmma?)

I dagens Ordbild er det plass for POS og @-funksjon (@S

Utfordringa er å få lemmaform.

Trond og Lene oppdaterer OversiktOverOrdbild.jspwiki

Korpus

Chiara prioriterer parallellkorpus: nob-sme og nob-sma

Vi må finne FAD-tmx-filene på freecorpus. Trond ser på det.

Prioritering.

  1. Parallellisert korpus:
    1. nob-sma (gjerne før 3.10)
    2. nob-sme (gjerne før 9.10)
    3. fin-smX (gjerne analyseres på nytt før 9.10, men her er ikke noen nye filer)
  2. Marisk (mhr og mrj) 70 mill (Korpuset er prosessert men ikkje sjekka. Analysen bør forbetrast)
  3. Kvensk (Trond undersøker situasjonen: Er det fleire tekstar som skal inn?)
  4. Samiske einspråklege
    1. Nordsamisk (evt. vente på fleire som kjem inn), og ta med semtagger (med skript for å endre tagger)

nob/sme-preprosessering

Lene har sett på romartal (små romertal fungerer). Trond følgjer opp døme på 23.-24. som ikkje fungerer.

Risten meldar frå om preprosesseringsproblem som hindrar parallellisering.

Neste møte

blir neste veke. Ikkje heilt til vanleg tid, då er det besøk frå FAD. Kanskje på fredag, vi ser på det.