Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Giellateknomøte 18. september

Tilstede: Chiara, Trond, Risten, Lene, Børre (under første sak)

Korpusarbeid

Engasjement

Ny medarbeidar hit for å få opplæring. 6 mnd i 100%? lågare prosent? Lene har en mulig kandidat på handa, primært for å følgje opp forlaga.

Fornying av enspråklig Korpus-innhold

Innholdet var sist oppdatert oktober 2018.

Oppdateringa bør forenkles, hvilke hindringer har vi?

  1. Identifisere tekst
  2. Analyse
    1. Analysere de forkjellige filene (dette er kronjobb en gang i uka),
    2. Samle de analyserte filene til grepkorpus (automatisk?)
    3. Kontrollere at analysen fungerer (taggar, …)
    4. Analysere på nytt
  3. Konvertere til Korp-format
  4. Oppdatere site

TILTAK

Tekstar frå rusbound (mari)

Dei treng ein eigen katalog under gtweb, parallelt med boundcorpus.

Fornying av parallelltekster i Korpus

Ikkje i svn = *

orig/
converted/*
tmx/*
prestable/tmx/nob2sme

Arbeidsrutine:

Så skal dei tospråklege tekstane inn i Korp (dvs. inn i SIKOR).

Vi parallelliserer i tre delar:

Filene ligg i orig

  1. tmx = output (som converted), ikkje i svn
  2. prestable = sjekk inn, konvertere på nytt etter nye CorpusTools, arbeide manuelt. Når vi er nøgd:
  3. Flytt til stable med svn mv

Lene møblerer stable etter mal frå prestable. Vi må deretter få ei rutine for å unngå å parallellisere dei same filene på nytt. CorpusTools må sjekke om fila allereie eksisterer i stable før det parallelliserer nye filer til tmx. Deretter vil Chiara finne det ho treng i stable.

Framlegg: Kan vi legge negative data inn i parallellfila?

Lene legger til i bargovuohki om praktisk parallellseringsarbeid, grunnlagt på diskusjoner på møtet

epub

Børre skriv til Sametinget og ber dei bruke epub i tillegg til dei formata dei har. Mange sametingsrepresentantar vil like det, og for oss vil det vere svært viktig.

Preprosessering

Nordsamisk, parallellisering.

Viss den eine setninga inneheld meir tekst enn den andre ignorerer vi det.

Trond gjør ferdig smi-løsninga for abbriviation, og tester

Tekstprioritering

Nasjonalbiblioteket

Chiara og Trond orienterte.

NoDaLiDa

Tar vi etter kvart (koordinering buss og togbilletter)

Janne

Kjem hit i morgon. Vi har møte med han på fredag, kanskje halv ni og framover?

Klimastreik kl. 9-10.