Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Meeting setup

Saksliste

Opening, agenda review, participants

Oppsummering av konferansane:

Riga

CG-workshop

Lene og Trond hadde presentasjon, gjekk fint, blir artikkel. Opp i mot 25 stk på den meste på CG-workshop.

Open ressources workshop

Sjur var med og organiserte. Vellukka workshop, 31 deltakarar, Francis hadde ein god hovudpresentasjon, og gode spørsmål til andre.

General

Resten av Riga var ikkje så relevant, med eit par unntak. Bra å treffa Helsingfors, Per.

Tromsø - Romsa

Stor konferanse om samiske språk, 160 påmeldte, BA og BM hadde eit innlegg på 40 min den første dagen, Ciprian var med som programmerar. Forelesinga gjekk bra, vi fekk gode tilbakemeldingar. Etterpå gjekk vi ut, vi hadde eit bord, der det kom folk strøymande ut for å få installert programmera. Vi fekk installert programma (ordbok, Divvun) på ulike OS. Vi sleit først, men fekk ting til å fungere etter kvart.

Vi kunne ha tenkt meir over korleis vi kunne ha organisert installeringa, bordet utanfor konferanserommet. Når vi hjelper folk med å installere tar det tid. Det var sett av 15 min til pauser på konferansen, og det er for lite. Fleire skraut av både Divvun og Gt (t.d. paradigmegeneratoren) frå talarstolen.

Både Prestvannet skole og Nesseby ville at vi skulle kome (og vise VISL, t.d.). Vi fekk innspel frå det finske sametinget, som sleit med ordbøker til elevane. Dei fekk beskjed om å ta kontakt med Trond og Sjur.

BA satt etterpå og viste fram Oahpa m.m. Då folk kom til Gt-sida gav dei opp, det var for mykje informasjon der. Vi må oppsummere med at det er for vanskeleg å finne fram, folk fann ikkje ordbøkene (t.d. nettordbøkene) frå sida vår. Folk er ikkje flinke nok på nett, vi må få det meir brukarvenleg. Vi har vorte invitert til GiellaGiella-forum 15.-16. juni, og vi må bestemme om vi skal dit, og kven som skal dra (både lingvist og programmerer).

Det er feilprioritering at det ikkje var nokon frå Divvun der. Ciprian var aleine, og rakk ikkje å hjelpe alle. Det er ei kløft mellom oss og brukarane. Brukarane kjenner verken programma våre og vi ikkje behova deira.

Termarbeid: det meste finansiert av Sametinget, SD bør peika på samarbeid med språkteknologane. For å ta i mot slikt samarbeid, må vi forbetra verktya våre.

Rekruttere giellatekno/divvun-ambassadører eller veivisere som har til oppgave å informere om våre tjenester og produkter, blant annet på internett (Twitter, Facebook) og festivaler (Riddu Riđđu, Márkomeannu). Må kunne installere.

TODO:

Arjeplog - Árjjátlovvi

Det er framleis folk som pratar pitesamisk, men dei veit ikkje heilt kva dei skal gjera med det. Sju presentasjonar frå Tromsø. Spørsmålet vårt er:

Kva vil vi gjera med dette arbeidet? Korleis kan vi påverka slik at dei bruker språkteknologi? Vi har fått deres ordboksmateriale i xl-format - ca 6000 entryer

Divvun-reorg

Korpuskontraktopprydding

Ikkje gjort noko. Pri 1 for Børre framover.

Program- og maskinvareregistrering

Det finst no to filer i $GTPRIV/admin/Divvun-ware/ - legg til!

Testbenkprosjekt

personalmøte neste veke

Med UiT, FAD og SD.

fellesmöte for Gt og Divvun etter Divvun-UiT-mötet

Onsdag 1. juni, 8.30-10.30.

Status quo for lingvistisk arbeid - sørsamisk

Ny norm frå SGM (Bz #1030)

Normeringsvedtaka er inkonsekvente og fleire gonger utan samanhang mellom vedtak og eksempel på vedtak. Vi må skriva attende og be om avklaring. Vi rettar på det som er heilklårt, og ventar med resten.

TODO:

Ny stavekontroll sist veke - oppsummering, testresultat og -plan

Stavekontrollen er bygd med versjon 19.5.2011.

Thomas starta med sma: Framleis problem med samansetjing (ssv. ikkje sma-spesifikke feil).

Korpusarbeidet - Parallellisering

Børre er ferdig med tca2. tca2 fungerer no grafisk og på kommandolina.

Berit Merete har testa europarl. BM og Trond fekk ikkje til parallelliseringskommandoen (den var ikkje dokumentert)

Overgangen frå pdf til html har ført til at vi har mista parallell-informasjon for Stortingsmeldingane som tidlegare var lagra i pdf. Dette må ordnast.

Bugzilla

arbeidet: Status for bugane (oversyn) og prioriteringar i arbeidet

TODO:

Ordbøker: Smenob, smanob

Paradigmestruktur i smanob

Skal vi legge til i verb-codes: alle Der/NomAct+N+Sg/Pl+case ?

Vi skiller oahpa fra dict - hva er konsekvensen for dictfilene?

Oahpafilene går til $GTHOME/ped/sma. No kan vi fjerne masse oahpa-informasjon frå dict-filene. Vi fjerner all oahpa-spesifikk informasjon fra dict-filene.

dictfilene fra smanob/src/ kopieres til ped/sma/xml og endres der for å ta vare på svn-historia. Derfor filtreres filene til pedversions/smaoahpa/data_sma