Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Møte 27. september 2017

Tilstede: Trond, Chiara, Ciprian, Lene

Saker:

Orienteringssaker:

LIA Talespråksprosjekt vs. sme-analyse og MT

Møte i Oslo der Lene, Øystein og Arnstein var frå UiT, folk frå Tekstlab og Samisk arkiv

Tekstlaben demonstrerte Glossa, for norsk + demo for samisk. Lene demonstrerte analyse i Korp

Tema frå diskusjonen:

Nytt møte til våren, i Kautokeino.

Avslutning Samest

Trond var på møte i Laulasmaa utanfor Tallinn

Oahpa (Heli) og alt arbeid for vôro fortsetter

Komiprosjekt i Helsingfors

Folka frå Syktyvkar og Freiburgprosjektet ei veke i Helsingfors. Trond og Sjur var der og var med på arbeidet med disambiguering, morfologisk analyse og infrastruktur.

Samarbeidet med Edmonton

Chiara snakka med Antti i går. Han viste de nye funskjonalitetene som de har implementert i itwewina NDS: tre typer paradigmer,

Skal vi også endre paradigmene for samiske språk?

Koden for itwewina på edm-serveren, er nå ganske forskjellig fra vår, og dette kan gi problemer ved oppdatering. Problem som må løses. De ønsker itwewina egen server. De har to online-servere, en for produksjon og en offisiell.

Må vurdere hva Ryan skal gjøre, men arbeidsperioden hans er snart avsluttet. De søker om penger for videre arbeid for Ryan, men det er usikkert. GT må ha diskuter med Ryan om arbeidsfordeling. Nytt møte med Antti i oktober.

Cree har større paradigme, og deira løysing kan være nyttig for samiske språk. Vårt cgi-paradigme er ikkje bra, vi kan sjå desse i lag.

Vi bør vurdere wsd og wsdl (xml-format), og ikkje perl og php. Denne diskusjonen tar vi etter at vi har rydda opp i servarane, itwewina og dei cgi-uavhengige forrest-sakene.

http://valks.oahpa.no/detail/myv/rus/максомс.html?no_compounds=true&lemma_match=true&e_node=-6431853225388143696

Korp og Unix

Ciprian har vore i Spania og holdt kurs for phd-studenter. Relevant for oss: Sjå “Unix for lingvistar” som

Vi bør diskutere dette med Eystein

Dei virtuelle servarane

Problemer med å få alt til å fungere etter omstarter. Stier endres pga oppgraderinger. Ciprian har lagt til symlinker mellom local/bin og user/bin for å unngå problemer framover.

Vanlegvis er oppdateringane våre meir ryddige:

cg-versjonar

==> Vi kan fjerne vislcg

ICALL

Lene har kontakta Kirsi Paltto. Ho vil ha ein sg-knapp, og har fått det. For mindre endringer i Oahpa bruker vi Heli.

E-skuvla vil gjerne bli inkludert i arbeidet og diskusjoner når vi arbeider med ny kode. Som samarbeidspartnar vil Kirsi kunne påvirke vår ICALL.

Vi bør begynne å arbeide med Konteaksta igjen, så snart Chiara er klar for å det. Det beste ville være at hun arbeider sammen med Heli den første perioden, f.eks. en uke i Torsby?

Vi har møte med Pigga Keskitalo fra Samisk høgskole i dag, og ser kva som kjem ut av det. De planlegger søknad til Norgesuniversitetet.

Korpusarbeid

Risten skal arbeide på onsdager med innsamling. Liste over relevante nettsteder

Samarbeid: Risten, Ciprian, Børre.

Risten dokumenterer arbeidsgangen.

Buggar

Vi bruker dei som er manuelt lagt til.

Det er to buggar:

  1. Ein del tekst forsvinn på norsk etter punktum (Risten kopierte dei inn). Vi kan no sannsynlegvis fikse den.
  2. html:
  3. Ein tredje: Setningsforskyving for pdf-sider

Prioritering, arbeidsgang

  1. Fase 0
    1. Filene på Risten si liste i sommar, fikse dem som er mulig å fikse til Korp
  2. Fase 1
    1. Risten samlar inn ny tekst
    2. Vi forbetrar konvertering og eventuelt reviderer parallellisering
  3. Fase 2
    1. Risten lagar parallellkorpus (parallellisering som “einspråkleg dokument”)

Andre saker

Vi bør endre http > https. Må dette taes opp med UiTs url-konsulent? Web Services Description Language (WSDL) instede av cgi/php

Grammatikkontrollen har framleis [http://gtweb.uit.no/gc/] men også [https://gtweb.uit.no/gc/]

Ciprian ser på dette.