Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Giellateknomøte 8.9.2016

Saksliste

Referat (Trond: Enare, andre?)

Trond refererte frå undervisning i Enare.

Dictionary

Ordbok: Hannu vil ha papirordbok. Når Miina har mg-revisjonen klar, vil vi generere ein papirversjon. Vi vil deretter satse på ei felles presentasjon

Trond vil skrive spesifikasjon på ordbokssida.

MT

Lene refererte.

Giellatekno og undervisning

Metodekurs: Unixkommandoar, søkemetodar, bruk av annoterte korpora

Vi kan gje input til dette kurset, men andre kan drive det.

Språkteknologi: Automatteori, grammatisk basert språkteknologi

Dette kan vi tilby.

Andre, vidaregåande kurs i språkteknologi med tema vi arbeider med i Tromsø:

Andre innfallsvinklar (maskinlæring, statistikk, …) bør kome frå samarbeid med andre universitet

Målgrupper:

Uleåborg, Edmonton, Ulan-Ude, Enare, Børselv, Korpilombolo,…

Oahpa-workshop 19-23.9.16

We had hangout with Ryan last Friday.

Ryan will be in Tromsø: Sunday - Saturday

Lene will write an email to all: Staring Monday 0900 and continuing until Friday and Trond/Lene reserve a room for the workshop.

Clarino

https://repo.clarino.uib.no/xmlui/

oppsummeringsmøte for Clarino og planlegging av nytt prosjekt Clarino pluss: 09.09.2016, Oslo

Objectives: Improve, extend and make minority language resources and analysis tools accessible to a wider researcher community

Description of work improve the extant resources for minority languages at Giellatekno by harmonizing annotation schema with wider recognized standards improve existing tools for automatic and semi-automatic collection, language identification and parallellisation (for existing parallel texts between majority and minority languages) extend the language data by collecting texts from various domains develop ways of making derivatives of restricted corpora data available

Deliverables:

  1. extended and improved data and metadata sets for minority language registered with the CLARINO repository (sme, sma, smj, fkv)
  2. corpus collections for new languages: (smn, sms, other Uralic languages)
  3. collection of parallel corpora (most of: sme-sma, sme-smj, sme-smn, sme-nob, sma-nob, smj-nob, smn-fin, sme-fin)
  4. derivatives of restricted corpora (n-grams, frequency lists)
  5. improvement of the existing collecting and annotation tools at Giellatekno

All deliverables will be finished late in the project period, in order to insure a better quality and quantity of the resources.

Priority:

Oppdatering av Korp

It was updated in 2015. After that:

We have more text from Finland and We have more smn

Action list:

  1. Discuss with Børre on incoming text (Trond til Børre, cc Lene, Ciprian, Sjur)
  2. Have a look at the top-missing list to consider lexical additions
  3. Find a date, and update

Artiklar å skrive i haust

Artikkelskrivingsuke for NLT artiklene.

MT-prosjekt - vi bestemmer dager for artikkelskriving osv etter at evalueringene er gjort.

Samarbeid med Brasil?

Møterom !! –> Kyrre Soleng

Straksliste - Trond sender den idag: