Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

S&T-møte 18.9.2018

Saker:

LS-søknad

Frist i efta, ny frist om eitt år om det går gale.

Jaska og Leudd-former i sms - tagging og implementering

Jack om leudd:

Leudd is the genre, of Skolt song I would like to generate forms for. The words have extra syllables, i.e.:

but also morphological extras (mainly use of diminutive, which I already have, but including extra vowels).

Trond og Sjur: +Largo (jf. sme +Allegro)?

Sjur flyttar diskusjonen til sms-forumet i Zulip, for å få fleire tilbakemeldingar.

innkjøpsutlysing - status og neste fase

7 firma har registrert seg til no (det er ikkje sikkert at dei leverer tilbod). Leveringsfrist neste tysdag (25.9.)

Antti-søknad

Vi må jobba denne veka med søknaden, Trond og Sjur byrjar i morgon kl 9, Lene har undervising.

abbr og neste steg

Ting å gjere:

  1. bestemme lemma (lemma utan punktum - sjå møteref frå førre møtet i TOS)
  2. +TRAB, +ITRAB, +TRNUMAB -> til kvar oppføring (på den eine eller andre måten)
  3. legg til backtracking m.m. i relevante framhaldsleksikon

Sjur gjer det.

punktteikn og lexc-omorg

Ca. 85% av språka våre bruker felles fil. Det står att to kategoriar:

To kategoriar står att:

smX-språka deler seg i tre:

  1. dei som bruker apostroff som apostroff (smn og sma), og ikkje treng '7
  2. dei som bruker apostroff for å markera Konrad Nielsen-symbolet (sje, sme, smj)
  3. dei som skriv ut Konrad Nielsen, men med eit anna teikn (smn)

Treng ikkje ‘7

smn - ekte apostrof (inkonsekvent koda)

jävr'riddo:jävr'7#ri^RVddo 2KISSA "suonreuna" ;
postalmai+Err/Orth:post'alma C_ALMAI "postimies" ;
postalmai+Err/Orth:post'álma C_ALMAI "postimies" ;

Må ryddast opp i.

sma - ekte apostrof (men ‘7 definert)

soen'åadtja+Sem/Dummytag:soen#'åadtj MAANA ;
soen'åedtjie+Sem/Dummytag:soen#'åedtj N_IE ;

Må fjerna '7 frå leksikon.

Bruker ‘7 for Konrad Nielsen

sje - Konrad Nielsen - ájggi

gållek:gål'leg2 N_ODD_WG "gilded" ; ! no. 752
gärris:gä2r'ris N_ODD_WG "Saami sled" ; ! no. 3504
tjällár:tjä2l'lár N_ODD_WG "cellar, basement" ; ! no. 90624
vuaffal:vu^Of'fal N_ODD_WG "waffle" ; ! no. 6578

smj - Konrad Nielsen - ájjgi

vuopptabiddjá+CmpN/SgN+CmpN/SgG+CmpN/PlG+Sem/Dummytag:vuoppta#bid'djá NOADE ;
vuossa+Sem/Dummytag:vuos'sa MUORRA ;
vuosse+Sem/Dummytag:vuos'se MUORRA ;

sme - Konrad Nielsen - áj’gi

šiehtadanmálle+G3+Sem/Rule:šiehtadan#mál'le GOAHTI ;
lastebiila+Err/Lex+Sem/Veh:laste#bij'la GOAHTI-A ; !LIA

Skriv ut Konrad Nielsen i ortografien, men utan apostrof

sms — bruker letter apostrophe i ortografien

Tre måtar å løysa dette på

  1. byta ut ‘ med ‘7 for sme, smj og sje direkte ved kompilering (vi held fast ved ‘7 internt, og lar sme, smj, sje vere uforandra)
  2. byta ut ‘ med noko anna i sme, smj og sje (vi forandrar Konrad Nielsen til noko anna enn ‘7 - men kva?)
  3. la sme, smj og sje ikkje bruka fellespunktfila

La oss prøve alternativ 2, men først: ha ein felles diskusjon.

Acapela

Sjur tek kontakt med Acapela for å få opp ein TTS-servar, med CC til Chiara og Ciprian.

Server

Svn-servar

Kva skal vi lagra på svn-servaren?

2 Tb er sikkert nok til å byrja med, men truleg meir seinare.

gtweb-servar

Diskusjonen går mellom relevante personar.

SUS-føredrag og loggar

$GTPRIV/logs/00_README.txt

Sjå òg [http://divvun.no/Download_log.html].

Kva med nedlastingsloggar for tastatura? Dei blir lasta ned frå svn-repoet.

Mobiltastaturappar: det finst loggar hjå Apple og Google.