Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Onsdagsmøte 21. oktober 2015

Tilstede: Trond, Ciprian, Marja-Liisa, Lene

Saksliste:

MT-phd-stillinga

Vi har ikke aktuell søker, så det blir ny utlysing så snart som mulig. Trond vil ta kontakt med aktuelle folk så snart utlysinga er på nett.

Siden det tar tid for å få en person i denne stillinga, så får Lene hovudansvar for implementering av transferreglar.

Programmerarstillinga

Vi rangerer lista denne veka. Vi får ekstern hjelp om et par dager (når?) til å organisere intervjuene.

Bidix

Ulike måtar å få ned homonymien:

Ta sme-smn og:

  1. tilpass data (erstatt initial nordsamisk bdg med ptk, osb)
  2. Ta Levenshtein (redigeringsavstand) og gå for det beste resultatet

Er det mange falske vener (som fi. piimä est. piim)?

smn puddo sme "buddu" fin "rippa"
- boddu    puddâ
  sárnuđ - sárdnut - denne er ok, samme betydning smn og sme
  sárdnut - báhppa sárdnu (goit Suoma bealde ná)
  särniđiđ - sárdnidit
  sárnuđ - hupmat


  ohjelm - prográmma
  täsni - násti
  puško - havga

dette er eit problem viss

  1. prográmma - progámm <== Levenshtein-kandidat
  2. prográmma - ohjelm <== korrekt?

Men dette moteksemplet gjeld ikkje.

Realiteten: prográmma N ohjelm N

sárdnut	V	sárnuđ	V   <====
sárdnut	V	šumpârdiđ	V
sárdnut	V	mullârdiđ	V
sárdnut	V	päksiđ	V
sárdnut	V	njunevuálástiđ	V
sárdnut	V	palijdiđ	V
sárdnut	V	šuáláđ	V
sárdnut	V	pompestiđ	V
sárdnut	V	ucástittiđ	V
sárdnut	V	mođárdittiđ	V
sárdnut	V	suomâstiđ	V
sárdnut	V	sámástiđ	V
sárdnut	V	šlobârdiđ	V
sárdnut	V	teŋkkiđ	V
sárdnut	V	huáttáđ	V
sárdnut	V	huávristiđ	V  OBS oa:uá
sárdnut	V	šlarvâdiđ	V
sárdnut	V	mevristiđ	V
sárdnut	V	snuollâđ	V  - snoallat sme?  OBS oa:uo (snoallat ikkje i bidix, men i smefin)
sárdnut	V	ronedâttâđ	V
sárdnut	V	semmuđ	V

sárdnidit	V	särnidiđ	V  <=====

suomagiella	N	suomâstiđ	N
hupmat	V	suomâstiđ	V
hállat	V	suomâstiđ	V
sárdnut	V	suomâstiđ	V
hoallat	V	suomâstiđ	V

Sjekke verb mot verb med Levenshtein. Vi lagar ein enaresamisk “stavekontroll” som består av berre infinitivar, vi enaresamifiserer nordsamisk, og vi plukkar ut kognatar.

Enaresamifisering:

TILTAK:

  1. plukke ut kandidater fra synonymlista med Levenstein
  2. check MWE fra smn-parantes i fin2sme-dataene
  3. sme-fin verb som ikke blir med i bidix: bruke stavekontroll med kun verb i infinitiv, for kandidater
    1. kandidater skal sjekkes manuelt
  4. andre ord som ikke blir med i bidix: bruke stavekontroll for å lage kandidater
    1. kandidater skal sjekkes manuelt

MT-veka

En ny bidix er klar til MT-uka

Reise

Kevin til lunsj onsdag evt. fredagsprogram ML, Kevin, Erika

a  Bil Uleåborg: Ciprian, Lene, Trond, ML
   Bil Rovaniemi: Kevin

b  Bil Uleåborg: Ciprian, Lene, Trond
   Bil Rovaniemi: Kevin, ML
   Buss Rovaniemi-Salla ML

c  Bil Uleåborg: Ciprian, Lene, Trond
   Bil Rovaniemi: Kevin
   Bil Rovaniemi: ML

Tidspunkt: 2-6. november

Sted: Salla

Innhald:

(jf. lista på tavla)

Forarbeid

Forslag til innhold i MT workshop:

Suggestion for who will do what in MT work (but details we’ll discuss at the workshop)

Korpus

Denne rakk vi ikke å diskutere.

Korp og korpusdataene

Diskusjon.

Prinsipp for taggdokumentasjon for brukere: På de sidene hvor det er relevant for brukeren. Lene ser på innholdet..