Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

T&S-møte

Saker:

MT og ny infra - automatisk cg-tag-endring

Ein eller fleire semmtaggar?

Sett at vi slår saman sem-tagg-strengar til ein tagg:

Vi vil ha sem-taggar i bidix:

  1. vi vil ha semtaggar i disambigueringa
  2. vi vil ha semtaggar for mt
  3. då må dei vera i analysatoren
  4. difor må dei vera i bidix (elles blir dei fjerna frå analysatoren)

Altså vi ha dei i bidix. Spørsmålet er form: kombo-taggar eller enkle taggar? Det er mogleg at intersection krev kombotaggar for at maskineriet skal fungera.

Shellscript el.l. for å legge semtaggar til bidix.

CG:

Tidlegare har vi hatt tagg-konvertering

unhammer har kjørt dette

tanke: kopiere unhammer sitt script til vår infra, og lag ein apertiumvariant av disambiguatoren. Det kan innebere at vi må skrive (1) og ikkje (2).

  1. (1 a + b + c )
  2. (1 (a b c))

Apertium vil ha istf - dvs vi treng ev. språkspesifikke tilpassingar. Vi har alle tagg-konverteringar som regex og tsv - kan dei brukast?

plakat til LREC

neste reise til Tromsø

12.-16. mai

Trond i Umeå 19.-24. mai

LREC 26.-31. mai

Talesyntese/Thomas-vikar

Vi ventar på endeleg svar… :)

Bugzilla – koodiriihi

Sjur og Trond tek opp dette med kvar si gruppe.

Dugnadsdag? Vi set av ein dag til å sjå på buggar i lag eller kvar for oss - alt over nett.

Forslag: tysdag 29.4.

Møterommet

Vi må få ting framover:

Vi skriv e-post i lag til begge, dei nærmaste dagane.

smj-ordbok

To ting:

elektronisk ordbok

lemmadelen ferdig

trykt utgåve

Inga meining om opplag, sjå på Spik og nordsamisk. Kva med skrivefeil? Det bør vera samsvar mellom ordbok og stavekontroll.

Ungararane si sosling-undersøking

Trond har: Omsett til norsk, finsk (delvis), svensk

Trond sender lenkje + invitasjon til alle + Sjur koordinerer.