Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

S&T-møte 15.8.2017

Saker:

m4/multippel twolc for kvensk

Sjur: Helst ikkje m4.

m4 er eigentleg berre ein måte å uttrykke løysinga med (1A og 1B nedanfor) ei fellesfil og tre separate filer der felles og kvar dialektfil blir slått i lag og deretter kompilert. Dvs for kvar dialekt blir det éi twolc-fil (som er summen av to kjeldefiler).

Den grunnleggjande redigeringsskilnaden er mellom kvar regel ein gong (1)= eller dobbeltskriving (2).

Den grunnleggjande tekniske (og kanskje også lingvistiske?) skilnaden er mellom å kompilere i eitt (1B) eller to (1A) steg

Parametrisert lexc og twolc:

Ha eit system der kvar regel blir skrive ein gong:

Ha tre ulike twolc-filer, med overlappande innhald, delar av innhaldet blir skrive 3 gonger:

Vi vil eigentleg også ha ein fjerde fst, som godtar alle tre variantar.

Denne kan lagast

Fellesreglar:

Dialektspesifikke reglar

Parametrisert lexc men ikkje twolc

I denne løysinga er alle dialektskilnader eksplisitt tagga i lexc, og alle lexc-strengane går gjennom same sett av twolc-reglar. Evt. strengar som ikkje skal gå gjennom twolc-reglar vil då ha symbol som blokkerer dei relevante twolc-reglane.

Vi bør diskutere dette med fkv-gruppa.

TODO: Trond skriv brev og gjer framlegg om møte fkv-gruppe, Sjur, Trond.

Munchs skrik

Sjå Bz.

Taggflytting

Krev meir arbeid enn fyrst tenkt. Sjur ser på det.

Setje opp test med multippel kompilering

Dette er alternativet med separat build/ eller bygg/-katalog. Vi såg på det i går. Det er framleis opne ting, men uproblematisk å setje opp.

Trond testar ut og kjem attende til saka.

Ordboksinfrastruktur

Vi treng eit fellesmøte for å diskutere gode sider ved dei ulike løysingane vi har, lære og evt. synkronisere der det er naturleg.

Orienteringssaker