Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Trond og Sjur-møte 3.12.2020

Saker:

dokumentasjon, nettsider

Vi har automaisk dette domenet: giellalt.github.io. Alle repoar får url som dette: giellalt.github.io/reponamn.

Mogleg strategi:

Vi har to domener på github: Eitt for berre tromsørelaterte ting og eitt for ting som også er relevant uavhengig av arbeidsstad.

  1. Generelt: brorparten av techdocsida giellalt.uit.no som github-framsida vår.
  2. Tromsø: Tromsødelen (sjå nedanfor) i giellalt.uit.no (på github)

Noverande techdoc/ inneheld desse katalogane

admin => uit
apps
borin
clarino
dicts
freiburg
images
infra
keyboards => github.com/giellalt/lang-* => giellalt.github.io/lang-*
lang => github.com/giellalt/lang-* => giellalt.github.io/lang-*
ling => stort sett uit (korpus, ...)
localisation
ml
mt
presentations
proof
proofresearch
raw
system
tm
tools
tts

Oppsummering:

fst-problem

Sjur viste til hfst/issues/492. Vi fann svaret.

lisensar

Utsett til seinare. Trond kan sjå over dei det gjeld.

eksternt samarbeid

Ulike prinsipielle spørsmål:

Dokumentasjon

Må bli betre

Taggharmonisering

To nivå av standardisering:

Lingvistisk standardisering:

Morfosyntaktisk heller enn morfologisk. Dette er diskusjonen om glossing vs. grammatikk, og om vi skal tagge bøyingsklasse.

Vi vil ha ei morfosyntaktisk tagging (ikkje tagge bøyingsklasse osb.) og vi vil ikkje ha glossing. Men det finst eit opplegg for glossing for dei som må ha det. Så dei fleste burde bli fornøgde.

Typografisk standardisering:

Form på grensesymbol:

Vi bør kunna støtta ulike, klårt identifiserbare taggtypar.

Form på tekst

Handsaming av sitat av språkmateriale: Tag/sitat eller … +sitat/+sitat

Filnamnkonvensjon

Forkortinga gt- er ein refleks av byggjestrukturen - den er fast. Vi bør opna opp for fleire alternativ, jf over. I dag støttar vi berre -apertium- som eit derivert format for MT.

taleteknologi

Til seinare. Datamaskina er klar.

ordprediksjon

Studentprosjekt i Gøteborg - Sjur orienterte.

KMD-møtet

Sjur orienterte.