The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages
Trond og Sjur-møte 3.12.2020
Vi har automaisk dette domenet: giellalt.github.io
. Alle repoar får url som
dette: giellalt.github.io/reponamn
.
Mogleg strategi:
Vi har to domener på github: Eitt for berre tromsørelaterte ting og eitt for ting som også er relevant uavhengig av arbeidsstad.
Noverande techdoc/
inneheld desse katalogane
admin => uit
apps
borin
clarino
dicts
freiburg
images
infra
keyboards => github.com/giellalt/lang-* => giellalt.github.io/lang-*
lang => github.com/giellalt/lang-* => giellalt.github.io/lang-*
ling => stort sett uit (korpus, ...)
localisation
ml
mt
presentations
proof
proofresearch
raw
system
tm
tools
tts
Oppsummering:
Sjur viste til hfst/issues/492. Vi fann svaret.
Utsett til seinare. Trond kan sjå over dei det gjeld.
Ulike prinsipielle spørsmål:
Må bli betre
To nivå av standardisering:
Morfosyntaktisk heller enn morfologisk. Dette er diskusjonen om glossing vs. grammatikk, og om vi skal tagge bøyingsklasse.
Vi vil ha ei morfosyntaktisk tagging (ikkje tagge bøyingsklasse osb.) og vi vil ikkje ha glossing. Men det finst eit opplegg for glossing for dei som må ha det. Så dei fleste burde bli fornøgde.
Form på grensesymbol:
+Tag
eller Tag+
[Tag] eller %{Tag%} eller <Tag> eller ...
Vi bør kunna støtta ulike, klårt identifiserbare taggtypar.
Form på tekst
Handsaming av sitat av språkmateriale:
Tag/sitat
eller … +sitat/+sitat
Forkortinga gt- er ein refleks av byggjestrukturen - den er fast. Vi bør opna opp for fleire alternativ, jf over. I dag støttar vi berre -apertium-
som eit derivert format for MT.
Til seinare. Datamaskina er klar.
Studentprosjekt i Gøteborg - Sjur orienterte.
Sjur orienterte.