The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages
21.11.2023
Svein Lund vil finne ein heim til skuvla.info. Med å lagre repositoriet i github kan vi automatisk generere ei .io-side. Eit mogleg problem er url-en.
Legge alt i mappa docs/
. Utafor denne mappa ligg ei LESMEG-fil og ein lisens. Inni docs/
ligg det ei index-fil (dagens framside) med lenkjer ned i eksisterande filstruktur, som ligg inni docs/
.
Ulike alternativ når det gjeld repo, GH-organisasjon og dei domena ein då får:
github.com/divvungiellatekno
og repoet heiter skuvla
, så blir domenet:
divvungiellatekno.github.io/skuvla/
github.com/skuvla
, som vi kan knyta til UiT. Domene kan då bli:
skuvla.github.io
.Jf. uit sine organisasjonar. Konaktperson i IT-avdelinga (meld inn via orakel) Radovan Bast.
Alle ordbøkene er i github. Neste steg:
giella-core/dicts/make-bildict
og evt. andre scriptJf https://stackoverflow.com/questions/7281304/migrate-bugzilla-issues-to-github-issue-tracker
Vi lukka Bugzilla pga. problem med å ha feildiskusjonar ope på nett. No kan vi ha så mange private repositorium vi vil, og vi kan ha lang-xxx og ein privat versjon av lang-xxx. Diskusjonar vi ikkje vil ha opne kan vi dermed ha i den private versjonen.
4.-8.12.2023
Felles samling med GG i januar? Ei av dei to siste vekene. Ok for Trond, men helst den siste veka for å unngå TIFF (eller vil GG dit då?).
corpus-nob-orig/hist_orig/:
corpus-sme-orig/hist_orig/: 761
corpus-smj-orig/hist_orig/:
corpus-smn-orig/hist_orig/:
Stort sett pdf-ar, spenner over ca 300 år.
Døme: corpus-sme-orig/hist_orig/news/sami_usteb/Sami_usteb_1901_11.pdf
Vi treng lister som viser kva vi har og ikkje har. Vi diskuterer dette under Divvun-veka (på infra-møte).
Vi treng eitt korpus med gjeldande og eitt med ikkje-gjeldande.
I dag genererer vi både analysatorar, fst-ordbøker, online-stavekontrollar og cgi-bin-fst-ane manuelt. Vi har no testrutiner for å sikre oss at nye fst-ar ikkje er dårlegare enn før. Vi tar dette på inframøtet.
… er no i nytt og betre format. Puffing av fleire innsjekkingar på ein gong er framleis problematisk.
Jf denne feilmeldinga om ein psykedelisk feil.
Dette er no fiksa i Google docs, og kjem snart for MS Word.