Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Neste møte med Trond

21.11.2023

Saksliste

Saker

Skuvlahistorja

Svein Lund vil finne ein heim til skuvla.info. Med å lagre repositoriet i github kan vi automatisk generere ei .io-side. Eit mogleg problem er url-en.

Legge alt i mappa docs/. Utafor denne mappa ligg ei LESMEG-fil og ein lisens. Inni docs/ ligg det ei index-fil (dagens framside) med lenkjer ned i eksisterande filstruktur, som ligg inni docs/.

Ulike alternativ når det gjeld repo, GH-organisasjon og dei domena ein då får:

Jf. uit sine organisasjonar. Konaktperson i IT-avdelinga (meld inn via orakel) Radovan Bast.

Ordbøker

Alle ordbøkene er i github. Neste steg:

DM

infra

flytta Bugzilla til GH Issue

Jf https://stackoverflow.com/questions/7281304/migrate-bugzilla-issues-to-github-issue-tracker

Vi lukka Bugzilla pga. problem med å ha feildiskusjonar ope på nett. No kan vi ha så mange private repositorium vi vil, og vi kan ha lang-xxx og ein privat versjon av lang-xxx. Diskusjonar vi ikkje vil ha opne kan vi dermed ha i den private versjonen.

Neste Divvun-samling

4.-8.12.2023

Felles samling med GG i januar? Ei av dei to siste vekene. Ok for Trond, men helst den siste veka for å unngå TIFF (eller vil GG dit då?).

Historisk korpus

corpus-nob-orig/hist_orig/:
corpus-sme-orig/hist_orig/: 761
corpus-smj-orig/hist_orig/:
corpus-smn-orig/hist_orig/:

Stort sett pdf-ar, spenner over ca 300 år.

Døme: corpus-sme-orig/hist_orig/news/sami_usteb/Sami_usteb_1901_11.pdf

Vi treng lister som viser kva vi har og ikkje har. Vi diskuterer dette under Divvun-veka (på infra-møte).

Vi treng eitt korpus med gjeldande og eitt med ikkje-gjeldande.

fst-ar i Pahkat

I dag genererer vi både analysatorar, fst-ordbøker, online-stavekontrollar og cgi-bin-fst-ane manuelt. Vi har no testrutiner for å sikre oss at nye fst-ar ikkje er dårlegare enn før. Vi tar dette på inframøtet.

Zulip-meldingar frå GitHub

… er no i nytt og betre format. Puffing av fleire innsjekkingar på ein gong er framleis problematisk.

Grammatikkontroll

Jf denne feilmeldinga om ein psykedelisk feil.

Dette er no fiksa i Google docs, og kjem snart for MS Word.