Divvun-møte 7.10.2025
Til stades: Sjur, Maja, Helena, Flammie, Katri, Børre, Linda
Saker:
- Sidan sist
- Reiser og konferansar
- LREC - framtidsplaner
- Ymse
Sidan sist
Sjur
- møte om samisk KI-senter, søknad til Stortinget(?)
- møte med nye viserektorar i lag med andre frå ISK
- testa ny grammatikkontroll frå Brendan, laga prosjekt for å samla feil på ein og same stad
- mange feil vart retta i går
- laga betre kode for giellalt.github.io (med dottersider), fungerer mykje betre på mobile skjermar og skjermar med ulik storleik - sitemap tilgjengeleg på alle skjermar, på små skjermar via ein hamburgermeny
- la til støtte for kart på giellalt.github.io, slik at vi kan visa kor språka våre er
- KI-workshop i Trondheim
- høyrde på Mikko Kurimo om SME-ASR - har bede om nye testdata, Katri har fått dei(?)
- NRK, SVT m.fl.
Linda
- jobba med dependensfila og regler for både sma og sme
- Flammie og æ får oversikt over dependensstrategien og held på med dokumentasjon
- diskuterte oppsett med Lene
- snakka med Duommá om erret-earret feilen og syntaktisk distribusjon
- irsk grammatikkontroll - genitivregler
- starta skoltsamisk grammatikkontroll med gjestestudentan (+ ga innføring i CG)
- Maja og æ oppdaterte beskrivelsen av adjektivsystemet i artikkelen
Katri
- olo-TTS:
- Yle Karjala: prosessering klar for min del, prosjektarbeider sjekker materialen før trening
- smn-TTS
- organisert nytt møte
- IWCLUL-artikkelen
- konvertert til ACL templat
- leggt til kommentarer fra SSW
- planlagt og startet med sma-TTS evalueringstest
- følgt Mikko Kurimo sin forelesning
Framover/Ideer:
- publisering av datasetter for alle TTS-prosjekter??
- UiO kontakt om å hente mer LIA material & få ny avtale
- Undersøker en mulighet for å få GUI for Whisper-modeller
- Undersøker TTS til Anki (språklæringssapp) via API
- NB: nordic automatic LID (language identification), kan brukes til å filtrere norsk material (tekst) ut fra t.ex. sametingets plenumaudio?
- Til folk som er interessert av TTS-prosjekter: https://docs.coqui.ai/en/latest/what_makes_a_good_dataset.html
Helena
- arbeider med å få oversikt over systemet og alle filene og detaljane
- Börjat med gramcheck med Linda - nästa vecka Tromsö
- Går igenom min avhandling med Gramcheck
- Försöker hitta rätt på GiellaLT- dokumentation, taggar, fortsättningsleksikon osv…
- Börjat med presentation till Konrad Nielsen seminar
Maja Lisa
- Pres -ODD-noun + adjektiver -presentasjon
- artikkel m/Linda
- Unix-kommandoer for enkel frekvensordliste m/Siri
Børre
- jobbe med å modernisere gielese.no
- oppdaget at biggies-delen av gielese må integreres i git-repoet
- divvun-runtime:
- kompilere lang-sme, sjekke at bundlen til divvun-runtime lages
- sammenligning av divvun-checker og -runtime
- rapportere feil
- viktig spørsmål om brukerkontrakten til SIKOR fra Katri og NB
- NRK, SVT m.fl.
Boahtteáiggis:
- rette feil i borealium
- få pontoon til å virkelig synkronisere
- Borealium1.1/Nordisk ministerråd:
- laga oppsett for gramcheck-testdata i cg3-filer
Flammie
- dependenssyntaks
- tts-problemer
- gtmultichars test script i langs
- installasjonshjelp med studenter, isof…
Necessary Innovations
- API-server:
- grammatikkontrollane bruker no ny Divvun-pipeline
- fleire feil
- TTS oppdatert
- grammatikkontrollane bruker no ny Divvun-pipeline
- pahkat-infra (ikkje ferdig)
- grammatikkontrollen:
- nokre serverproblem løyst (smn)
- Android:
- arbeid med å få på plass stavekontrollen igjen
Framover:
- byte til divvun-runtime, truleg denne veka
- regulære uttrykk for tilbakemeldingane
- samansetjingsfeil / segmentering
- nytt installeringsprogram
Testing
- folk køyrer testar på ulike måtar
- folk lagar eigne testar
- vi får inkonsistente resultat og varierande oppførsel
- testoppsettet bør:
- vera lett å køyra på ulike måtar (make check, make devtest, direkte)
- alltid gje same resultat uansett
- baka inn “private” testar i meir allmenne testprogram
- vera lett å installera, helst automatisk
Separat møte torsdag kl 10 norsk tid.
Reiser og konferansar
Både potensielle og påmeldte, og planlagde reiser:
- 14.-16.10.2025: Nord-konferansen samisk og urfolk, Levanger (frist for samandrag: 1. september, påmelding 25. september)
- 22.-23.10.2025: Konrad Nielsena 150 jagi ávvoseminára, Kautokeino
- 12.–14.11.2025: Sámegiela, sámi girjjálašvuođa ja sámi kultuvrra symposia (Oulu universitehta)
- 1.-5.12.2025: Divvun-uke
- 4.-5.12.2025: ISL-personalseminar
- 10.–12.12.2025: IWCLUL, Joensuu, innsendingsfrist: 19.10.
- 24.–29.3.2026: EACL, tidsfrist hovedkonferanse Oct 10
- 11-16 May 2026: LREC, paper submission: 17 October 2025 (Mallorca)
- seinare: sigmorphon eller andre tba
- Ankarede: Midtsommerhelga 2026 - rekruttering av sma-studenter
LREC - framtidsplanar
- maori: grammatikkontroll, datastyring og tilgang, etikk og plattformkontroll
- nasjonalbiblioteket og samiske tekstar - skrive søknad til KD
Ymse
Divvun-samlingar framover:
- veke 44, 27.-31.10 (Katri ikkje slutten av veka)
- i samband med personalseminaret i desember: 1.-5.12.2025.
Alle som er i Tromsø 16.10.: meld dykk gjerne på ISK-middagen.
Workshop om samisk KI 30.10., truleg i Trondheim - kolliderer med Divvun-veka.
Sjur borte tysdag-fredag neste veke. Divvun-møtet: Linda eller Børre.
Neste møte: tysdag 14.10. til vanleg tid.