Divvun-møte 24.6.2025
Til stades: Katri, Linda, Børre Språk: davvisámegillii
Saker:
- Sidan sist
- Reiser og konferansar
- LREC - framtidsplaner
- Ymse
Sidan sist
Børre
- Sett riktig kilde- og målspråk i nøkkelordgeneratoren tca2-python
- Poster til PNMA – art:as
- Jobbet med libdivvun
Framover:
- libdivvun 88 og 89
- rette feil i borealium
- få pontoon til å virkelig synkronisere
- Borealium1.1/Nordisk ministerråd:
- laga oppsett for gramcheck-testdata i cg3-filer
- Bugzilla-flyttinga
Linda
- Munin konferanse abstrakt
- begynte med lang-sme bugger
- irsk grammatikkontroll med Elaine og Seanán (nye regler)
- sommeravslutning (vi ble nevnt pga innovasjonsprisen)
- møte om norplus-søknad (samarbeid mellom kal-smi)
- forbedret syntaxfest-artikkelen og sendte inn
Katri
- sme-ASR: bygger ny datasett, legger til metadata og ny data som er sist transkribert
- hentet og prosessert ny material for transkribering
- monthly speech technology møte med nordiske enheter, skrev beskrivelser av treningsprosesser i talemodeller til NRK
- Cristin – markert alle resultater 2023-2025
- Karelsk TTS material - går gjennom transkriberinger med lyd
- Speech synthesis workshop: fikk reviews av 2 artikler: en akseptert og en rejected
Framover/Ideer:
- Undersøker en mulighet for å få GUI for Whisper-modeller
- Undersøker TTS til Anki (språklæringssapp) via API
- NB: nordic automatic LID (language identification), kan brukes til å filtrere norsk material (tekst) ut fra t.ex. sametingets plenumaudio?
- Til folk som er interessert av TTS-prosjekter: https://docs.coqui.ai/en/latest/what_makes_a_good_dataset.html
Necessary Innovations
- CI-serveroppsett. Mål: å kvitta seg med Taskcluster og få enklare administrasjon og vedlikehald
- mobiltastaturrettingar
- TTS-oppdatering:
- fleirspråkleg syntesemodell (ein modell for alle språk)
- tal blir konverterte til tekst
- tekstprosesseringa uavhengig av syntesemodellen
- berre på API-servaren inntil vidare
- har levert fungerande prototype på ny grammatikkontroll i nettlesar
Framover
- pahkat-infra
- ny grammatikkontrollplugg
- nytt installeringsprogram
Reiser og konferansar
Både potensielle og påmeldte, og planlagde reiser:
- ca 26.6.2025 20th Annual Meeting of the Internet Governance Forum (IGF-2025) (Lillestrøm):
- Hovudside
- Registreringsside (frist: 1. juni, 1731 registrerte deltakarar så langt)
- KDD lagar eit sidearrangement der, Sjur er med og planlegg programmet, Divvun bør delta
- 18.–23.08.2025 CIFU — Congressus XIV Internationalis Fenno-Ugristarum (Tartu, Estland)
- 25.-26.8.2025 Speech Synthesis Workshop (Leeuwarden)
- 26.-29.08.2025: syntaxfest
- september-oktober: ISl-personalseminar
- 2.-3.10.2025 SKY symposium, Tampere
- 22.-24.10.2025 The 22nd Annual EFNIL Conference i Wien — «Language Norms and Linguistic Justice in a Multilingual World», innlegg om Open Language og plattformtilgang for normative verktøy for alle europeiske språk
- https://ranlp.org/ranlp2025/index.php/workshops/:
- 10.–12..12.2025 https://acl-sigur.github.io/iwclul2025.html IWCLUL
- seinare: sigmorphon eller andre tba
LREC - framtidsplanar
- maori: grammatikkontroll, datastyring og tilgang, etikk og plattformkontroll
- nasjonalbiblioteket og samiske tekstar - skrive søknad til KD
Ymse
Divvun-samling etter sommaren: 25.-29.8.
Neste møte: tysdag 1.7. kl 10.00 norsk tid.