Divvun-møte 24.9.2024
Til stades: Katri, Sjur, Mikko, Flammie, Inga, Børre, Maja, Linda
Saker:
- Sidan sist
- Reiser og konferansar
- LREC - framtidsplaner
- Ymse
Sidan sist
Mikko
Sjur
- bokmessa i Gøteborg - planlegging og transport
- møte om konferansen i Trondheim
- EU-AI-act-høyring
- sendt TTS-avtaletekst til UiT-jurist for engelsk versjon
Framover:
- innkjøpsordre for Gøteborg
- 2 billetter ligger klar på hotellet til Børre
- oppdatering av Divvun-nettsidene (Flammie)
- svar Keoni, vil testa mac-versjonen
- svar Daan
- lage pakke for smj grammatikkontroll
Maja Lisa
- Forberedelse til Gøteborgsmessa -
- lexc - fiksa lemma og missinglister (takk til Børre!)
- artikkelmøte med Linda - nyttig!
- Reiseforberedelse og registrering til
Fremover:
- spørsmål om speechify - talesyntese-app
- Forberede presentasjon av talesyntese - Forberede sammen med Katri
- Missinglist fra Orre Testamente - endringer i lexiconer
- Missinglist fra 6 sma-masteravhandlinger - endringer i lexiconer
- tekstnormalisering for SMA (tal og forkortingar til tekst) - se sammen med Inga - lexc-arbeid
- Foreberede pres. av lånetilpassinger - hva er vedtatt og hvor er det fortsatt stor variasjon?
- Forberede pres. av GramDivvun - også fra GG: Forberede presentasjon om grammatikkontroll - Variasjon i negation og adj-systemer - en faktor til språksperre? Forberede sammen med Linda
Børre
- Møte: Samisk arkiv
- Diskutere grammatikalske stilregler med Linda/Inga
- Gøteborg-info om utstillersiden
- semver i lang-und-template sammen med Flammie
- borealium på norsk
- hjelpe folk
Framover:
- oppdatera og reinska i innhaldet på divvun.no innen 25.09
- laga oppsett for gramcheck-testdata i cg3-filer
- Bugzilla-flyttinga
Inga
- Noe bokmesse, oppdatert info om oss
- Gramchecker, numphraseregler
- Gramchecker, stilretting - fra korte til lange former
- +Long/+Short tagger i FST, default har ikke tag mens ikke default har enten short/long
- Error source-oppdatering
- Foredrag om TTS til lulesamisk språkseminar
- Foredrag om lulesamiske numphrasefeil sammen med Linda (SAALS)
- Veileding av bruker og rapportering av feil (PITCH)
- Fulgte Jordans og Darrens forelesning
Fremover:
-Avspaserer onsdag og torsdag
-Workshop i språkuka på Árran?
Linda
- artikkelmøte med Maja (SDA artikkel) - systematisering av negasjonsfeil (grammatisk vs. real word)
- snakka med Børre om gramtool
- grønlandsk grammatikkontroll med med Judithe
- irsk grammatikkontroll med Seanán (snakk om lansering)
- presentasjonsmøte med Inga (SAALS konferanse)
- Maori-konferanse
- kommunikasjon med Te Hiku folkan
- fiksa noen av Duommá sine bugger for sme grammatikkontroll
- flere møter med Marja-Liisa
- møte med Duommá om fst-arbeid
- møte med Flammie om fremtidige konferanser
Katri
- TTS:
- Trent sma-tts-v1; prosessering av lyd med resynthesis genererer metallisk lyd og visse feil i uttale
- Forbereder å trene sma-tts-v2 med annen treningssetup: uten resynthesis og med “2-talere” for å separere bra og dårlig opptak av AJ
- lydprøver sma og smj
- ASR:
- sme: Irja
- sme: ny Aalto modell, testing
- smj: test set
- sma: diarisert 300 episoder av Åarjel Faaroe for å markere timestamps for tale og separere ulike talere
- Praat-opplæring med Thomas: han ska hjelpe med å filtrere sørsamisk tale fra Åarjel Faaroe-podcast fra NRK og så transkriberer han passende deler av lyd
- reisebestilling Trondheim
- møte med Arkivverket
- møte Samisk taleteknologi
- møte om Nordforsk-søknad
Framover/Ideer:
- Teste Divvun Manager på Windows, TTS
- Teste Divvun Dev Keyboard?
- NB: nordic automatic LID (language
identification), kan brukes til å filtrere norsk
material (tekst) ut fra t.ex. sametingets
plenumaudio?
- Artikkel om TTS: evalueringstest i små språksamfunner er vanskelige
- Til folk som er interessert av TTS-prosjekter: https://docs.coqui.ai/en/latest/what_makes_a_good_dataset.html
- Samarbeid med Kanada om TTS?
Flammie
- byggefiks i infra: semver, docs ci
- cg workshop
- genererte semsets
hfst-dump-alphabets
<- hfst-summarise -v | grep -A 1 alphabets ...
- lang-ora
framöver:
- divvun.no oppdatert för torsdagsmorgon ferdig
TheTC
- har sagt opp vedlikehaldsavtala med heimel i
svensk konkurslovgjeving, er inne i ein
omstruktureringsprosess
Framover:
- Android: ny versjon av Divvun Dev er ute
- sjekk at stavekontrollane fungerer
- sjekk at alt anna fungerer
- om ok: => ny versjon av Divvun-tastaturet for Android
- Divvun Manager
- CLI for Páhkat på mac/windows
Necessary Innovations
- arbeider med TTS for iOS og macOS
- oppdatert TTS-motor tek mykje mindre plass
- vil ha ferdig ny TTS til Gøteborgsmessa, truleg
òg grammatikkontroll, men er avhengig av info
frå MS
Andre planlagde oppdateringar
- stavekontroll inn i MT-sida igjen (unhammer) => Flammie pratar med Kevin, bruk api-serveren
- grammatikkontroll inn i MT-sida (unhammer) => Flammie pratar med Kevin, bruk api-serveren
- grammatikkontroll inn i nettstavekontrollen
- sjå over nettstavekontrollen:
Reiser og konferansar
Både potensielle og påmeldte, og planlagde reiser:
- 26.-29.09.2024: Bokmässan (Göteborg)
- datamaskin til video
- høyretelefonar + desinfeksjon
- dei siste billettane
- “kurs”?
- henting og transport av trykt materiale og ståbanner
- andre enn Sjur?
- oppdatera divvun.no?
- 02.-03.10.2024: Lulesamisk språkseminar i Jokkmokk (Inga skal vise fram talesyntesen)
- 30.-31.10.2024: Minneseminar etter Anna Jacobsen
SMA-talesynteselansering (Maja, Katri, Sjur, Thomas og Ina Theres) (Hattfjelldal)
- 05.-06.11.2024: Språk og AI i Norden - for alle? (mange/alle?), presentera sørsamisk TTS (Trondheim)
- 06.–07.11.2024: SAALS6 (Helsingfors)
- 12.-15.11.2024: IIRC (Auckland)
- 29.11.2024 IWCLUL i helsingfors
- 18.–23.08.2025 Congressus XIV Internationalis Fenno-Ugristarum https://cifu14.ut.ee/symposium-b12/
LREC - framtidsplanar
- maori: grammatikkontroll, datastyring og tilgang, etikk og plattformkontroll
- nasjonalbiblioteket og samiske tekstar - skrive søknad til KD
Ymse
GG-nytt
Inga avspaserer 25.-26. sep.
Bør vi arrangera fleire release-partyar eller kurs på nettet? Kan kanskje nå fleire folk lettare på den måten. Målsetjing: nettseminar to gonger om året
Maja: F.eks nettseminar om språkteknologi, nyoppdatering av f.eks grammatikkontroll eller oppdatering av dict -lagt til nye ord og funksjoner i dict
Neste møte: tysdag 1.10. til vanleg tid.