Divvun-møte 15.8.2023
Til stades: Katri, Linda, Sjur
Saker:
- Sidan sist
- Reiser og konferansar
- LREC - framtidsplaner
- Ymse
Sidan sist
Linda
- feiloppmerking av sma korpus
- fiksing av mellomromsregler for sma og sme
- sma grammarchecker regler
- abstrakt med Maja for samisk konferanse
- sammensettingsregler for sme grammarchecker
- tilpassing av sme grammarchecker til release
- RANLP artikkel med Flammie og Per Egil
Katri
- poster til SIGUL23: DEVELOPING TTS AND ASR FOR LULE AND NORTH SÁMI LANGUAGES
- poster til Interspeech23: North Sámi Dialect Identification with Self-supervised Speech Models
- reisebestilling til Tromsø (søndag -> fredag)
- trener et ny sme tts stemme med “2” stemmer: kombinert gamle og ny opptak
- veldig mye debugging!! Måtte fjerna opptak utan F0 (knirking, osb)
- jobbat med mye Brendan før ferien
- deler opp smj ASR material
Framover:
- Ny språkgjenkjenningsverktøy med nord- og enaresamiske modeller: https://github.com/facebookresearch/fairseq/tree/main/examples/mms
- NB!!!: https://research.facebook.com/publications/scaling-speech-technology-to-1000-languages/
- lulesamisk Whisper? - venter på korpuslisenser
- tilbake til Gradio TTS demo platform på nettet, eksternt server til dette?
- se mer om common voice
- ASR output: Store bokstaver, punktum etc.? Se finsk whisper: More info about the casing+punctuation correction model can be found here
- Overflow-tts?
- info on Whisper transcription og diarization: (Whisper)
Sjur
- SMA/Nordlyd - siste finpuss
- tastaturarbeid
- prata med Samisk arkiv - vi treng meir samordning på tvers av samiske institusjonar når det gjeld språkteknologi, både når det gjeld ressursdeling og teknologibehov
- prata med KDD og instituttet - ok å omdisponera lønsmiddel for å ta vare på kjernekompetanse
- SVT har teke kontakt med oss og andre - dei treng taleteknologi for samisk! (talegjenkjenning, dvs automatisk teksting)
- høyrde på opptak frå paneldebatt frå META-FORUM i år
Framover:
- lisens for VislCG3 til dei to nye prosjekta
- risikovurdering for dei nye prosjekta (krevst for nye prosjekt)
TheTC
Necessary Innovations
- inkje nytt sidan sist, oppdateringsmøte i morgon
Andre planlagde oppdateringar
- stavekontroll inn i MT-sida igjen (unhammer)
- grammatikkontroll inn i MT-sida (unhammer)
- grammatikkontroll inn i LO (Kevin sin oxt)
- grammatikkontroll inn i nettstavekontrollen
Reiser og konferansar
Potensielle konferansar:
- 20.-24.08. INTERSPEECH, Dublin + 18.-20.08. SIGUL2023, Dublin (Interspeech satellite)
- 04.-06.09.(-08.09.) RANLP. Bulgaria
- 18.-22.09. KONVENS. Ingolstadt
- 19.-20.09 Inga deltar på seminarium för de samiska förvaltningskommunerna i Staare (Østersund)
- 19.-20.10. Samisk symposium (Sámegiela ja sámi girjjálašvuođa dutkan- ja bagadallansymposia) i Tromsø, Divvun-samling veka etterpå (23.-27.10.)?
LREC - framtidsplaner
- maori-grammatikkontroll - zoom-møte?
- nasjonalbiblioteket og samiske tekstar - skrive til dei
- islandsk regelbasert grammatikkontroll
- Wikimedia-ting: LinguaLibre
- søramerikanerne var interessert i fst - evt ha et kurs for dem
Ymse
Bør vi arrangera fleire release-partyar eller kurs på nettet? Kan kanskje nå fleire folk lettare på den måten.