Divvun-møte 27.6.2023
Til stades: Katri, Maja, Inga, Flammie, Sjur
Saker:
- Sidan sist
- Reiser og konferansar
- LREC - framtidsplaner
- Ymse
Sidan sist
Maja Lisa
- FST-arbeid - Gjennomgang av inc. lemma -adjektiver og lemma fra dict: kommando for manipulering av lemmalister
- Transkribering av AJ-filer:
- Mye problem med programmet/Orakel
- Transkriberingsmöte med katri - komme igang - må fikse
- SMA-tidskrift - tatt kontakt med korrekturlesere
- artikkel-skriving
Framover:
- Transkribering av AJ-filer: speech-sma-x-private - faste möter med Katri?
- avtalen med Jacobsen-brödrene
- artikkel, smagram - faste möter med Linda
- FST-arbeid:
- adj-klassifisering - Se liste: fra 2-4
- yamltesting
- automatisering / hjelp til å laga stammar effektivt frå lemma, i lag med Flammie
- Anna Granefjell - pröve å finne noe materiell -> Lill Westerfjell Kalstad.
Flammie
- artikkel og skript med NMT-evaluering
- cg artikkel camera-ready ferdig
- Azure-skytjeneste
Framover:
- tilpassa pipeline-oppsettet til ny vislcg3-filtrering av dev-reglar
Inga
- Artikkel om ordbok: sme-smj
- Svensk stemme har ikke fått utbetalt lønn
- Møte om tekster til Korpus fra Árran
- Phd
Framover:
- diskuter korpusavtaler med Børre - vi må ha ein fast plass å lagra relevante avtaler for tekstene vi har. Eitt forslag kunne vera:
corpus-smj-orig-x-closed/agreements/*
+ lenke/sti i metadata.
Katri
- Fortsatt med dokumentering av alt med tale: https://hackmd.io/@kathiasi/HkN5tl8U3/edit / https://hackmd.io/Y3of2MNzSs2h_bmpnndK8A
- prosesserer smj material for whisper (talegjenkjenning)
- gjort automatisk force-align men nå sjekker allt manuellt før oppdeling for Inga sin material og Britt Inger
- ser på konvertering av TTS (Pytorch) modeller til TorchScript: https://github.com/LaurentMazare/tch-rs/tree/main/examples/jit
- sme material (kvinnlig stemme) er nå ferdig prosessert for trening, starter med trening på Saga i dag om det fungerer
- møte med Kati Eriksen fra Samas.no om en samisk spill og taleteknologi
Framover:
- Ny språkgjenkjenningsverktøy med nord- og enaresamiske modeller: https://github.com/facebookresearch/fairseq/tree/main/examples/mms
- NB!!!: https://research.facebook.com/publications/scaling-speech-technology-to-1000-languages/
- lulesamisk Whisper? - venter på korpuslisenser
- tilbake til Gradio TTS demo platform på nettet, eksternt server til dette?
- se mer om common voice
- ASR output: Store bokstaver, punktum etc.? Se finsk whisper: More info about the casing+punctuation correction model can be found here
- Overflow-tts?
- info on Whisper transcription og diarization: (Whisper)
Sjur
- sjuk førre veka
- divvun-veke
- SMA/Nordlyd
- lisens for tastatur-repoa ⇒ vi endrar til MIT
- lisens for VislCG3 til dei to nye prosjekta
- risikovurdering for dei nye prosjekta (krevst for nye prosjekt)
TheTC
- ny versjon av Divvun Manager, med eksplisitt feilmelding når det er nettverksproblem
Necessary Innovations
- signert avtale om grammatikkontroll, talesyntese
- signert avtale om nettportal dei nærmaste dagane
- oppstartsmøte i morgon
Andre planlagde oppdateringar
- stavekontroll inn i MT-sida igjen (unhammer)
- grammatikkontroll inn i MT-sida (unhammer)
- grammatikkontroll inn i LO (Kevin sin oxt)
- grammatikkontroll inn i nettstavekontrollen
Reiser og konferansar
Potensielle konferansar:
- 20.-24.08. INTERSPEECH, Dublin + 18.-20.08. SIGUL2023, Dublin (Interspeech satellite)
- 04.-06.09.(-08.09.) RANLP. Bulgaria
- 18.-22.09. KONVENS. Ingolstadt
- 19.-20.09 Inga deltar på seminarium för de samiska förvaltningskommunerna i Staare (Østersund)
- 19.-20.10. Samisk symposium (Sámegiela ja sámi girjjálašvuođa dutkan- ja bagadallansymposia) i Tromsø, Divvun-samling veka etterpå (23.-27.10.)?
LREC - framtidsplaner
- maori-grammatikkontroll - zoom-møte?
- nasjonalbiblioteket og samiske tekstar - skrive til dei
- islandsk regelbasert grammatikkontroll
- Wikimedia-ting: LinguaLibre
- søramerikanerne var interessert i fst - evt ha et kurs for dem
Ferie
Legg han inn i Outlook-kalenderen og i Zulip.
Ymse