Divvun-møte 7.2.2023
Til stades: Sjur, Maja, Flammie, Katri, Børre, Inga, Linda
Saker:
- Sidan sist
- Taleteknologiseminar
- Reiser og konferansar
- LREC - framtidsplaner
- Ymse
Sidan sist
Flammie
- unicode NFC-NFD wi giella-core og templates- fortsett
- mötade karelsk folk på zoom
Framover:
- divvunspell cree
- Brendan kan hjelpe med divvunspell/32
- laga automatisk konvertering frå Unicode NFC til NFD, som valfri teiknrepresentasjon i deskriptive FST-ar (pga problema vi får t.d. med å analysera pdf-ar)
Katri
- artikkeljobb for Interspeech: en eksperiment om dialektgjenkjenning for sme – det ska bli nyttig for ASR/dialogsysteme
- sme-tts: ny vocoder som er mer passende for mannlig stemme (Univnet), mer trening, fikset en feil i koden slik at alle konsonanter/konsonantkombinasjoner fungerer
- utvikling av python skripter/verktøy -> speech-sme-x-private
- fortsatt med speaker diarization pipeline (pyannote)
- prøver på Saga men der finns vanskelige errorer med libraries, har tatt kontakt med Sigma2 support
- Saga dusage – kvoten for antall filer er for liten!
- møte med Jacobsen-brørne 9.2.
- generalt jobb med talekorpuser
- begynnt å se på en demo-UI for sme-tts: (Huggingface)
- info on Whisper transcription og diarization: (Whisper)
Framover:
- Acapela kvinnelig stemme
- En webapp/user interface til TTS
- eksperimentere med sørsamisk når lydfiler og korpus er tilgjengeleg
- se mer om common voice
- ASR output: Store bokstaver, punktum etc.? Se finsk whisper: More info about the casing+punctuation correction model can be found here
- Overflow-tts?
Maja Lisa
- CG-møte med Inga
- Yaml-test- fixing markup
- Möte 9/2: Jacobsenbrødrene - Oversikt over A.J material
Framover:
Linda
- CG-workshop med Knut (feiloppmerking, oppdatering)
- la til valensfil for norsk og skrev en regel for ubestemte substantiv
- møte med Máret Láila
- evaluering av ML MT
Børre
- Rydde opp i filendelser i freecorpus
- Korpusmøter
Framover:
- bestemme hvordan vi redigerer den medisinske ordboka, gjøre kildekoden offentlig
- korpus-repoar i git - heng på git-lfs. Kommet forslag på løsning fra it-avdelingen
- sende avtaletekst for bruk av heile korpuset til NorwAI (via Sjur)
- gielese:
- forsiden oppe og går på http, Play-knappen fører til tom side
Inga
- TTS - Tilpasset tekst etter tale
- Rettet på gullkorpusoppmerking
- Artikkel/gramchecker med Linda
- Sliter med oppdeling av verb, vi har sett for verb: feks *it, *ot osv. Men når feks et it-verb avledes til -dallat så blir det fremdeles “tolket” som it-verb
- Lønn til stemme
- Møte med Lene og Trond om sme-smj ordbok
- Avspaserte
Sjur
- møte om utlysingar
- arbeid med ny utlysing
- arbeid med SMA-spesialnummeret av Nordlyd
- skatt, nav og anna byråkrati
- møte med SD om korpusinnsamling
- møte med sønene etter Anna Jacobsen, og talesyntese
- divvunspel-OXT for LO (for mac)OS no ute i lista deira
- hjelpte Trond og Jaska m.fl.
Framover:
- transkriberingsprosjekt med Risten
- søknad til Kulturdepartementet om tilgang til heile NB-tekstsamlinga
- tts-analysator
- send e-post med dongelbestilling til Flammie
- diskuter
lookup
i divvunspell
med Brendan, Flammie - gjera ferdig det
som alt ligg der, evt. legg til API-kall
Infra-arbeid framover (Børre, Flammie, Sjur):
- flytta fst-bygginga inn i fst-mappa
- flytta alle test-katalogane (til underkatalogar av det som skal testast)
Gøteborg
- TTC har sagt opp vedlikehaldsavtala, men
forhandlingar på gong
Andre planlagde oppdateringar
- stavekontroll inn i MT-sida igjen (unhammer)
- grammatikkontroll inn i MT-sida (unhammer)
- grammatikkontroll inn i LO (Kevin sin oxt)
- grammatikkontroll inn i nettstavekontrollen
Taleteknologiseminar
Reiser og konferansar
- 13.-15.2.: Peter Juel Henrichsen kjem til Tromsø for å prata om taleteknologi ein halv dag
- 22.-24.5.2023: Nodalida, på Færøyane
Andre potensielle konferansar:
- 02.-05.05. EACL. (RAIL, LoReSMT…) Dubrovnik
- 12.-15.06. EAMT. - Tampere
- 10.-12.07. ACL. (SIGMORPHON) Canada
- 20.-24.08. INTERSPEECH, Dublin (Katri)
- 04.-06.09.(-08.09.) RANLP. Bulgaria
- 18.-22.09. KONVENS. Ingolstadt
LREC - framtidsplaner
- maori-grammatikkontroll - zoom-møte?
- nasjonalbiblioteket og samiske tekstar - skrive til dei
- islandsk regelbasert grammatikkontroll
- Wikimedia-ting: https://lingualibre.org/wiki/LinguaLibre
- søramerikanerne var interessert i fst - evt ha et kurs for dem
Ymse