Divvun-møte 28.2.2023
Til stades: Sjur, Flammie, Katri, Børre, Linda, Maja
Saker:
- Sidan sist
- Taleteknologiseminar
- Reiser og konferansar
- LREC - framtidsplaner
- Ymse
Sidan sist
Flammie
- hfst-python - slik at den fungerer med nyaste Python
- hjelpade jack med myv-mdf / mt osv.
- hjulpte marja liisa / små fikser til uconv-greia
- möte med göteborg-folk
Framover:
Katri
- fortsatt med artikkel til Interspeech - frist i morgon
- sme-tts: trent både stemmer til 1000 epochs, både er bedre med Univnet vocoder (jf. HifiGAN)
- sametingets taledata: diarization til TextGrid-skript
- sme-asr utvikling med NB: syntetisert 24 timer tale som treningsmaterial til ASR (talegjenkjenning)
- tekst fra freecorpus -> genererer setninger med Fastpitch -> input til Whisper-modellen
- jobbat med Børre med num2letters.py for å konvertere freecorpus-tekster
- begynnt med speech-sma-private
Framover:
- sme-materialer til Risten (er allerede i OneDrive & github)
- forberede for nytt sme-opptak i Tromsø
- se mer om common voice
- ASR output: Store bokstaver, punktum etc.? Se finsk whisper: More info about the casing+punctuation correction model can be found here
- Overflow-tts?
- info on Whisper transcription og diarization: (Whisper)
Maja Lisa
- CG-møte med Linda: Gramcheck - Adjektiv-regler (condition to adjectiv-rule)
- Mark upp, yaml-tester
- Oversikt over A.J.-materialet. Begynt å skrive avtaletekster for noe av A.J.-materialet med Börre
- møte om avtaler for A.J.-materiale
Framover:
- Partikler/Adverb
- Fremover: Legge til flere ex-setninger til yaml-tester, teste etc
- Fremover: Jobbe med A.J-lydfiler + kommunisere videre om det resterende matierialet
Linda
- 2 CG-workshop med Maja
- 2 CG-workshop med Inga
- artikkelskriving
- møte med Per Egil og Flammie om MT evalueringskriterier
- OCR-henvendelse fra språkbanken
- CG-workshop med Marja-Liisa og Trond
- enaresamisk Nodalida artikkel
Børre
- Korpus: svn til git
- Få siste endringer i free- og boundcorpus inn i git_repoer
- git-lfs og utflating av orig-repoer
- Skript til å endre siffer til ord (til bruk for Katri)
- Sammallahtis ordbok
- Hjelpe folk med python
- Kjøre gramcheck_comparator for smj i boundcorpus
- Kontraktmøte med Maja og Sjur
Framover:
- sende avtaletekst for bruk av heile korpuset til NorwAI (via Sjur)
- gielese:
- forsiden oppe og går på http, Play-knappen fører til tom side
Sjur
- meir arbeid med ny utlysing for nettportal m.m.
- taleteknologiseminar med Peter Juel Henrichsen
- opphavsmannen bak New Amigos ringde, lurte på om vi har
TTS og ASR for nord-, lule-, pite- ume-, skolte- og
sørsamisk
- møte med KDD om arbeidet med urfolksspråktiåret
- diskuterte prosjektplan frå UB
- endringar i Gøteborg - dei gjer jobben utan Brendan
- møte med TheTC
- dokumenterte støtta for ISO 639-kodar i macOS
- møte om SMA-syntese og avtaletekstar
- møte med StatPed/Samisk om kva vi har, mogleg samarbeid
- førebuingar for førelesingar på HU på torsdag
Framover:
- transkriberingsprosjekt med Risten
- søknad til Kulturdepartementet om tilgang til heile NB-tekstsamlinga
- tts-analysator
- send e-post med dongelbestilling til Flammie
- diskuter
lookup
i divvunspell
med Brendan, Flammie - gjera ferdig det
som alt ligg der, evt. legg til API-kall
Infra-arbeid framover (Børre, Flammie, Sjur):
- flytta fst-bygginga inn i fst-mappa
- flytta alle test-katalogane (til underkatalogar av det som skal testast)
Gøteborg
- TTC har angra oppseiinga av vedlikehaldsavtala - alt
går vidare som før
Andre planlagde oppdateringar
- stavekontroll inn i MT-sida igjen (unhammer)
- grammatikkontroll inn i MT-sida (unhammer)
- grammatikkontroll inn i LO (Kevin sin oxt)
- grammatikkontroll inn i nettstavekontrollen
Reiser og konferansar
- 22.-24.5.2023: Nodalida, på Færøyane
- CG-workshop deadline 10.april
Andre potensielle konferansar:
- 02.-05.05. EACL. (RAIL, LoReSMT…) Dubrovnik
- 12.-15.06. EAMT. - Tampere
- 10.-12.07. ACL. (SIGMORPHON) Canada
- 20.-24.08. INTERSPEECH, Dublin (Katri)
- 04.-06.09.(-08.09.) RANLP. Bulgaria
- 18.-22.09. KONVENS. Ingolstadt
LREC - framtidsplaner
- maori-grammatikkontroll - zoom-møte?
- nasjonalbiblioteket og samiske tekstar - skrive til dei
- islandsk regelbasert grammatikkontroll
- Wikimedia-ting: https://lingualibre.org/wiki/LinguaLibre
- søramerikanerne var interessert i fst - evt ha et kurs for dem
Ymse