Divvun-møte 21.2.2023
Til stades: Sjur, Flammie, Katri, Børre, Inga, Linda
Saker:
- Sidan sist
- Taleteknologiseminar
- Reiser og konferansar
- LREC - framtidsplaner
- Ymse
Sidan sist
Flammie
- Unicode-script ferdig
- med nyaste giella-core og langs man må ha
uconv
installert kanskje med macports eller brew på mac
Framover:
Katri
- fortsetter med artikkeljobb for Interspeech: en eksperiment om dialektgjenkjenning for sme – det ska bli nyttig for ASR/dialogsysteme
- sme-tts: demo user interface med Gradio, med 2 sme stemmer (slik som i (Huggingface))
- speaker diarization (pipeline: (pyannote)) ferdig
- diarization: ulike talere separeres automatisk fra en lang lydfil og blir merket med tidsstempler
- sme-asr utvikling: syntetisert tale som treningsmaterial til ASR (talegjenkjenning)
- tekst fra freecorpus -> genererer setninger med Fastpitch -> input til Whisper-modellen
- Saga problemer løst
- taleteknologiseminar med Peter
- generalt jobb med talekorpuser
Framover:
- eksperimentere med sørsamisk
- se mer om common voice
- ASR output: Store bokstaver, punktum etc.? Se finsk whisper: More info about the casing+punctuation correction model can be found here
- Overflow-tts?
- info on Whisper transcription og diarization: (Whisper)
Maja Lisa
- Gramcheck - ny negationcongruense-rule feiltype Neg.verb + Aux,
- Valens til subclause-adjektive, markup-fixing
- Laget nye lexicon, + added nye lemma + litt dict
- Synes møtene med Linda er bra!
- Oversikt over A. J materiell - som vi kan føre opp i skrivene/avtalene til Jacobsen-brødrene
- funnet en til lydmateriell - “Gullietjååtsele” hvor tekst og lyd kongruerer helt! :-)
Framover:
Linda
- CG-workshop med Knut
- nob-regel for bestemt>ubestemt
- CG-workshop med Maja
- sma-regler for adjektiv
- møte med Máret Láilá
- MT evalueringsarbeid
- planlegging av framtidige møter
Børre
Framover:
- korpus-repoar i git - heng på git-lfs. Kommet forslag på løsning fra it-avdelingen
- sende avtaletekst for bruk av heile korpuset til NorwAI (via Sjur)
- gielese:
- forsiden oppe og går på http, Play-knappen fører til tom side
Inga
- TTS - Tilpasset tekst etter tale
- Gramchecker: Gruppering av verb i sett.
- Arbeid med sme-smj ordbok og møter
- IDIL: møte med departement, notat om tilgjengeliggjøring av språkteknologi
- Taleteknologiseminar med Peter
Sjur
Framover:
- transkriberingsprosjekt med Risten
- søknad til Kulturdepartementet om tilgang til heile NB-tekstsamlinga
- tts-analysator
- send e-post med dongelbestilling til Flammie
- diskuter
lookup
i divvunspell
med Brendan, Flammie - gjera ferdig det
som alt ligg der, evt. legg til API-kall
Infra-arbeid framover (Børre, Flammie, Sjur):
- flytta fst-bygginga inn i fst-mappa
- flytta alle test-katalogane (til underkatalogar av det som skal testast)
Gøteborg
- TTC har sagt opp vedlikehaldsavtala, men
forhandlingar på gong
Andre planlagde oppdateringar
- stavekontroll inn i MT-sida igjen (unhammer)
- grammatikkontroll inn i MT-sida (unhammer)
- grammatikkontroll inn i LO (Kevin sin oxt)
- grammatikkontroll inn i nettstavekontrollen
Taleteknologiseminar
Reiser og konferansar
- 22.-24.5.2023: Nodalida, på Færøyane
- CG-workshop deadline 10.april
Andre potensielle konferansar:
- 02.-05.05. EACL. (RAIL, LoReSMT…) Dubrovnik
- 12.-15.06. EAMT. - Tampere
- 10.-12.07. ACL. (SIGMORPHON) Canada
- 20.-24.08. INTERSPEECH, Dublin (Katri)
- 04.-06.09.(-08.09.) RANLP. Bulgaria
- 18.-22.09. KONVENS. Ingolstadt
LREC - framtidsplaner
- maori-grammatikkontroll - zoom-møte?
- nasjonalbiblioteket og samiske tekstar - skrive til dei
- islandsk regelbasert grammatikkontroll
- Wikimedia-ting: https://lingualibre.org/wiki/LinguaLibre
- søramerikanerne var interessert i fst - evt ha et kurs for dem
Ymse