Divvun-møte 31.01.2023
Til stades: Sjur, Maja, Flammie, Katri, Børre, Inga, Linda
Saker:
Sidan sist
Flammie
- Divvun-uke
- unimorph
- Nodalida-artikkel om infra? Tidsfrist 6.2.! :-) Overleaf-link på chatten
- NB-möte
- jobb med karelsk/uef.fi folk
Framover:
- divvunspell cree
- Brendan kan hjelpe med divvunspell/32
- laga automatisk konvertering frå Unicode NFC til NFD, som valfri teiknrepresentasjon i deskriptive FST-ar (pga problema vi får t.d. med å analysera pdf-ar)
Katri
- sme-tts med fastpitch: testing, evaluering
- sme-Whisper ASR samarbeid med Javier fra NB
- Whisper ASR-modell:
https://huggingface.co/spaces/NbAiLab/whisper-sami-demo
- lastet ned Sámediggi og (https://sametinget.kommunetv.no/archive)
- SME-tolking: litt over 100 timar
- SMJ-tolking: ca 85 timar
- SMA-tolking: ca 86 timar
- 500 timar med hovudspor - alle tre språk + norsk
- utvikler en pipeline for å prosessere alt automatiskt før ASR
- automatisk teksting med Whisper-modellen, testet på Saga med en hele 48 min audiofil
- Finsk ASR demo: https://huggingface.co/spaces/Finnish-NLP/Finnish-Automatic-Speech-Recognition -> punktum etc.
- python skripter
- Møte med Risten om “transkribering”
- generalt jobb med talekorpuser!
- git-kurser
- byrokrati
Framover:
- Taleteknologi-artikkel til Nodalida
- En webapp/user interface til TTS – Helsingfors?
- eksperimentera med sørsamisk når lydfiler og korpus er tilgjengeleg
- se mer om common voice
- ASR output: Store bokstaver, punktum etc.?
- Overflow-tts?
Maja Lisa
- CG-møte m/Linda
- testing, retting -opprydding yamltest
- Seminar:
[Samiske språkrettigheter – ivaretas de på en bærekraftig måte?]
- Lemmawork + lexicon
- Git/Tower
- Sma-tidskrift
- Jacobsenbrødrene: møtedato (Maja, Børre, Sjur, Katri)
Linda
- CG-workshop med Inga
- jobbet med disambiguering
- CG-workshop med Maja
- sørsamisk grammatikkontroll
- møte med Per Egil/NB
- brev til Cristin-ansvarlig sammen med Trond
- registrering til Cristin sammen med Flammie
Børre
Framover:
- bestemme hvordan vi redigerer den medisinske ordboka, gjøre kildekoden offentlig
- korpus-repoar i git - heng på git-lfs. Kommet forslag på løsning fra it-avdelingen
- sende avtaletekst for bruk av heile korpuset til NorwAI (via Sjur)
- gielese:
- forsiden oppe og går på http, Play-knappen fører til tom side
Inga
- TTS: tilpasser tekst til lyd
- Gramchecker med Linda, men vi ødela mer enn vi rettet. Jippi for yaml.
- IDIL-møte og reise:
- konferanse
- handlingsplan og nettsie
- Svenske sametinget - lägesrapport
- Git og Tower
Sjur
Framover:
- søknad til Kulturdepartementet om tilgang til heile NB-tekstsamlinga
- tts-analysator
- GitHub-kurs
- git-kurs
- send e-post med dongelbestilling til Flammie
- diskuter
lookup
i divvunspell
med Brendan, Flammie - gjera ferdig det
som alt ligg der, evt. legg til API-kall
Infra-arbeid framover (Børre, Flammie, Sjur):
- flytta fst-bygginga inn i fst-mappa
- flytta alle test-katalogane (til underkatalogar av det som skal testast)
Kan dela arbeidsrom via VSCode (med innebygd lydchat). Har ei felles arbeidsøykt etter påske.
Sjur sjekkar butikkane til Apple og Google for å finna flutter-appen.
Gøteborg
- eige (privat) repo for å administrera vedlikehaldsarbeidet
Framover:
- gjera ferdig one-click-installeraren
- stavekontroll til MS Office for mac
Andre planlagde oppdateringar
- stavekontroll inn i MT-sida igjen (unhammer)
- grammatikkontroll inn i MT-sida (unhammer)
- grammatikkontroll inn i LO (Kevin sin oxt)
- grammatikkontroll inn i nettstavekontrollen
Reiser og konferansar
- 13.-15.2.: Peter Juel Henrichsen kjem til Tromsø for å prata om taleteknologi ein halv dag
- 13.-17.3. - forslag til neste Divvun-samling
- 22.-24.5.2023: Nodalida, på Færøyane
LREC - framtidsplaner
- maori-grammatikkontroll - zoom-møte?
- nasjonalbiblioteket og samiske tekstar - skrive til dei
- islandsk regelbasert grammatikkontroll
- Wikimedia-ting: https://lingualibre.org/wiki/LinguaLibre
- søramerikanerne var interessert i fst - evt ha et kurs for dem
Ymse