Divvun-møte 24.01.2023
Til stades: Sjur, Maja, Flammie, Katri, Børre, Inga, Linda
Saker:
- Sidan sist
- Ymse
Sidan sist
Flammie
- unimorph-konversion og eval skripter
- debuggade unicode normalisering med Jack
Framover:
- divvunspell cree
- Brendan kan hjelpe med divvunspell/32
- laga automatisk konvertering frå Unicode NFC til NFD, som valfri teiknrepresentasjon i deskriptive FST-ar (pga problema vi får t.d. med å analysera pdf-ar)
Katri
- sme-tts med fastpitch, Acapela data, trent 3 dagar med mannstemme (600 epochs)
- sme-Whisper ASR workshop/samarbeid med Javier fra NB
- Whisper ASR-modell:
https://huggingface.co/spaces/NbAiLab/whisper-sami-demo - kanskje ny treningsdata fra Sámediggi
- Whisper ASR-modell:
- skript for å kunne produsere automatisk teksting med Whisper-modellen, testet på Saga
- Finsk ASR demo: https://huggingface.co/spaces/Finnish-NLP/Finnish-Automatic-Speech-Recognition
- sme ASR demo: https://huggingface.co/spaces/NbAiLab/whisper-sami-demo
Framover:
- En webapp/user interface til TTS – Helsingfors?
- eksperimentera med sørsamisk når lydfiler og korpus er tilgjengeleg
- se mer om common voice
- ASR output: Store bokstaver, punktum etc.?
- Overflow-tts?
Maja Lisa
- lemmawork
- gramcheck - mark-up + testing
- bra møte med Linda
- AJ-lydfiler
- Hemisoppfølging
Linda
- CG-workshop med Inga & artikkel
- CG-workshop med Maja
- sørsamisk grammatikkontroll
- sendt litt oppgaver til Máret Láilá
- samarbeid med NB
- møte om presentasjon på fredag
Børre
- Hvordan bygge nettsider ved innsjekkinger
- Konklusjon: bruke webhooks for å varsle om commits til nettsidemaskina vår ⇒ bygge nettsidene
- Lage info om korpus
- NRK-crawler
- Hente sma og smj i tillegg til sme
- Oppdatere til ny syntaks i nrk’s api
- Møte m/NTec om ordbøker
- Lage feilmelding om Android-keyboard etter feedback fra bruker
Framover:
- bestemme hvordan vi redigerer den medisinske ordboka, gjøre kildekoden offentlig
- korpus-repoar i git - heng på git-lfs. Kommet forslag på løsning fra it-avdelingen
- sende avtaletekst for bruk av heile korpuset til NorwAI (via Sjur)
- gielese:
- forsiden oppe og går på http, Play-knappen fører til tom side
Inga
- TTS: tilpasser tekst til lyd
- Rettet Tronds nye ord i smj
- +Gram/3syll:
- undersøkt bruken i smj vs sme: sme gir +Gram/3syll i hovedleksikon slik at likestavelses avledninger også får denne taggen.
- fjernet alle +Gram/xxx fra yaml siden Sjur har fjernet disse fra å være synlige
- Artikkelarbeid med Linda
- DEV-tester, rettet opp
- Korpusinfo med hjelp av Børre - det er for dårlege metadata for forskarar som bruker korpuset vårt
- Foreberedelse til IDIL:
- Global action plan of the International Decade of Indigenous Languages
- Handlingsplan for samiske språk fra 2009
- første utkast til nasjonal IDIL-handlingsplan
- Reiseplanlegging
- Tastaturbug
- NTEC-møte
Sjur
- for få innkomne tilbod til rammeavtala, inga reell konkurranse, så tilbodskonkurransen har vorte avlyst
- generaliserte og oppdaterte taggtestingsskriptet, no
med sentrale delar i
giella-core; klarar òg prefiks-taggar no - laga eige repo for vedlikehaldsarbeidet avtalt med underleverandør
- fiksa SMJ
- førebuingar for Skeŋkes hállama-prosjetet - planlagt møte med CSC + Krister Lindén
- møte med Ntec Media om samarbeid framover
- møte om og arbeidd med presentasjon til konferansen fredag
- sletta datamaaskina, og installerte systemet på nytt
- møte om dok-organisering og GitHub-organisasjonar
Framover:
- søknad til Kulturdepartementet om tilgang til heile NB-tekstsamlinga
- tts-analysator
- GitHub-kurs
- git-kurs
- send e-post med dongelbestilling til Flammie
- diskuter
lookupidivvunspellmed Brendan, Flammie - gjera ferdig det som alt ligg der, evt. legg til API-kall
Infra-arbeid framover (Børre, Flammie, Sjur):
- flytta fst-bygginga inn i fst-mappa
- flytta alle test-katalogane (til underkatalogar av det som skal testast)
Kan dela arbeidsrom via VSCode (med innebygd lydchat). Har ei felles arbeidsøykt etter påske.
Sjur sjekkar butikkane til Apple og Google for å finna flutter-appen.
Gøteborg
- eige (privat) repo for å administrera vedlikehaldsarbeidet
Framover:
- gjera ferdig one-click-installeraren
- stavekontroll til MS Office for mac
Andre planlagde oppdateringar
- stavekontroll inn i MT-sida igjen (unhammer)
- grammatikkontroll inn i MT-sida (unhammer)
- grammatikkontroll inn i LO (Kevin sin oxt)
- grammatikkontroll inn i nettstavekontrollen
Reiser og konferansar
- 25.-27.1.: The first International Conference on Sámi Research Data Governance
- 26.1.: Møte i Samarbeidsforumet for IDIL, Karasjok
- 13.-15.2.: Peter Juel Henrichsen kjem til Tromsø for å prata om taleteknologi ein halv dag
- 13.-17.3. - forslag til neste Divvun-samling
- 22.-24.5.2023: Nodalida, på Færøyane
LREC - framtidsplaner
- maori-grammatikkontroll - zoom-møte?
- nasjonalbiblioteket og samiske tekstar - skrive til dei
- islandsk regelbasert grammatikkontroll
- Wikimedia-ting: https://lingualibre.org/wiki/LinguaLibre
- søramerikanerne var interessert i fst - evt ha et kurs for dem
Ymse
- IDIL - International Decade Of Indigenous Languages
- neste møte tysdag 31.1.2023, vanleg tid