Divvun-møte 12.3.2024
Til stades: Flammie, Katri, Maja, Linda, Sjur, Børre, Inga, Mikko
Saker:
- Sidan sist
- Reiser og konferansar
- LREC - framtidsplaner
- Ymse
Sidan sist
Katri
- settet opp Resemble-enhance til Saga https://github.com/resemble-ai/resemble-enhance
- speech-sma
- prosessert transkribert materialer, forbedret lydkvalitet med resemble-enhance verktøy
- speech-smj
- ny (2-speaker)syntesemodell med Sander etter korrigeringer av tekster (450/500 epochs trent)
- prosesserer Britt Inger materialer – dag 3/4 nesten ferdig
- Møter og samarbeid med flere folk; smj, sma, NB, P.K. (Laplands uni)
Framover/Ideer:
- Kompileret sme og smj ASR test datasets (~1 time) for å utvikle og “validate” modeller
- Trenger hjelp med begge språk med å fikse transkriberinger
- Kanskje samarbeid med Giellagas - de har masse sme-material som trenger transkribering -> bruke vår ASR -> mer treningsmaterial til oss
- NB: nordic automatic LID (language identification), kan brukes til å filtrere norsk material (tekst) ut fra t.ex. sametingets plenumaudio?
- Artikkel om TTS: evalueringstest i små språksamfunner er vanskelige
- Til folk som er interessert av TTS-prosjekter: https://docs.coqui.ai/en/latest/what_makes_a_good_dataset.html
Flammie
- artikkelmöter og skriving og planlegging
Maja
- Intervju/tilsettingsmøter
- Småjustering/gjennomgang av transkripsjon -
- Artikkelmøter med Linda - smj GramDivvun på sma tekst -gjennomgang av tallord spes. Spennende!
- Møte med Ina Theres om sma-transkripsjon
Framover:
- Flytte normeringsdokumentasjon til
lang-sma/docs
?
- Artikkelskriving
- Gramcheck
- Flammi = lage yaml-tester bl.a Gramcheck-regler for relative pron: gie/mij i ulike kasus
- legge til 6000 Gg-lemma i src-filer og i dict-filer med eksempelsetninger. Mange gode eksempler i trad.tekster.
- jobbe sammen med Thomas og Ina om transkripsjon
Børre
- TermWiki-møte med smj i GG, kort innføring i TermWiki
- Eksportere Kela til Excel, lage script for det
- Fortsette med tesseract
- Hjelpe Duommá
- Kort møte om FAIL/PASS i gramcheck, sånn generelt
- Jobbe med FAIL/PASS, lang-smn
- Fundere ut hvordan jeg løser gramcheck og synkronisering av tester
- Svare Simon Piera Paulsen, som jobber med maskinoversettelse innad i NRK
- Lage ny strøm for GG på Zulip
Linda
- 3 CG-møter med Maja (smj GramDivvun på sma tekst)
- søknad om reiseforskudd
- abstrakt med Inga til SAALS
- CG-møte med Marja-Liisa (smj GramDivvun på smn tekst)
- artikkelmøter med Flammie (VarDial, LREC)
- foredragsmøte med Sjur, Flammie, Trond (Computel)
- møte med Børre og Trond om yaml
Inga
- Tilpasset tekst etter tale
- Ansettelsesprosess
- Abstrakt til SAALS sammen med Linda
- OmegaT veiledning
- Kontaktet flere potensielle lulesamiske stemmer
- Prøvd å nøste litt opp i rettigheter til Blaasvær forlag
- Forberedelse til New York-reise
Sjur
- møte med Arkivverket/Samisk arkiv
- møte med NB om korpus og nordisk samarbeid
- Acta Borealia-artikkel
- møte med NRK, SVT m.fl.
- førelesing på Helsingfors universitet
- møte med CSC/Martin, NRK, SVT om datalagring og deling
- nordisk taleteknologimøte
- terminologimøte med folk frå Bergen - kan/bør vi samarbeida om samisk terminologi?
- windows-signering
- konsulentstillinga i Divvun
Framover:
- intervjua kandidatar til konsulentstilling
- melda feil i SMS-tastatur til Apple (langpress for ö og ä)
TheTC
Framover:
- Android, kodesigneringssertifikat (Windows-oppdateringane skal fungera igjen)
Necessary Innovations
Andre planlagde oppdateringar
- stavekontroll inn i MT-sida igjen (unhammer)
- grammatikkontroll inn i MT-sida (unhammer)
- grammatikkontroll inn i LO (Kevin sin oxt)
- eige prosjekt med Nec. Innov.
- grammatikkontroll inn i nettstavekontrollen
Reiser og konferansar
Tar alt for lang tid å få reiseoppgjer!
Et alternativ: https://cp.compendia.no/uit/medarbeiderhandbok/208693
Både potensielle og påmeldte, og planlagde reiser:
- 17-22.3 EACL: https://2024.eacl.org/calls/papers/#important-dates
-
- april 2024: UNPFII-sidearrangement i New York (i alle fall Inga og Sjur)
- 17.-19.4.2024 Fonetiikan päivät (Tallinn, Katri)
- 20.-25.05.2024 LREC-COLING Torino
- 16–21.6.2024: NAACL
- 25.-26. juni 2024: Språkteknologikonferanse i Bodø - alle?
- oktober 2024: Språkteknologikonferanse i Trondheim/Trøndelag - små språk i Norden (mange/alle?), lansering av sørsamisk TTS
- 6.–7. November: SAALS6, abstrakt 15.mars
LREC - framtidsplaner
- maori: grammatikkontroll, datastyring og tilgang, etikk og plattformkontroll
- nasjonalbiblioteket og samiske tekstar - skrive søknad til KD
Ymse
Bør vi arrangera fleire release-partyar eller kurs på nettet? Kan kanskje nå fleire folk lettare på den måten. Målsetjing: nettseminar to gonger om året
Maja: F.eks nettseminar om språkteknologi, nyoppdatering av f.eks grammatikkontroll eller oppdatering av dict -lagt til nye ord og funksjoner i dict