Divvun-møte 27.2.2024
Til stades: Flammie, Katri, Maja, Linda, Sjur, Børre
Saker:
- Sidan sist
- Reiser og konferansar
- LREC - framtidsplaner
- Ymse
Sidan sist
Katri
- speech-sma
- prosessert transkribert materialer
- speech-smj
- ny syntesmodell med Sander etter korrigeringer
- prosesserer Britt Inger materialer – dag 3/4
- prøver også å trene en modell med en annen talere (2-speaker model)
- speech-sme
- sendte nye modeller til Necessary, kanskje noe feiler blir fjernet?
- testet en verktøy for å forbedre lydkvalitet: https://github.com/resemble-ai/resemble-enhance
- Kontakt med spillprosjekt for nordsamisk
Framover/Ideer:
- Kompileret sme og smj ASR test datasets (~1 time) for å utvikle og “validate” modeller
- Trenger hjelp med begge språk med å fikse transkriberinger
- Kanskje samarbeid med Giellagas - de har masse sme-material som trenger transkribering -> bruke vår ASR -> mer treningsmaterial til oss
- NB: nordic automatic LID (language identification), kan brukes til å filtrere norsk material (tekst) ut fra t.ex. sametingets plenumaudio?
- Artikkel om TTS: evalueringstest i små språksamfunner er vanskelige
Flammie
- hjelper jack med infra (myv, mdf)
- grammatikkontroll og artikkelmöte linda
- giellaltgramtools- til template
- begynte jobb med lrec cameraready
Maja
- Transkribering - Gått igjennom og korrigert “Don jih dan bïjre II” også klar til Katri
- Artikkelmøte med Linda
- Gramcheck med Linda
- Artikkelmøte “The Ethical Question”
- Møte med Berit Anne
- Halaz-møte Jussi + Leif Elsvatn
Framover:
- Flytte normeringsdokumentasjon til
lang-sma/docs
?
- Artikkelskriving
- Gramcheck
- Flammi = lage yaml-tester bl.a Gramcheck-regler for relative pron: gie/mij i ulike kasus
- legge til 6000 Gg-lemma i src-filer og i dict-filer med eksempelsetninger. Mange gode eksempler i trad.tekster.
- jobbe sammen med Thomas og Ina om transkripsjon
Børre
- GiellaLTGramTools: integrer dem i byggesystemet vårt, lage PR
- Anders om NDS og sortering av output
- Korpusstatistikk til SD (konvertering etter forgreining), se om filer er forsvunnet fra svn til git
- Svare Tauno Ljetoff om korpus
- LREC-artikkelmøte
- gramcheck-test.py
- Finne ut hvorfor feil tester flyttes fra FAIL til PASS. Svar: duplikater
- Stoppe om man finner duplikater
- Flytte en del duplikater i smj
- Pussighet i Make 4.4.1 og Mac, lang tid, ikke samme greie med Linux/Make 4.3
- Svare om Divvun og Sharepoint
Linda
- artikkelmøter med Maja
- CG-møter med Inga
- jobba med smj-grammatikkontroll
- CG-møte med Marja-Liisa
- fiksa sma- og smn-grammatikkontroll
- artikkelmøter med Flammie
- møte med Trond, Vincent og Lene
- skal vi jobba med ein slik app - eller ta over koden etterpå - må vi vera med frå starten
- Sjur er i utgangspunktet litt skeptisk, jf Lene sine innvendingar
- samtidig: ein god språklæringsapp er det stort behov for
Sjur
- møte med Arkivverket/Samisk arkiv om samarbeid framover x 2
- har 30 år med ope materiale frå SD-plenum!!
- søknadsfrist for konsulentstilling har gått ut - seks søkjarar, truleg fire kvalifiserte som skal til intervju
- flytta skuvla-repoet til ny org, laga ny nettstad
- etterrakst for Apple-tastatura, Apple og eg er samde om ting som skal rettast, nyaste beta inneheld ein del av rettingane
- NB-lansering av norsk Whisper
- møte med NB om korpus og nordisk samarbeid
- Acta Borealia-artikkel ferdig til måndag
Framover:
- førelesing på HU i morgon (årleg intro til språktek for min.språk for grunnstudium i språk)
- intervjua kandidatar til konsulentstilling
TheTC
Framover:
- Android, kodesigneringssertifikat (Windows-oppdateringane skal fungera igjen)
Necessary Innovations
Andre planlagde oppdateringar
- stavekontroll inn i MT-sida igjen (unhammer)
- grammatikkontroll inn i MT-sida (unhammer)
- grammatikkontroll inn i LO (Kevin sin oxt)
- eige prosjekt med Nec. Innov.
- grammatikkontroll inn i nettstavekontrollen
Reiser og konferansar
Tar alt for lang tid å få reiseoppgjer!
Et alternativ: https://cp.compendia.no/uit/medarbeiderhandbok/208693
Både potensielle og påmeldte, og planlagde reiser:
- 11.-15. mars: neste Divvun-samling
- i lag med ISOF-folk
- alle på plass seinast kl 10 på måndag
- 17-22.3 EACL: https://2024.eacl.org/calls/papers/#important-dates
- 15.-19. april 2024: UNPFII i New York (i alle fall Inga og Sjur)
- 20.-25.05.2024 LREC-COLING Torino
- 16–21.6.2024: NAACL
- 25.-26. juni 2024: Språkteknologikonferanse i Bodø - alle?
- oktober 2024: Språkteknologikonferanse i Trondheim/Trøndelag - små språk i Norden (mange/alle?), lansering av sørsamisk TTS
LREC - framtidsplaner
- maori: grammatikkontroll, datastyring og tilgang, etikk og plattformkontroll
- nasjonalbiblioteket og samiske tekstar - skrive søknad til KD
Ymse
Bør vi arrangera fleire release-partyar eller kurs på nettet? Kan kanskje nå fleire folk lettare på den måten. Målsetjing: nettseminar to gonger om året
Maja: F.eks nettseminar om språkteknologi, nyoppdatering av f.eks grammatikkontroll eller oppdatering av dict -lagt til nye ord og funksjoner i dict