Divvun-møte 20.2.2024
Til stades: Flammie, Katri, Maja, Linda, Inga, Børre
Saker:
- Sidan sist
- Reiser og konferansar
- LREC - framtidsplaner
- Ymse
Sidan sist
Katri
- speech-sma: forberedt oppdeling av talematerialer men venter på tekster fra Maja, har timemarkeringer for olike radiosendninger (1 times opptakk må deles opp først til ~10 min deler for å kjøre automatisk force-alignment)
- speech-smj:
- akkurat fått Britt-Inger dager 1 og 2 ferdige, sjekket lyd og tekster (men ikke forkortninger, akronymer…)
- ska trene et nytt modell av Sander med bedre lyd og mer akkurat tekst
- speech-sme:
- jobber videre med multi-speaker TTS og forbereding av den hele talekorpuset med ~10 talere og ~20 timer material
- første tester av tts-programmet fra Necessary, diskuter feiler med Sjur
- organisering av den hele talekorpus-systemet, dokumentert hva er gjort og listet alle deler av talekorpuset
- presentasjoner/konferenser
- NB sin lanseringsseminar på nettet
Framover/Ideer:
- Kompileret sme og smj ASR test datasets (~1 time) for å utvikle og “validate” modeller
- Trenger hjelp med begge språk med å fikse transkriberinger
- Kanskje samarbeid med Giellagas - de har masse sme-material som trenger transkribering -> bruke vår ASR -> mer treningsmaterial til oss
- NB: nordic automatic LID (language identification), kan brukes til å filtrere norsk material (tekst) ut fra t.ex. sametingets plenumaudio?
- Artikkel om TTS: evalueringstest i små språksamfunner er vanskelige
Flammie
- missinglista med dynamisk sammansatte ord
- infra
- grammatikkontroll og artikkelmöte
- lrec-plan
framover:
Inga
- Gramcheck: Cg med Linda
- Yaml-møte med Linda og Børre
- Fulgte STT-lanseringsseminar
- Tilpasset tekst etter tale
- Rettet akronymer of nettadresser i transkriberingen av Sanders tale
Maja
- Transkribering - Merket ok, de som er klare. Sjekker inn den “Don jih dan bïjre II” snart. denne også klar til Katri om litt.
- 6.febr-feiring m/media
Framover:
- Flytte normeringsdokumentasjon til
lang-sma/docs
?
- Artikkelskriving
- Gramcheck
- SAAL1-eksamen 15.02.2024
- Flammi = lage yaml-tester bl.a Gramcheck-regler for relative pron: gie/mij i ulike kasus
- legge til 6000 Gg-lemma i src-filer og i dict-filer med eksempelsetninger. Mange gode eksempler i trad.tekster.
- jobbe sammen med Thomas og Ina om transkripsjon
Børre
- Diskutere OCR med Trond: lære samisk til tesseract vha. tesstrain
- Stenge av adresser som plagde TermWiki
- Importere Excel-ark for Sámediggi FI
- Fikse TermWikiTools så den bruker dataklasser og typehint
- Følge nb-whisper
- TermWiki-admin
- Bestille reise. Dyre hotell!
- bugzilla2github
- hjelpe folk
- grammatikkmøte
Linda
- sme fst med Duommá
- la til nye ord i sme
- CG møte med Kevin for å fikse komplekse feil
- CG-workshop med Inga - oppmerking og numeralfraser
- artikkelmøter med Flammie
- møte med Trond
TheTC
- henta metadata for Páhkat-pakker frå git-repo
Framover:
- Android, kodesigneringssertifikat (Windows-oppdateringane skal fungera igjen)
Necessary Innovations
Andre planlagde oppdateringar
- stavekontroll inn i MT-sida igjen (unhammer)
- grammatikkontroll inn i MT-sida (unhammer)
- grammatikkontroll inn i LO (Kevin sin oxt)
- eige prosjekt med Nec. Innov.
- grammatikkontroll inn i nettstavekontrollen
Reiser og konferansar
Tar alt for lang tid å få reiseoppgjer!
Et alternativ: https://cp.compendia.no/uit/medarbeiderhandbok/208693
Både potensielle og påmeldte, og planlagde reiser:
LREC - framtidsplaner
- maori: grammatikkontroll, datastyring og tilgang, etikk og plattformkontroll
- nasjonalbiblioteket og samiske tekstar - skrive søknad til KD
Ymse
Bør vi arrangera fleire release-partyar eller kurs på nettet? Kan kanskje nå fleire folk lettare på den måten. Målsetjing: nettseminar to gonger om året
Maja: F.eks nettseminar om språkteknologi, nyoppdatering av f.eks grammatikkontroll eller oppdatering av dict -lagt til nye ord og funksjoner i dict