Divvun-møte 13.2.2024
Til stades: Flammie, Katri, Sjur, Linda, Inga, Børre
Saker:
- Sidan sist
- Reiser og konferansar
- LREC - framtidsplaner
- Ymse
Sidan sist
Linda
- TV2-intervju
- sme-grammatikkontroll - inkluderer alle regler Duommá og jeg har jobba med
- 2 CG-workshop med Inga - numeralfraser
- fiksing av sme-bugger fra Duommá
- artikkelmøter med Flammie
- søknadsmøte med Trond
Katri
- speech-sma: forberedt oppdeling av talematerialer men venter på tekster fra Maja, har timemarkeringer for olike radiosendninger (1 times opptakk må deles opp først til ~10 min deler for å kjøre automatisk force-alignment)
- speech-smj: oppdelt Britt-Inger sin material og ser at tekster stemmer med hver lydfil, begynner med TTS-treningen når dager 1 og 2 er ferdige (3-4 venter på transkriberinger enno)
- speech-sme: jobber videre med multi-speaker TTS og forbereding av den hele talekorpuset med ~10 talere og ~20 timer material
- organisering av den hele talekorpus-systemet, dokumentert hva er gjort og listet alle deler av talekorpuset
- møte med NRK etc.
- litt med presentasjoner/konferenser
- reisebestilling
Framover/Ideer:
- Kompileret sme og smj ASR test datasets (~1 time) for å utvikle og “validate” modeller
- Trenger hjelp med begge språk med å fikse transkriberinger
- Kanskje samarbeid med Giellagas - de har masse sme-material som trenger transkribering -> bruke vår ASR -> mer treningsmaterial til oss
- NB: nordic automatic LID (language identification), kan brukes til å filtrere norsk material (tekst) ut fra t.ex. sametingets plenumaudio?
- Artikkel om TTS: evalueringstest i små språksamfunner er vanskelige
Flammie
- infra
- grammatikkontroll og artikkelmöte
- computel
framover:
- missinglista med dynamisk sammansatte ord
Inga
- Gramcheck: Cg med Linda
- Gramcheck: Forbedret regel for manglende spørrepartikkel
- Gramcheck: Reorganiserte numphrase-regler
- Gramcheck: Nye yaml
- Gramcheck: Nye setninger til DEV-yaml
- Gramcheck: Kjørt regler på Dev-korpus og hentet setninger til yaml.
- Forelest for Brønnøysundregisteret
- Tilpasset tekst etter tale
Maja
- Transkribering - Merket ok, de som er klare. Sjekker inn den “Don jih dan bïjre II” snart. denne også klar til Katri om litt.
- 6.febr-feiring m/media
Framover:
- Flytte normeringsdokumentasjon til
lang-sma/docs
?
- Artikkelskriving
- Gramcheck
- SAAL1-eksamen 15.02.2024
- Flammi = lage yaml-tester bl.a Gramcheck-regler for relative pron: gie/mij i ulike kasus
- legge til 6000 Gg-lemma i src-filer og i dict-filer med eksempelsetninger. Mange gode eksempler i trad.tekster.
- jobbe sammen med Thomas og Ina om transkripsjon
Sjur
- møte med person frå MS + Mila (Masterword) (Ludmila Golovine President & CEO, MasterWord):
At MasterWord Services, we help companies operate globally in whatever language that may be. We help you communicate with your employees, your clients, and your target markets.
We are the fastest growing woman-owned Language Service Provider in the world, having spent the last 30 years growing the reach and impact of Fortune 500 companies and public institutions across energy and engineering, healthcare, life sciences, government, technology, insurance, finance, and education. Along with them, you can trust us with your most complex, culturally sensitive, confidential, and urgent translation, localization, and interpreting projects.
Our diverse team of industry experts and network of high-quality language experts work daily to tailor solutions with in-person and remote services in over 250 languages to your exact criteria.
- møte med TheTC
- diskusjon på l10n-no om Android på nynorsk, kopla til arbeidet med å opna opp plattformar for utanforståande
- disk. grammatikkontroll med Brendan
- taleteknologimøte med NRK, SVT m.fl.
- møte med Trond
- intervju med
- nytt språk i infraen (frå Antti)
Framover:
- risikovurdering for dei nye prosjekta (krevst for nye prosjekt)
Børre
- bugzilla2github
- lyd som Inga hadde ordnet med
- parallelize: parallelprosessering
- python_tca2
- testing opp mot
corpus-nob/tmx/sme
, tune opp mot det
- termwikitools: hjelp til Niko Partanen, termer + link
- tastaturintervju SR
- taleteknologimøte med NRK, SVT m.fl.
TheTC
- henta metadata for Páhkat-pakker frå git-repo
Framover:
- Android, kodesigneringssertifikat (Windows-oppdateringane skal fungera igjen)
Necessary Innovations
Andre planlagde oppdateringar
- stavekontroll inn i MT-sida igjen (unhammer)
- grammatikkontroll inn i MT-sida (unhammer)
- grammatikkontroll inn i LO (Kevin sin oxt)
- eige prosjekt med Nec. Innov.
- grammatikkontroll inn i nettstavekontrollen
Reiser og konferansar
Tar alt for lang tid å få reiseoppgjer!
Et alternativ: https://cp.compendia.no/uit/medarbeiderhandbok/208693
Både potensielle og påmeldte, og planlagde reiser:
- 11.-15. mars: neste Divvun-samling
- i lag med ISOF-folk
- alle på plass seinast kl 10 på måndag
- 17-22.3 EACL: https://2024.eacl.org/calls/papers/#important-dates
- 15.-19. april 2024: UNPFII i New York (i alle fall Inga og Sjur)
- 20.-25.05.2024 LREC-COLING Torino
- June 16–21, 2024 NAACL
- 25.-26. juni 2024: Språkteknologikonferanse i Bodø - alle?
- oktober 2024: Språkteknologikonferanse i Trondheim/Trøndelag - små språk i Norden (mange/alle?), lansering av sørsamisk TTS
LREC - framtidsplaner
- maori: grammatikkontroll, datastyring og tilgang, etikk og plattformkontroll
- nasjonalbiblioteket og samiske tekstar - skrive søknad til KD
Ymse
Bør vi arrangera fleire release-partyar eller kurs på nettet? Kan kanskje nå fleire folk lettare på den måten. Målsetjing: nettseminar to gonger om året
Maja: F.eks nettseminar om språkteknologi, nyoppdatering av f.eks grammatikkontroll eller oppdatering av dict -lagt til nye ord og funksjoner i dict