Divvun-møte 9.4.2024
Til stades: Linda, Flammie, Katri, Inga, Sjur, Børre, Maja, Mikko
Saker:
- Sidan sist
- Reiser og konferansar
- LREC - framtidsplaner
- Ymse
Sidan sist
Maja
- Transkribert (daelie lea jællan våhkoe aajmene) lytta igjennom filer (Dæjstan don nåhkeme våhkoen)
- Begynt på lista fra Lene og redigert i ordboksfiler
- lagt til IV/TV
- litt ordboksartikkel
Linda
- møter med Seanán om irsk grammatikkontroll
- satt opp og testa lang-gle i lag med Flammie
- noen regler for lang-gle/tools/grammarcheckers.cg3
- samarbeid med Marja-Liisa om smn grammatikkontroll og nye feiltyper
- fiksa smj og sme grammatikkontroll
- reiseregning/forskudd
Framover:
- møte om reiserekningar, forskot og ikkje-fungerande byråkrati
Flammie
- irsk grammatikkontroll
- gramchecker möte og arbeid
- testa lumi-g?
- noe mindre giella-core og template fikser
Børre
- korpus
- Møte med LearnLabs (korpus)
- Svare til egirji om korpus
- GiellaLTGramTools, verktøy for grammatikktesting og -bygging. Erstatter skriptene i giella-core pga installasjonsproblemer:
- cherry-pick siste endringer fra giella-core
- sjekke mot lang-sme, -sma, -smj, -smn
- use_gramtools (bruke programmene ovenfor i infraen vår)
- oppdatere termwiki-dump og satni.org-database
- reiseregning
- jobbe med ordentlig oppsett av pontoon i azure
Sjur
- New York-presentasjon
- Møte med Mila, MS-person, Brendan
- diverse administrativt
- møte med NRK og andre
- møte om PFII-sidearrangementet
- TTC-synk
- infra-arbeid med stavekonrollar og grammatikkontrollar
- testa nyaste gramcheck-testinga frå Børre
- irsk grammatikkontroll
- vart intervjua av masterstudent i Sveits om nytta av språkteknologi for minoritetsspråk
- årsrapport og rekneskap til KDD - innspel frå alle i gruppa
Framover:
- melda feil i SMS-tastatur til Apple (langpress for ö og ä)
Katri
- Fonetiikan päivät presentasjon
- Flere møter: NRK og andre om Sami voice recognition og data, Maiju Saijets fra YLE, Pigga Keskitalo fra Laplands Uni etc.
- andre samiske språk?
- YLE copyright problem! Invitere til møter med NRK etc.
- VR spill på nordsamisk, dialogsystemer…
- Sjekket, organisert og forberedt Britt-Inger material og treningsskripter for Saga
- Samme for en lydbok – sjekket og korrigert allt på nytt
- Sett på ny cluster LUMI: https://docs.lumi-supercomputer.eu/hardware/lumid/
- Docker – Nvidia – Conda
- Den største GPU partition (Lumi-G) er ikke kompatibel med Nvidia/cuda etc. maskinlæringssystemer brukt i taleteknologi
- En annen GPU partition (Lumi-D) har Nvidia GPU men dette er ikke ment for GPU computing, bare visualisering i interactive mode
Framover/Ideer:
- Dokumentering! (divvun-speech?)
- Kanskje samarbeid med Giellagas - de har masse sme-material som trenger transkribering -> bruke vår ASR -> mer treningsmaterial til oss
- NB: nordic automatic LID (language identification), kan brukes til å filtrere norsk material (tekst) ut fra t.ex. sametingets plenumaudio?
- Artikkel om TTS: evalueringstest i små språksamfunner er vanskelige
- Til folk som er interessert av TTS-prosjekter: https://docs.coqui.ai/en/latest/what_makes_a_good_dataset.html
Inga
- Numerals - fungerer nå perfekt etter Spiik. Trenger hjelp til å lage flagg.
- UN-foredrag
- Gramchecker, forbedret regler og disambugiator(!)
- reiseregning
- møte om PFII-sidearrangementet
Mikko
- e-postar kring konferansen i haust
TheTC
Framover:
- Android:
- Katri: fungerer, stavekontrollen fungerer ikkje => har truleg eldre versjon
- har 0.2.1, version code 88 => Katri må leggjast til i betatestargruppa
- Flammie: har gamal telefon, kræsjar heile tida, har sendt kræsjrapport
- Børre: har feil versjon, får ikkje tak i nyare
- Sjur: sjekkar om det må gjerast noko for å gjera ny versjon tilgjengeleg
- Divvun Dev, Børre (0.2.6, version code 179):
- tastatura ser riktige ut
- det er forslag frå stavekontrollen (sma og sme)
- dvs alt ser bra ut
- kodesigneringssertifikat (Windows-oppdateringane skal fungera igjen)
Necessary Innovations
Trondheims-konferansen
- møte med ASTIN, NTNU
- 5.-6.11.2024
- to dagar, to vinklingar:
- dag 1: fokus på teknologi
- dag 2: fokus på samfunn
Borealium
- omsetjing - jf Pontoon over (Børre)
Andre planlagde oppdateringar
- stavekontroll inn i MT-sida igjen (unhammer)
- grammatikkontroll inn i MT-sida (unhammer)
- grammatikkontroll inn i LO (Kevin sin oxt)
- eige prosjekt med Nec. Innov.
- grammatikkontroll inn i nettstavekontrollen
Reiser og konferansar
Både potensielle og påmeldte, og planlagde reiser:
- 17.04.2024: UNPFII-sidearrangement i New York (Inga og Sjur)
- 24.-26.04.2024: Fonetiikan päivät (Tallinn, Katri)
- 20.-25.05.2024: LREC-COLING Torino
- 16.–21.06.2024: NAACL
- 25.-26.06.2024: Språkteknologikonferanse i Bodø - alle?
- 05.-06.11.2024: Språkteknologikonferanse i Trondheim/Trøndelag - små språk i Norden (mange/alle?), lansering av sørsamisk TTS
- 06.–07.11.2024: SAALS6 (Helsingfors)
LREC - framtidsplaner
- maori: grammatikkontroll, datastyring og tilgang, etikk og plattformkontroll
- nasjonalbiblioteket og samiske tekstar - skrive søknad til KD
Ymse
Bør vi arrangera fleire release-partyar eller kurs på nettet? Kan kanskje nå fleire folk lettare på den måten. Målsetjing: nettseminar to gonger om året
Maja: F.eks nettseminar om språkteknologi, nyoppdatering av f.eks grammatikkontroll eller oppdatering av dict -lagt til nye ord og funksjoner i dict
Maja: 28.04-05.05 - ferie/avspasering
“AI-stemme”: svar på e-post?