Divvun-møte 23.4.2024
Til stades: Linda, Flammie, Katri, Inga, Sjur, Børre, Maja, Mikko
Saker:
- Sidan sist
- Reiser og konferansar
- LREC - framtidsplaner
- Ymse
Sidan sist
Inga
Linda
- regler til irsk grammatikkontroll
- artikkelarbeid med Maja
- LREC presentasjon med Flammie, Trond, Maja, Børre
- Acta Borealia-artikkel med Trond
- møte med Marja-Liisa
Framover:
- møte om reiserekningar, forskot og ikkje-fungerande byråkrati
Maja
- Artikkelmøte med Linda
- LREC-presentasjon
- litt transkribering, snakka med Ina Theres
- noe ordboksredigering
- DFØ-opprydding
- Samtale om Aanna-100-markering - talesyntese - Oppklaringer
- Fortsatt aktuell sak om Installering av Divvun Gramcheck på Tromsø-skole-maskin - ta kontakt med IT-folka i Tromsø kommune: Vi har forsøkt å laste ned GramDivvun til Mac-maskina til EM, men fikk opp beskjed om at Microsoft 365 er konfigurert til å hindre individuell anskaffelse og kjøring av Office Store-tillegg. Altså: Office-pakka som er på EMś privat maskin er installert med en lisens fra skolen. Skolen, eller Tromsø kommune og IT-folka der, har blokkert installering av Office-tillegg.
Flammie
- LREC presentasjonjobb (ny tidsfrist: video må sendes 2.5.)
- gikk gjennom github issues backlog - infra fikser
- ny testversion av irsk grammatikkontroll
Børre
- OCR
- få laget en tesseract-pakke for sme-hist som fungerer
- møte med NB (sammen med Trond) om OCR. De gjør jobben.
- oversette tekster for AI-opplegget til UiT Machine Learning Group and SFI Visual Intelligence
- fikse corpus-mns som var tomt
- borealium: gå gjennom innhold med Mikko
- pontoon
- oppe og går
- integrasjon med borealium er ikke perfekt
- pålogging via github-kontoen
- LREC: møte om presentasjon
- flytte CorpusTools fra giellalt til divvun
Katri
- hentet mer smj podcaster for å prosessere til ASR
- jobbet med presentasjon til FP om samisk taleteknologi og evalueringstest
- fortfarande: cluster tinger, venter på resursser, har ikke fått LUMI til å fungere
- møte om Nordforsk-søknad om språklæringsspill med ASR til samisk og andre arktiske minoritetsspråk
- generert sme-syntesesetninger til UiT sin AI-utstilling
Framover/Ideer:
- Dokumentering! (divvun-speech?)
- Kanskje samarbeid med Giellagas - de har masse sme-material som trenger transkribering -> bruke vår ASR -> mer treningsmaterial til oss
- NB: nordic automatic LID (language identification), kan brukes til å filtrere norsk material (tekst) ut fra t.ex. sametingets plenumaudio?
- Artikkel om TTS: evalueringstest i små språksamfunner er vanskelige
- Til folk som er interessert av TTS-prosjekter: https://docs.coqui.ai/en/latest/what_makes_a_good_dataset.html
Mikko
- undersøkt ulike restauranter for konferansemiddag
- borealium.org
Sjur
- Sidearrangement ved PFII i New York
- årsrapport og rekneskap (ferdig denne veka)
- retta feil i stavekontrollbygginga for SMA, SME
Framover:
- sjekk personar for lulesamisk og nordsamisk transkribering
TheTC
- kodesigneringssertifikat
- oppdatera
Framover:
- Android:
- Katri: fungerer, stavekontrollen fungerer ikkje => har truleg eldre versjon
- har 0.2.1, version code 88 => Katri må leggjast til i betatestargruppa
- Flammie: har gamal telefon, kræsjar heile tida, har sendt kræsjrapport
- Sjur: sjekkar om det må gjerast noko for å gjera ny versjon tilgjengeleg
- Divvun Dev, Børre (0.2.6, version code 179):
- tastatura ser riktige ut
- det er forslag frå stavekontrollen (sma og sme)
- dvs alt ser bra ut
- kodesigneringssertifikat (Windows-oppdateringane skal fungera igjen)
Necessary Innovations
- TTS + grammatikkontroll
- TTS-lansering i Bodø på Giellabiellje, alfa-versjon 30. april, betaversjon 31. mai
Trondheims-konferansen
- møte med ASTIN, NTNU
- 5.-6.11.2024
- to dagar, to vinklingar:
- dag 1: fokus på teknologi
- dag 2: fokus på samfunn
Borealium
- omsetjing - jf Pontoon over (Børre)
Andre planlagde oppdateringar
- stavekontroll inn i MT-sida igjen (unhammer)
- grammatikkontroll inn i MT-sida (unhammer)
- grammatikkontroll inn i LO (Kevin sin oxt)
- eige prosjekt med Nec. Innov.
- grammatikkontroll inn i nettstavekontrollen
Reiser og konferansar
Både potensielle og påmeldte, og planlagde reiser:
- 24.-26.04.2024: Fonetiikan päivät (Tallinn, Katri)
- 20.-25.05.2024: LREC-COLING Torino
- 16.–21.06.2024: NAACL
- 25.-26.06.2024: Språkteknologikonferanse i Bodø - alle?
- 05.-06.11.2024: Språkteknologikonferanse i Trondheim/Trøndelag - små språk i Norden (mange/alle?), lansering av sørsamisk TTS
- 06.–07.11.2024: SAALS6 (Helsingfors)
LREC - framtidsplaner
- maori: grammatikkontroll, datastyring og tilgang, etikk og plattformkontroll
- nasjonalbiblioteket og samiske tekstar - skrive søknad til KD
Ymse
Bør vi arrangera fleire release-partyar eller kurs på nettet? Kan kanskje nå fleire folk lettare på den måten. Målsetjing: nettseminar to gonger om året
Maja: F.eks nettseminar om språkteknologi, nyoppdatering av f.eks grammatikkontroll eller oppdatering av dict -lagt til nye ord og funksjoner i dict
Maja: 28.04-05.05 - ferie/avspasering
Neste møte: 30.4
Vi prøver å halda oss til fem minutt pr person på neste møte