Divvun-møte 4.2.2025
Til stades: Sjur, Flammie, Katri, Maja Lisa, Børre, Linda, Mikko
Saker:
- Sidan sist
- Reiser og konferansar
- LREC - framtidsplaner
- Ymse
Sidan sist
Sjur
- Divvun-jubileet:
- møte
- prata med KDD, Sametinget om dato, jf regjeringa
- vi held oss til opphavleg plan, 26.3.
- OpenLanguage:
- har invitert andre til å arbeida med teksten
- historisk SME-korpus:
- støtte for meir avansert AltOrth
- Ymse/admin:
- jobba vidare med prosjektorganisering
- møte med New Amigos-folka
- nordsamisk lingvist
- nodalida-artikkel
- testa prosjektstyringsverktøy, funka ikkje
- TTS-testing på Windows, særleg NVDA, fann feil
- SMJ-grammatikkontroll - varierande resultat avhengig av feil => serverproblem (retta no)
- samandrag til Kautokeino-arr
- møte med NRK m.fl. om datadeling i Norden for samiske taledata
Framover:
Maja Lisa
- Mark-up + tekst med Linda
- Liste-arbeid - låneordstilpasninger - nye lånemönster; byrå, cappucino + lemmaliste
- Börre og Flammi om lemmaliste-arbeid og script
- Nett-tröbbel/-oppkobling med Safari og FireFox - Orakel og Börre
- Abstract (poster, presentasjon) til Dieđavahkku
Todo (Nå):
- Følge opp artikkelen med Katri, Thomas, Sjur
- Mark-up-møte med Linda
Framover:
- TTS - tall
- Ny liste fra Gg - FST + dict
- Gramcheck - regler for bl.a pronomener
- Talesyntese og få denne til å fungere + hvordan bruke/implementere denne teknologien i hverdagen? - Smarthus jfr. - Josefina/Nils Johan spør + se på diskusjonen i TTS-tråden om Aanna som ikke fungerer - talesyntesen funker iflg. Josefina
- halvveis avtalt pres. av Gramcheck for Gg-medlemmer - spikre datoen etter jul.
- tekstnormalisering for SMA (tal og forkortingar til tekst) m/ Inga
- spørsmål om speechify - talesyntese-app
- Missinglist fra Orre Testamente - endringer i lexiconer
- Missinglist fra 6 sma-masteravhandlinger - endringer i lexiconer
- Se sammen med Inga - lexc-arbeid
- Foreberede pres. av lånetilpassinger - hva er vedtatt og hvor er det fortsatt stor variasjon?
- Forberede pres. av GramDivvun - også fra GG: Forberede presentasjon om grammatikkontroll - Variasjon i negasjon og adj-systemer - en faktor til språksperre? Forberede sammen med Linda
Katri
- sme-TTS: starter med trening: MS (finsk sme)
- abstrakt til konferens Fonetiikan päivät: transfer learning TTS/multilingual TTS
- eksperimenter & trening på gang, første resultater veldig intressant
- kan vi få “Biret” å snakke sørsamisk? – sannsynligvis ja! kan vi generere en manlig stemme til sørsamisk fra andre samiske stemmer? - lovende resultater.
- smj-ASR: prosesserer nye datasett til neste versjon av ASR
- sma-TTS artikkel
- flere møter: posterabstrakt til Kauto med Maja, Børre, Trond…
- møte med NRK, Språkbanken etc. (monthly meeting: Sámi ASR, AI…)
- sendt NRK vår TTS data for at de kunne eksperimentere med ‘fake/mashup-stemme’
- sendt manlig sme-stemmemodellen til Necessary igjen
Framover/Ideer:
- NB: nordic automatic LID (language
identification), kan brukes til å filtrere norsk
material (tekst) ut fra t.ex. sametingets
plenumaudio?
- Artikkel om sme-TTS: evalueringstest i små språksamfunner er vanskelige
- Til folk som er interessert av TTS-prosjekter: https://docs.coqui.ai/en/latest/what_makes_a_good_dataset.html
Sjur: be Brendan om å leggja ut SME-mannsstemme (Katri kan senda på nytt om det trengst)
Flammie
- missing-möte
- nodalida-artikkel
- automatisk testing av stavekontroll (typos.txt–divvunspell
accuracy
)
- infrafikser
Børre
- møte med LearnLabs, uttrykte bekymring fordi Divvun ikke fungerer på Windows Home
- Dylan -> Pontoon
- admin
- råd om repo og oppsett
- oversettelse av stillingsannonse
- gramcheck-møte med Linda
- oppmerking
- innføring i regelskriving
- undersøke lang-sjd-x-private repo
- missinglist-møte med Maja og Flammie
- skript som lager nyttige missinglister
- postermøte for Dieđavahkku
- samtale med Anders om logging i CorpusTools
- samtale med Sjur om GitHub-prosjekter
- møte: materiale til stemmegjenkjenning
- hjelpe brukere
Framover:
- rette feil i borealium
- få pontoon til å virkelig synkronisere
- laga oppsett for gramcheck-testdata i cg3-filer
- Bugzilla-flyttinga
Vi bør ha eit Zulip-møte snart. Mål: betre bruk av Zulip
Inga
- Nye gramcheckregler: dem+noun og ulike kombinasjoner med po “rájes”
- twolc: la til stammekonsonantene “nssl” (brukt i lånord)
- missing: err/orth og la til lemma
- Tilbakemelding til GG på vedtate ord
- OmegaT-veiledning til to lulesamiske oversettere
- scoping i gullkorpusoppmerking av numphrases
- Hjulpet Kevin og Linda med data til deres artikkel
- Reise til Paris
Framover:
- Siste fiksing av flagg som bestemmer kasus på 100, 1000, 10 000, 1 000 000, 1 000 000 000
Linda
- arbeid med NORDPLUS søknad med Judithe, Trond, ISOF og Marja-Liisa - sendt
- evaluering og mark-up av smj-numeralfraser med Inga
- abstraktmøter med Marja-Liisa og Maja til Kautokeino - sendt
- sma korpusoppmerking med Maja og kategorisering av negasjonsfeil
- fst-møte/opplæring med Trond
- artikkelarbeid med Kevin - evaluerte smj grammatikkontroll og sendte siste versjon
- GramDivvun møte med Børre - begynte med Duommá sine feilmeldinger og snakka om testing rutiner
- irsk grammatikkontroll med Seanán - nye regler for genitivfeil
- Divvun-jubileumsmøte
Mikko
Framover:
- Divvun-jubileet
- artiklar etter Trondheims-konferansen
Necessary Innovations
- oppdaterte iOS-tastaturet, ny versjon på veg ut
- CI-serveroppsett. Mål: å kvitta seg med Taskcluster og få enklare administrasjon og vedlikehald
- pahkat-infra
Divvun-jubileum
- på nyåret - det er alt for usikkert i desember
- kavalkade over det vi har gjort
- invitera nokon utanfrå til å seia noko om:
- bruken av verktøya
- nytte for samfunnet
- gjester ved UiT, men òg strøyma slik at andre kan fylgja med
- invitera alle som har jobba i Divvun + folk frå SD og KDD + rektor
- middag
- pressemelding og mediedekning
Reiser og konferansar
Både potensielle og påmeldte, og planlagde reiser:
- 24.-26.02.2025: LT4All 2.0 (Paris)
- 02.–05.03.2025: nodalida, October 21, 2024: Paper submission deadline
- 03.-04.03.2025: Computel. «We invite submissions to the 8th workshop on the Use of Computational Methods in the Study of Endangered Languages, by October 7, 2024.»
- 26.3.2025: Divvun-jubileum (Tromsø)
- 24.-25.4.2025 Fonetiikan päivät Turku Finland
- 09.-15.06.2025: Lávdan Sámi Arena (Kautokeino) — vil vi vera med?
- abstrakt for poster sendt inn
- abstrakt for presentasjon sendt inn
- 17-21.8.2025: Interspeech (Rotterdam)
- 25.-26.8.2025 Speech Synthesis Workshop (Leeuwarden)
- 18.–23.08.2025 CIFU — Congressus XIV Internationalis Fenno-Ugristarum (Tartu, Estland)
- 26.-29.08.2025: syntaxfest
- seinare: sigmorphon eller andre tba
LREC - framtidsplanar
- maori: grammatikkontroll, datastyring og tilgang, etikk og plattformkontroll
- nasjonalbiblioteket og samiske tekstar - skrive søknad til KD
Ymse
Neste Divvun-samling: 24.-28.3., i samband med Divvun-jubileet.
Neste møte: tysdag 11.2. til vanleg tid.
Agnete Masternes Hanssen er ny statssekretær for oss.