Divvun-møte 11.4.2023
Til stades: Sjur, Flammie, Katri, Inga, Børre, Maja, Linda
Saker:
- Sidan sist
- Rekneskap og budsjett
- Årsrapport
- Reiser og konferansar
- LREC - framtidsplaner
- Ymse
Sidan sist
Flammie
- skrev en abstrakt til cg workshop om vekter
Framover:
Katri
- sme-opptak: audio cleaning ferdig
- filtrering av ASR output (norsk fra Sametingets material)
Framover:
- lulesamisk Whisper?
- tilbake til Gradio TTS demo platform på nettet
- artikkel om TTS med 4-5 timer taledata
- se mer om common voice
- ASR output: Store bokstaver, punktum etc.? Se finsk whisper: More info about the casing+punctuation correction model can be found here
- Overflow-tts?
- info on Whisper transcription og diarization: (Whisper)
Maja Lisa
- Oppmerking av freecorpus + artikkelskriving, innspurt til første innsending. Stor takk og klem til Linda!
- kontaktet av Heidi i TV2-elevkanalen - Statped - Kan Divvun/Giellatekno bidra?
Framover:
- PRIO: Skrive artikkel + markup + rette opp adjektiv-regler + forbedre negationreglene: myejobb!
- PRIO: Fremover: Jobbe med A.J-lydfiler + med Katri
- Artikkel grammatikkontroll + adjektivartikkel: hvordan endre/stoppe spårkendring?Vikitgheten av gramatikkontrollen: Negation og adj-systemet:
- Typisk feil: daltese - legge til “daltesne”, “aajegesne” etc. som Err/Orth-tagg i fortsettelseslexiconet N_ODD,for illativ, inessiv og ellativ - Diskuter med Trond og Sjur
Linda
- artikkelskriving med Marja-Liisa og Trond
- artikkelskriving med Maja
- artikkelskriving med Inga
- fiksing av sma grammatikkontroll
- evaluering av GramDivvun smj
- evaluering av GramDivvun sma
Børre
- num2letters.py + egen grein av lang-sme for transcriptor
- kjøre gramtest for smj (etter at bug i gramcheck_comparator var fikset)
- (30.4) konstatere at smn-gramcheck ikke retter feil (sammen med Linda)
Framover:
- gjera ferdig korpus-flyttinga frå svn til git(hub)
- gielese:
forsiden oppe og går på http, Play-knappen fører til tom side
Inga
- Gramchecker: cg-artikkel.
- Evaluering av sme-smj-ordbok, sortering av ord og litt arbeid med artikkel.
- Error markup
- Syke barn
Sjur
- rekneskap og busjett
- rapport til KDD
- oppdatert dokumentasjon
- lang-rmu for Trond/ISOF
- byrja på tekst til EU-parlamentarikar om manglande støtte for dei små språka i digital infrastruktur
Framover:
- søknad til Kulturdepartementet om tilgang til heile NB-tekstsamlinga
- tts-analysator
- send e-post med dongelbestilling til Flammie
- diskuter
lookup
i divvunspell
med Brendan, Flammie - gjera ferdig det
som alt ligg der, evt. legg til API-kall
Infra-arbeid framover (Børre, Flammie, Sjur):
- flytta fst-bygginga inn i fst-mappa
- flytta alle test-katalogane (til underkatalogar av det som skal testast)
Gøteborg
- Forbedring av byggestruktur
Andre planlagde oppdateringar
- stavekontroll inn i MT-sida igjen (unhammer)
- grammatikkontroll inn i MT-sida (unhammer)
- grammatikkontroll inn i LO (Kevin sin oxt)
- grammatikkontroll inn i nettstavekontrollen
Rekneskap og budsjett
Diskusjon.
Årsrapport
Diskusjon. Punkt å ta med:
- grammatikkontroll (for fleire språk)
- fst-oppdateringar
- TTS, ASR, talekorpus, nordisk samarbeid i samisk taleteknologi
- LREC-artikkel + presentasjon, fleire aktørar, positiv respons
- publikasjon for SMJ, Dublin (evaluering av heile oppsettet)
- oppdatert MT til nyaste teknologi, kurs
- TTS for SMA
- diskusjon om forsking og utvikling (Marseille, Sør-Afrika) basert på regelteknologi, ikkje alt som er maskinlæring
- infra-arbeid med tokenisering
- fst-infra
- korpus-infra
- arbeidet med blokkeringssaka
- smart medisinsk ordbok (første SMJ-ordboka)
- SME-SMJ-MT
- SMJ-TTS-opptak
- feilkorpus for SMA/SMJ-grammatikontroll
- yaml-testing av grammatikkontrollar
- Umeå-konferansen (Mija Tekno)
- kontakt med Sametinga iht strategien deira
Reiser og konferansar
- 22.-24.5.2023: Nodalida, på Færøyane
- CG-workshop deadline 10.april
Andre potensielle konferansar:
- 12.-15.06. EAMT. - Tampere
- 10.-12.07. ACL. (SIGMORPHON) Canada
- 20.-24.08. INTERSPEECH, Dublin (Katri)
- 04.-06.09.(-08.09.) RANLP. Bulgaria
- 18.-22.09. KONVENS. Ingolstadt
LREC - framtidsplaner
- maori-grammatikkontroll - zoom-møte?
- nasjonalbiblioteket og samiske tekstar - skrive til dei
- islandsk regelbasert grammatikkontroll
- Wikimedia-ting: LinguaLibre
- søramerikanerne var interessert i fst - evt ha et kurs for dem
Ymse