Divvun-møte 26.3.2024
Til stades: Flammie, Katri, Maja, Sjur, Børre
Saker:
- Sidan sist
- Reiser og konferansar
- LREC - framtidsplaner
- Ymse
Sidan sist
Børre
- Legge materiale inn i korpus
- Møte med Sjur, oppdatering om nylige hendelser
- Møte (sammen med Sjur og Katri) med samisk arkiv, kom i gang
- Pontoon: jobbe med å få lagt ut en produksjonsversjon, få borealium.org til å fungere med det
- Ordne collections i Excel til sms
- Ordne sms inn i sátni.org
- Svare på telefon fra https://learnlab.net, ordne med møte
- tesstrain
Sjur
- Computel-presentasjon i lag med Linda m.fl.
- rydda i gamle møtereferat som ikkje var sjekka inn
- prøvde å få windows-kodesigneringssaka vidare
- Arkivverket/Samisk arkiv - samarbeidet har starta!
- fylgde delar av Computel på nettet
- diskuterte førespurnad frå Sametinget med Lene
- planar for presentasjonen i New York med Inga
- møte med Børre om ulike ting
- ASTIN-møte for å velja dato for Trondheims-konferansen
Framover:
- melda feil i SMS-tastatur til Apple (langpress for ö og ä)
Katri
- hentet smj podcaster fra NRK
- Prosessert Britt Inger TTS treningsmaterial
- prosessert Tjaktjalasta material (Resemble Enhance)
- Møte med arkivverket, fått noe materialer
- ASR test sets smj/sme
- fst/tekstanalys for å teste tekstkvaliteten
- ASR (lyd) test set for å teste lyd->tekstkonvertering og “text accuracy”
Framover/Ideer:
- Dokumentering! (divvun-speech?)
- Kanskje samarbeid med Giellagas - de har masse sme-material som trenger transkribering -> bruke vår ASR -> mer treningsmaterial til oss
- NB: nordic automatic LID (language identification), kan brukes til å filtrere norsk material (tekst) ut fra t.ex. sametingets plenumaudio?
- Artikkel om TTS: evalueringstest i små språksamfunner er vanskelige
- Til folk som er interessert av TTS-prosjekter: https://docs.coqui.ai/en/latest/what_makes_a_good_dataset.html
Flammie
- presentasjoner
- infrabug med est-x-utee
- spellchecker-infra
Maja
- Transkripsjon “Daelie lea jællan våhkoe aajmone”, lagt til bilder av Gullietjååtsele, vanskellig å legge til bildene av Maarhkosen Vaentjele - Börre?
- artikkel - SDA -artikkel “Dagke isveligke åarjelsaemiengïelesne nyöjhkedh” - innsedning etter påske.
- oppdateringer av maskina
- Til info bare: 1728 etablering av sameskole i Mosjöen - ev. 2028 markering av 300 års undervisning i samisk (umesamisk-nordlig sørsamisk - Ove Pettersen - interesant materiale som forteller hva de lærte mht. språk bl.a.
TODO-list/Framover:
- Flytte normeringsdokumentasjon til
lang-sma/docs
?
- Artikkelskriving
- Gramcheck
- Flammie = lage yaml-tester bl.a Gramcheck-regler for relative pron: gie/mij i ulike kasus - script?
- legge til 6000 Gg-lemma i src-filer og i dict-filer med eksempelsetninger. Mange gode eksempler i trad.tekster.
- jobbe sammen med Thomas og Ina om transkripsjon
- Dict - utbygging av flere funksjoner i dict - flere eksempler på praktisk bruk av språk
- Trondheimskongeransen-språkteknologi for minoritetssrpåk - 20.10-20.11
TheTC
Framover:
- Android, kodesigneringssertifikat (Windows-oppdateringane skal fungera igjen)
- Katri: fungerer, stavekontrollen fungerer ikkje => har truleg eldre versjon
- har 0.2.1, version code 88 => Katri må leggjast til i betatestargruppa
- Flammie: har gamal telefon, kræsjar heile tida, har sendt kræsjrapport
- Børre: har feil versjon, får ikkje tak i nyare
- Sjur: sjekkar om det må gjerast noko for å gjera ny versjon tilgjengeleg
- Divvun Dev, Børre (0.2.6, version code 179):
- tastatura ser riktige ut
- det er forslag frå stavekontrollen (sma og sme)
- dvs alt ser bra ut
Necessary Innovations
Trondheims-konferansen
- 24.-25.10.?
- framleis usikkert, kanskje tidleg i november i staden
- blir bestemt etter påske
- to dagar, to vinklingar:
- dag 1: fokus på teknologi
- dag 2: fokus på samfunn
Borealium
- omsetjing - jf Pontoon over (Børre)
Andre planlagde oppdateringar
- stavekontroll inn i MT-sida igjen (unhammer)
- grammatikkontroll inn i MT-sida (unhammer)
- grammatikkontroll inn i LO (Kevin sin oxt)
- eige prosjekt med Nec. Innov.
- grammatikkontroll inn i nettstavekontrollen
Reiser og konferansar
Både potensielle og påmeldte, og planlagde reiser:
-
- april 2024: UNPFII-sidearrangement i New York (Inga og Sjur)
- 24.-26.4.2024 Fonetiikan päivät (Tallinn, Katri)
- 20.-25.05.2024 LREC-COLING Torino
- 16–21.6.2024: NAACL
- 25.-26. juni 2024: Språkteknologikonferanse i Bodø - alle?
- oktober/november 2024: Språkteknologikonferanse i Trondheim/Trøndelag - små språk i Norden (mange/alle?), lansering av sørsamisk TTS
- 6.–7. November: SAALS6 (Helsingfors)
LREC - framtidsplaner
- maori: grammatikkontroll, datastyring og tilgang, etikk og plattformkontroll
- nasjonalbiblioteket og samiske tekstar - skrive søknad til KD
Ymse
Bør vi arrangera fleire release-partyar eller kurs på nettet? Kan kanskje nå fleire folk lettare på den måten. Målsetjing: nettseminar to gonger om året
Maja: F.eks nettseminar om språkteknologi, nyoppdatering av f.eks grammatikkontroll eller oppdatering av dict -lagt til nye ord og funksjoner i dict
Maja: 28.04-05.05 - ferie/avspasering