Divvun-møte 23.1.2024
Til stades: Børre, Flammie, Katri, Maja, Sjur, Linda
Saker:
- Borealium
- Sidan sist
- Reiser og konferansar
- LREC - framtidsplaner
- Ymse
Borealium
- eit godt løft frå den gamle nettsida
- inkonsistent bruk av termar
- uklårt språk
- det må bli lettare å omsetja
- .po-filer?
- omsetjingsminne og andre verktøy
- separat repo?
Sidan sist
- list av navndeler
- moglege kandidatar for nytt Android-tastatur?
Flammie
- infra reorg del 1 ferdig
- artikkelmöte
- divvun-ukemöter
framover:
- fortsetter med infra
- missinglista med dynamisk sammansatte ord
Maja
- Installert GUT- Rydda i repoene/mappestruktur - ny verden! Takk til Sjur!
- God diskusjon om IV/TV med Lene - manuell oppmerking blokkvis
- merket opp IV/TV av sovvedh + enkeltverb + lagt til eksempelsetninger i Dict - tilsendt fra Lene om verb som må bör sess i sma ht. IV/TV
- Artikkelmöte med Linda
- Gramcheck med Linda - korrigering av en regel?
- Halasz-möte med Jussi, Thomas, Josefina = SJ = frembringe tradisjonelle tekster. Nytt möte 31.1
- Dröftet videre transkribering med Thomas
- Gode möter med Gg:- Ny forståelse av flertallsnomen - “ij leah mov naan måvhkah” VERSUS “eah leah mov naan måvhkah” + negasjonsvedtak av 2009!
- frembringer sörsamisk normeringshistorie - negasjon + adjektiver krydra med gode historier fra PM.
- avtalt möte om behandling av adjektiver lånord 13.02
- Pekt ut konkrete lister = 6200 lemma + lagt til rette for innsjekking vha. Flammie. Takk til Flammie!
- Begynt å legge til/redigere blokkvis, f.eks medija-lemma og lagt til Use/NotDNorm + Use/DNorm + lagt til byrå-byjovre - komplisert å tilpasse
- Begynt å legge til höyfrek. lemma (som er ok fra Gg + Divvun) også i dict
sed -i -e 's@^.*$@&+N+Sem/Dummytag:& LEXICON ;@' Absolutt_Normert_missing-revsort_2023.txt
Flytta normeringsdokumentasjon til lang-sma/docs
?
Framover:
- Videre transkribering med Thomas og Ina?
- Artikkelskriving
- Gramcheck
- forberede pres. til Gg 13.02
- SAAL1-eksamen 12.-16.02
- skirve Gramcheck-regler for relative pron: gie/mij i ulike kasus
Sjur
- fiksa Tower-lisensen
- TwolC for SMJ i lag med Inga
- førebuingar for møta med GG
- Møte med GG - to dagar
- infra-møte - ordboksstruktur
- møte med NRK og andre om taleteknologi
- møte med Nasjonalbiblioteket i Noreg om korpusressursar og språkteknologi
- tilsetjingar
Framover:
- risikovurdering for dei nye prosjekta (krevst for nye prosjekt)
- send lenke for evalueringa til Bitte, og be henne be studentane sine om å gjera evalueringa (Katri har sendt 2-3 gonger tidlegare)
Linda
- abstrakt til computel med Flammie
- CG-møte med Kevin
- oppdatering av grammatikkontrolldokumentasjon
- flere oppmerkingsmøter med Marja-Liisa
- smn grammatikkontroll - flere nye regler
- CG-workshop med Inga
- artikkelmøte med Inga
- artikkelmøte med Flammie
- fst-møte med Duommá - la til fst dokumentasjon
- artikkelmøte med Maja
- diskusjoner med Per Martin og Siri om sma-grammatikkfeil
- presentasjon av grammatikkontroll og normering for Giellagáldu
- søknadsmøte med Trond
Børre
- python_tca2
- små forskjeller ved parallelisering i forhold til java, lager tester for å få identisk resultat
- parallelisering av 3000 filer: python ca 1,5 timer, java ca en time
- cd-er
- Diskutere satni, termwiki, filformat
- digt: få termwikisøk til å fungere som de skal
- Inframøte: lexc-erstatter, ordboksformat
- Anders: ordboksformat, t og slikt
- libdivvvun issue, som egentlig er lang-sme
- GG
Framover:
Katri
- Fant allt smj material fra sametingets plenumsaudio, gått gjennom 73 timer material
- Deler opp smj deler og kjører ASR
- Første steger i utvikling av sma-tts med Maja & Thomas
- Gått igjennom mange typ materialer: Giellagas Kulturarkivet, Anin Danin…
- La till materialer til olike nye speech-repoer: sms, smn…
- Mange møter
- Reiseregning og byrokrati
- Fått noe nye deltakere til evalueringtest men sluter platformen nå -> begynner å raportere resultater -> artikkel
- Python-skripter for level normalisering for store datamengde og speaker embeddings (for å finne ut hvor mange unike talere det finns i det hele sametinget plenumaudio)
- Planlegging for nye potensielle artikler:
- En artikkel om oppdatering av sme tts med evalueringtest
- Trene en TTS modell med normalisert ASR material med en multi-speaker setting
Framover/Ideer:
- Kompileret sme og smj ASR test datasets (~1 time) for å utvikle og “validate” modeller
- Trenger hjelp med begge språk med å fikse transkriberinger
- Kanskje samarbeid med Giellagas - de har masse sme-material som trenger transkribering -> bruke vår ASR -> mer treningsmaterial til oss
- NB: nordic automatic LID (language identification), kan brukes til å filtrere norsk material (tekst) ut fra t.ex. sametingets plenumaudio?
- Artikkel om TTS: evalueringstest i små språksamfunner er vanskelige
TheTC
- henta metadata for Páhkat-pakker frå git-repo
Framover:
- Android, kodesigneringssertifikat (Windows-oppdateringane skal fungera igjen)
Necessary Innovations
Andre planlagde oppdateringar
- stavekontroll inn i MT-sida igjen (unhammer)
- grammatikkontroll inn i MT-sida (unhammer)
- grammatikkontroll inn i LO (Kevin sin oxt)
- eige prosjekt med Nec. Innov.
- grammatikkontroll inn i nettstavekontrollen
Reiser og konferansar
Tar alt for lang tid å få reiseoppgjer!
Et alternativ: https://cp.compendia.no/uit/medarbeiderhandbok/208693
Både potensielle og påmeldte, og planlagde reiser:
- 17-22.3 EACL: https://2024.eacl.org/calls/papers/#important-dates
- 15.-19. april 2024: UNPFII i New York (i alle fall Inga og Sjur)
- 20.-25.05.2024 LREC-COLING Torino
- June 16–21, 2024 NAACL
- 25.-26. juni 2024: Språkteknologikonferanse i Bodø - alle?
- oktober 2024: Språkteknologikonferanse i Trondheim/Trøndelag - små språk i Norden (mange/alle?), lansering av sørsamisk TTS
LREC - framtidsplaner
- maori: grammatikkontroll, datastyring og tilgang, etikk og plattformkontroll
- nasjonalbiblioteket og samiske tekstar - skrive søknad til KD
Ymse
Bør vi arrangera fleire release-partyar eller kurs på nettet? Kan kanskje nå fleire folk lettare på den måten. Målsetjing: nettseminar to gonger om året
Maja: F.eks nettseminar om språkteknologi, nyoppdatering av f.eks grammatikkontroll eller oppdatering av dict -lagt til nye ord og funskjoner i dict