Divvun-møte 30.1.2024
Til stades: Børre, Flammie, Katri, Maja, Sjur, Linda
Saker:
- Sidan sist
- Reiser og konferansar
- LREC - framtidsplaner
- Ymse
Sidan sist
- list av navndeler
- moglege kandidatar for nytt Android-tastatur?
Katri
- Kjørt ASR til sametingets smj materialet: ~ 7 timer
- Finner passende tekster til lydfiler av mange typer materialer: Giellagas Kulturarkivet, Anin Danin…
- Sendt en abstrakt til Fonetiikan päivät 2024: Neural TTS for North Sámi: development and evaluation
- Slutet evalueringstest og begynnt å skrive presentasjon
- Eksperiment med multi-speaker TTS for sme
- e-post om sme TTS og ASR
- møte: Divvun, NRK etc
Framover/Ideer:
- Kompileret sme og smj ASR test datasets (~1 time) for å utvikle og “validate” modeller
- Trenger hjelp med begge språk med å fikse transkriberinger
- Kanskje samarbeid med Giellagas - de har masse sme-material som trenger transkribering -> bruke vår ASR -> mer treningsmaterial til oss
- NB: nordic automatic LID (language identification), kan brukes til å filtrere norsk material (tekst) ut fra t.ex. sametingets plenumaudio?
- Artikkel om TTS: evalueringstest i små språksamfunner er vanskelige
Flammie
- infrafikser bla:
- artikkelmöte
- svar til feedback om artikkel-möte
framover:
- fortsetter med infra
- missinglista med dynamisk sammansatte ord
Maja
- Avtalt med Thomas (50%) og Ina (25%)
- Artikkelskriving + Gramcheck med linda: Ny forståelse av flertallsnomen - “ij leah mov naan måvhkah” VERSUS “eah leah mov naan måvhkah” + negasjonsvedtak av 2009 - skrive dette inn i artikkel.
- artikler om negation
- forberede pres. til Gg 13.02
- samla feiltyper for relative pron: gie/mij i ulike kasus - må tilpasses til yaml-tester
- Samla inn nye feiltyper -relative pronomen med/kasusbruk
- Utfordringer med make, kompilering og innsjekk - Takk til Flammi og Børre! Giellacore -
- Sjekka opp prosjektmidler innen språk: Det er gode ordninger for å søke midler til transkribering av Halasz-teskter: frembringe tradisjonelle tekster. Nytt möte denne uka eller neste uke.
- frembringer sörsamisk normeringshistorie - negasjonsvedtak av 2009
- lagt til/redigere lemma blokkvis + tagging i fst + chatter med Siri
Framover:
- Flytte normeringsdokumentasjon til
lang-sma/docs
?
- Videre transkribering med Thomas og Ina?
- Artikkelskriving
- Gramcheck
- forberede pres. til Gg 13.02
- SAAL1-eksamen 12.-16.02
- lage yaml-tester + Gramcheck-regler for relative pron: gie/mij i ulike kasus
Sjur
- metadata for stavekontrollar blir no henta frå
configure.ac
, og omsetjingar av namn og stutt
skildring for andre språk enn engelsk og eige språk
blir henta frå manifest.toml.in
- er synleg i Borealium.org og i Divvun Manager (m.a.)
- møte med Statped og Aski raski (lagar program som
støttar leselæringa i skulen, Statped vurderer ein
nordsamisk versjon av programmet)
- møte med NRK og Nasjonalbiblioteket/Språkbanken
- møte med Saemien sijte - korpus
- webinar med Women in translation - Inga presenterte
- LREC-artikkelmøte
- økonomisk opprydding etter møta med GG (mat)
- førebuingar for pressekonferanse med Apple
- førebuingar for presentasjon for Sametingsrådet på fredag
Framover:
- risikovurdering for dei nye prosjekta (krevst for nye prosjekt)
Linda
- LREC artikkelmøte
- GramDivvun møte med Børre (samsvar mellom oppmerking og gramcheck_test.py/yamltesting)
- artikkelmøte
- CG-workshop med Inga - fiksing av ADDRELATION OG LEFT/RIGHT
- artikkelmøter med Flammie
- tilpassing av sma/smj/smn grammatikkontroll for å teste på flere språk
- CG-møte med Maja
- søknadsmøte med Trond
Børre
- python_tca2: testing opp mot nob-sme tmx-filer
- Grammatikkontrollmøte med Linda
- Møte: Rebuttal på LREC-artikkel
- Trøbbel med bugzilla på giellatekno-siten
Inga
Forrige uke:
- Artikkelmøte med Linda
- Automatiske Err/Orth i lexiconer og fjernet Err/Orth homonemyer (TwolC fungerer enda ikke Sjur)
- Missingliste
- Ny yaml med reksjonsverbfeil
Forespørsel om foredrag fra Brønnøysundsregisteret
Middagsgjest tipset om:
TheTC
- henta metadata for Páhkat-pakker frå git-repo
Framover:
- Android, kodesigneringssertifikat (Windows-oppdateringane skal fungera igjen)
Necessary Innovations
Andre planlagde oppdateringar
- stavekontroll inn i MT-sida igjen (unhammer)
- grammatikkontroll inn i MT-sida (unhammer)
- grammatikkontroll inn i LO (Kevin sin oxt)
- eige prosjekt med Nec. Innov.
- grammatikkontroll inn i nettstavekontrollen
Reiser og konferansar
Tar alt for lang tid å få reiseoppgjer!
Et alternativ: https://cp.compendia.no/uit/medarbeiderhandbok/208693
Både potensielle og påmeldte, og planlagde reiser:
- 17-22.3 EACL: https://2024.eacl.org/calls/papers/#important-dates
- 15.-19. april 2024: UNPFII i New York (i alle fall Inga og Sjur)
- 20.-25.05.2024 LREC-COLING Torino
- June 16–21, 2024 NAACL
- 25.-26. juni 2024: Språkteknologikonferanse i Bodø - alle?
- oktober 2024: Språkteknologikonferanse i Trondheim/Trøndelag - små språk i Norden (mange/alle?), lansering av sørsamisk TTS
LREC - framtidsplaner
- maori: grammatikkontroll, datastyring og tilgang, etikk og plattformkontroll
- nasjonalbiblioteket og samiske tekstar - skrive søknad til KD
Ymse
[!NOTE]
Fotosesjon i morgon, onsdag, kl 12.30 for dei som er i Tromsø: Flammie, Linda og Maja. Foto skal inn i presseoppslag om Divvun og samarbeid med Apple om dei samiske tastatura.
Bør vi arrangera fleire release-partyar eller kurs på nettet? Kan kanskje nå fleire folk lettare på den måten. Målsetjing: nettseminar to gonger om året
Maja: F.eks nettseminar om språkteknologi, nyoppdatering av f.eks grammatikkontroll eller oppdatering av dict -lagt til nye ord og funskjoner i dict