Divvun-møte 9.1.2024
Til stades: Børre, Flammie, Katri, Maja, Sjur, Inga
Saker:
- Borealium
- Sidan sist
- Reiser og konferansar
- LREC - framtidsplaner
- Ymse
Borealium
- eit godt løft frå den gamle nettsida
- inkonsistent bruk av termar
- uklårt språk
- det må bli lettare å omsetja
- .po-filer?
- omsetjingsminne og andre verktøy
- separat repo?
Sidan sist
- list av navndeler
- moglege kandidatar for nytt Android-tastatur?
Inga
- CG med Linda, har gjort disambiguering selv :)
- tilpasset tekst etter innlesning
- Missing list, hjelp fra Sjur og Børre
- install nightly > plagdes med make check
- lagt til ord og Err/Orth fra missinglist
- Vanlige Err/orther rett inn i leksikon, har derfor gjort nye lexicon TÁLLA og MUORRA_LOAN_EXTRA_LENGTH
- diskutert inkoativ/inseptiv med Lene
- irritert meg over nye skriveregler for lulesamisk
- Sendt bio til “Indigenous Voices for Us”
Maja
- administering - reiseregning og planlegging av videre transkribering - forelöpige frister - må få til et möte med Thomas, Ina, Katri, Sjur og Inga Marja
- dröftet Halaz´ tekster fra sörsamisk område med Josefina Skerk og Jussi Ylikoski
Framover:
- Merke opp TV og IV i dict-verbfil? Teamsmøte om dette.
- Videre transkribering med Thomas og Ina?
- Artikkelskriving
- Grammatikkontroll og synonymordbøker: lånordbekjempelse, frec.con
- Syntaks: Gramcheck - yamltester, regel, feilmerking
Sjur
- kbdgen - doble daudtastar
- lexd-studium
- gramcheck-feil i SME (kopula +
go
)
- prata med Inger Johansen om konferanse i oktober + samisk konferanse før eller etter
- fornya Tower-lisensen for UiT
- prata med Mika Saijets om møtet neste veke
- TwolC for SMJ i lag med Inga
Framover:
- risikovurdering for dei nye prosjekta (krevst for nye prosjekt)
- send lenke for evalueringa til Bitte, og be henne be studentane sine om å gjera evalueringa (Katri har sendt 2-3 gonger tidlegare)
Linda
- LREC reviewer
- CG-workshop med Inga (disambiguering)
- diskutert en del tekniske greier med Tino
echo "cealkka" | \
tools/grammarcheckers/modes/trace-smegram-dev.mode | \
less -R
- feiloppmerking med Marja-Liisa
- smn grammatikkontroll
- artikkelmøte med Flammie
- apertium diskusjon med Lene og Flammie
Børre
- python-tca2: parallelliseres nesten som java-tca2
- Forsøke å lete etter spøkelset i maskinen til Inga. gramcheck-tester oppfører seg pussig der.
- TermWiki, legge til brukere, svare på spørsmål
- Legge inn smj-korpus
Framover:
Katri
- Forsetter å finne smj material fra sametingets plenumsaudio
- kjørt pyannote speaker diarization for alle filer
- lytter og markerer lulesamiske talere til TextGrid
- Python-skripter for level normalisering for store datamengde og speaker embeddings (for å finne ut hvor mange unike talere det finns i det hele sametinget plenumaudio)
- Planlegging for nye potensielle artikler:
- En artikkel om oppdatering av sme tts med evalueringtest
- Trene en TTS modell med normalisert ASR material med en multi-speaker setting
- sjekket sme transkriberinger
Framover/Ideer:
- Kompileret sme og smj ASR test datasets (~1 time) for å utvikle og “validate” modeller
- Trenger hjelp med begge språk med å fikse transkriberinger
- Evalueringstest - venter på mer deltakere?
- Kanskje samarbeid med Giellagas - de har masse sme-material som trenger transkribering -> bruke vår ASR -> mer treningsmaterial til oss
- NB: nordic automatic LID (language identification), kan brukes til å filtrere norsk material (tekst) ut fra t.ex. sametingets plenumaudio?
- Artikkel om TTS: evalueringstest i små språksamfunner er vanskelige
Flammie
- mer infra
- apertium og artikkelplanlegging m linda
- reviews
- skript for finsk plass- og personnavdata
framover:
- fortsetter med infra
- missinglista med dynamisk sammansatte ord
TheTC
- arbeid med daudtastar for Android
Framover:
- Android, kodesigneringssertifikat (Windows-oppdateringane skal fungera igjen)
Necessary Innovations
Andre planlagde oppdateringar
- stavekontroll inn i MT-sida igjen (unhammer)
- grammatikkontroll inn i MT-sida (unhammer)
- grammatikkontroll inn i LO (Kevin sin oxt)
- eige prosjekt med Nec. Innov.
- grammatikkontroll inn i nettstavekontrollen
Reiser og konferansar
Tar alt for lang tid å få reiseoppgjer!
Et alternativ: https://cp.compendia.no/uit/medarbeiderhandbok/208693
Både potensielle og påmeldte, og planlagde reiser:
- Divvun-uke uke 3 (15.-19.1.)
- 17-22.3 EACL: https://2024.eacl.org/calls/papers/#important-dates
- 15.-19. april 2024: UNPFII i New York (i alle fall Inga og Sjur)
- 20.-25.05.2024 LREC-COLING Torino (13.10. submission)
- June 16–21, 2024 NAACL
- 25.-26. juni 2024: Språkteknologikonferanse i Bodø - alle?
- oktober 2024: Språkteknologikonferanse i Trondheim/Trøndelag - små språk i Norden, ev òg SMA-2-konferanse (mange/alle?), lansering av sørsamisk TTS
LREC - framtidsplaner
- maori: grammatikkontroll, datastyring og tilgang, etikk og plattformkontroll
- nasjonalbiblioteket og samiske tekstar - skrive søknad til KD
Ymse
Bør vi arrangera fleire release-partyar eller kurs på nettet? Kan kanskje nå fleire folk lettare på den måten. Målsetjing: nettseminar to gonger om året,