Divvun-møte 19.12.2023
Til stades: Børre, Flammie, Katri, Maja, Sjur, Inga
Saker:
- Borealium
- Sidan sist
- Reiser og konferansar
- LREC - framtidsplaner
- Ymse
Borealium
- eit godt løft frå den gamle nettsida
- inkonsistent bruk av termar
- uklårt språk
- det må bli lettare å omsetja
- .po-filer?
- omsetjingsminne og andre verktøy
- separat repo?
Sidan sist
- list av navndeler
- moglege kandidatar for nytt Android-tastatur?
Sjur
- infrastrukturmøte
- møte med A om vegen vidare
- lunsjmøte med IT (mest for å bli kjent med opplegget)
- møte om signering, samarbeid med A og andre
- spontant møte om Páhkat
- møte om delte leksikalske ressursar
- møte med Standard Norge
- arbeid med borealium.org
- samarbeid med GG: møte med Mika Saijets, Trond, det blir mest sannsynleg samling tredje veka i januar
- nytt prosjekt finansiert av Nordisk ministerråd, startar etter årsskiftet
- prosjektstilling, 50 %, 15 månader (?), konsulent
- arbeid med grammatikkontrollane, SME og SMA no oppdaterte på nett, Word-pluggen retta og oppdatert
- diskuterte Vangsnes og Johansen med Maja
- sjekka versjonshistoria til alle repo som har hatt manglande historie, fann eitt der delar av historia enno mangla
- møte med TheTC
- møte med Mila og fleire andre i USA
- vil ha samarbeid om Maya-språk, særleg i Guatemala
- kan dei nytta infrastrukturen vår?
- er med på sidearrangementet i New York, vil støtta arbeiet vårt
- budsjettoppsett m.m. for det nye prosjektet
- konferanse til hausten:
- NTNU/Jon Atle Gulla er med!
- har skrive til Inger Johansen, ikkje fått svar enno
- har dokumentert lokalisering/omsetjing av borealium.org og Páhkat-pakker
Framover:
- risikovurdering for dei nye prosjekta (krevst for nye prosjekt)
- send lenke for evalueringa til Bitte, og be henne be studentane sine om å gjera evalueringa (Katri har sendt 2-3 gonger tidlegare)
Linda
- evaluering av whisper resultat til Per Egil (NB)
- smn grammatikkontrollregler
- sme fst dokumentasjon
- apertium-møte med Flammie
- møte med Sjur om GramDivvun og litt mer
- avspasering
Børre
- Synonymordboksmøte
- Mer info til smj-feilmelding
- E-poster om Katris talesyntesetest til Sveriges Radio, Giellagáldu og NRK
- Se over korpusmaterialet fra Árran
- Utviklerlunsj
- Kanskje automatisk bygging-møte
- Admin av divvun.uit.no, gtsvn.uit.no og satni.uit.no
- Konklusjon: oppgradere til Fedora39 på satni
- Kjørte restart på divvun.uit.no og satni.uit.no
- corpus-smj-orig-x-closed: fikse problemer med dokumenter
- Legge til korpusfiler fra Trøndelag, legge til metadata
- corpus-sma:
.xsl-fil
spilte ikke på lag, fikset syntaks
- Lage eget repo for gramcheck-testing
- CorpusTools:
- Fikse realign
- Lage feilmelding om add_files_to_corpus, fikse
- Problemer med parallelisering
- egen grein: rense tca2 for gui-kode, siden CorpusTools bare bruker kommandolinjegrensesnittet
- Hjelpe brukere
- Jupmelen rihjke lea gietskesne til speech-sma-x-private
- sátni.org-statistikk til GG, med språk
- samtale med Sierge Rasmus og Tauno Ljetoff på GG om diverse på sátni.org og TermWiki
- TermWikiTools: bits and bobs for å få ting på stell
- Jobbe med import av ordbøker i satni-backend
- Feil i TermWiki/satni.org/Sammallahti
- Send e-poster til GG og PS
- Fikse TermWiki-dump
- Ordne med gut-oppdatering på satni.uit.no
- Ordne med oppdateringer av
dict-*
fra git for satni-backend
- Få oppdatert satni.org-databasen
- Begynt å se på Pontoon, Mozilla sin lokaliseringsplattform
Framover:
Katri
- Kompilerer sme og smj ASR test datasets for å utvikle modeller
- Evalueringstest – monitorerer deltakere men som før: første resultater: den beste modell er “kombinert” data (8 timer) med “ny Laila” som huvudstemme
- Har sendt eposter for å få mer deltakere – men ingen tok del
- Resultater med statistikk fra 12 deltakere
- Kjørt ASR for allt smj material
- Forsetter å finne smj material fra sametingets plenumaudio: lytter og markerer lulesamisk deler til TextGrid
- Massive tinger med byrokrati og UiT
- Jobber 2 dager på ferie
Framover/Ideer:
- Kanskje samarbeid med Giellagas - de har masse sme-material som trenger transkribering -> bruke vår ASR -> mer treningsmaterial til oss
- NB: nordic automatic LID (language identification), kan brukes til å filtrere norsk material (tekst) ut fra t.ex. sametingets plenumaudio?
- Artikkel om TTS: evalueringstest i små språksamfunner er vanskelige
Inga
To uker siden:
- Cg med Linda*2
- Fonologieksamen
- Oversetting av Borealium
- møte om delte leksikalske ressursar
Forrige uke:
- Konferanse i Trondheim og reisedager
- Transkribert, ASR er ikke like bra når det er nølende lesing
- To nye gramcheck-regler, nom+nom passer perfekt til det nye systemet, men trenger hjelp av Linda
- Nye yaml-tester
- Flytta kontor
- Diskutert spørsmål om korpustekster
Maja
- Artikkelmøte med Linda: skrevet om negasjonsfeil + nye feiltyper, oppmerking av sma-korpus.
- Fonologieksamen - fin samtale med BA
- Katri: fått hjelp om fonologi
- Møte med Thomas om transkripsjon.
- Børre: added Dict-rep. + veiledning + arb.måter
- mail-og nettkomplikasjoner
Framover:
- må ordne DFØ-tilgang
- Fonologieksamen
- Grammatikkontroll og synonymordbøker: lånordbekjempelse, frec.con
- Syntaks: Gramcheck - yamltester, regel, feilmerking
Flammie
- möter i divvun-uke
- apertiummöte med linda
- lrec-review
- infra
framover:
TheTC
- MS Word er fiksa
- oppdatert sma- og sme-grammatikkontroll
Framover:
- Android, kodesigneringssertifikat (Windows-oppdateringane skal fungera igjen)
Necessary Innovations
- TTS + grammatikkontroll
- retta ulike feil med borealium.org
Andre planlagde oppdateringar
- stavekontroll inn i MT-sida igjen (unhammer)
- grammatikkontroll inn i MT-sida (unhammer)
- grammatikkontroll inn i LO (Kevin sin oxt)
- eige prosjekt med Nec. Innov.
- grammatikkontroll inn i nettstavekontrollen
Reiser og konferansar
Tar alt for lang tid å få reiseoppgjer!
Et alternativ: https://cp.compendia.no/uit/medarbeiderhandbok/208693
Både potensielle og påmeldte, og planlagde reiser:
- Divvun-uke uke 3 (15.-19.1.)
- 17-22.3 EACL: https://2024.eacl.org/calls/papers/#important-dates
- april 2024: UNPFII i New York (i alle fall Inga og Sjur)
- 20.-25.05.2024 LREC-COLING Torino (13.10. submission)
- June 16–21, 2024 NAACL
- juni 2024: Språkteknologikonferanse i Bodø - alle?
- oktober 2024: Språkteknologikonferanse i Trondheim/Trøndelag - små språk i Norden, ev òg SMA-2-konferanse (mange/alle?), lansering av sørsamisk TTS
LREC - framtidsplaner
- maori: grammatikkontroll, datastyring og tilgang, etikk og plattformkontroll
- nasjonalbiblioteket og samiske tekstar - skrive søknad til KD
Ymse
Bør vi arrangera fleire release-partyar eller kurs på nettet? Kan kanskje nå fleire folk lettare på den måten. Målsetjing: nettseminar to gonger om året,