Divvun-møte 4.6.2024
Til stades: Katri, Sjur, Mikko, Børre, Inga, Flammie
Saker:
- Sidan sist
- Reiser og konferansar
- LREC - framtidsplaner
- Ymse
Sidan sist
Flammie
- hjelpte folk med:
- gle grammatik
- divvunspell
- mt/apertium
- og andre bugfikser
- skrev notatar fra lrec
Framover:
- nordsamisk i lulesamisk?? Sjå GH-melding frå Inga i lang-smj
- flytta testskript i test/-katalogen til giella-core
Mikko
- Sett på tidsplan for konferansen
- ASTIN-møte, konferanse
Framover:
- sjekk godkjenninga i Pontoon i lag med Børre
Sjur
- møte med Samisk arkiv/Arkivverket
- møte med HU/Aalto/NTNU/NB om taledata og datadeling
- møte med ASTIN om konferansen i Trondheim
- Nordforsk-søknad
- hjelpte Irja Seurujärvi-Kari
Framover:
- sjekk personar for lulesamisk og nordsamisk transkribering
- Sjekk med Trond om OCR og samarbeid med NB - korleis kan vi få NB til å samarbeida meir med oss?
Børre
- pdfkonvertering:
- Endre standardmargin fra 7% til 0%. Brukere blir forvirret når tekst blir borte
- Bruke
word_break_threshold
definert i metadatafilene. Brukes for å endre s p a c e
til space
- Jobbe med å tolke layout, slik at tekst kommer ut i den rekkefølgen den leses.
- konvertere corpus-mns etter forbedring i pdfkonvertering
- møter med Samisk arkiv
- lang-smj: sjekke yaml-tester
- lang-gle:
- aktivere yaml-tester
- flytte eksempler fra grammarchecker.cg3 til yaml-tester, skrive dem om til oppmerkingen vår
- ordlister fra TermWiki til det finske sametinget
- ocr av sørsamisk material
- møte om deling av taledata
Framover:
- laga oppsett for gramcheck-testdata i cg3-filer
- Bugzilla-flyttinga
Katri
- Nordforsk-søknad og flere møter om den
- Gjennomgång av Sørsamisk lydmaterialer og transkriberinger, og prosessering av disse til TTS korpus
- møte med HU/Aalto/NTNU/NB om taledata og datadeling
- Arkivverket samarbeid og møter:
- mottatt 2 sørsamiske lydfiler men det var samme som vi allerede har
- kartlegge sørsamiske materialer som blir brukt i TTS og ASR
- prosessert 1 intervju i nordsamisk for å kjøre ASR (det finns 6 intervjuer ilag)
- Samarbeid med NB: diskutert hvordan kan vi jobbe videre med ASR, ny data etc
Framover/Ideer:
- NB: nordic automatic LID (language identification), kan brukes til å filtrere norsk material (tekst) ut fra t.ex. sametingets plenumaudio?
- Artikkel om TTS: evalueringstest i små språksamfunner er vanskelige
- Til folk som er interessert av TTS-prosjekter: https://docs.coqui.ai/en/latest/what_makes_a_good_dataset.html
- Samarbeid med Kanada om TTS?
Maja
- Eksamen SAAL
- Reise + Reiseregninger
- transkriberer Gullie-tjååtsele
Prio fremover:
- Transkriber - Gullietjååtsele + OCR-lesing
- Listearbeid - lemma - begynne på listene fra Lene + Gielegaaltije
- Artikkel med Katri og Thomas?
- Artikkelen med Linda
Linda
Framover:
- møte om reiserekningar, forskot og ikkje-fungerande byråkrati
Inga
- Møterom i Bodø
- Avtalt møte med Nord U
- Kontakt med Stormen samiske senter
- Kontrakt for andre mannsstemme smj-tts
- Hjulpet Seanán med irsk grammatikkkontroll
- Gramcheck: endret flere regler til ADDRELATION, format med en strek for feil som hører i lag
- Gramcheck: numphrase-regler
- Forbedra fst med kasus på arab numbers
TheTC
- sjekkar oppdateringssystemet for DM
Framover:
- CLI for Páhkat på mac/windows
- Android:
- Katri: fungerer, stavekontrollen fungerer ikkje => har truleg eldre versjon
- har 0.2.1, version code 88 => Katri må leggjast til i betatestargruppa
- Flammie: har gamal telefon, kræsjar heile tida, har sendt kræsjrapport
- Sjur: sjekkar om det må gjerast noko for å gjera ny versjon tilgjengeleg
- Divvun Dev, Børre (0.2.6, version code 179):
- tastatura ser riktige ut
- det er forslag frå stavekontrollen (sma og sme)
- dvs alt ser bra ut
Necessary Innovations
1-2 veker forseinka med alfa-versjonen, kanskje beta òg. Endeleg versjon i juni kjem til rett tid, tidsnok til Bodø-konferansen.
Som kompensasjon vil dei forbetra CI-oppsettet vårt.
Andre planlagde oppdateringar
- stavekontroll inn i MT-sida igjen (unhammer)
- grammatikkontroll inn i MT-sida (unhammer)
- grammatikkontroll inn i LO (Kevin sin oxt)
- eige prosjekt med Nec. Innov.
- grammatikkontroll inn i nettstavekontrollen
Børre legg ut nye versjonar av stavekontrollar for nord-, lule-, sør- og enaresamisk, i samsvar med denne oppskrifta.
Reiser og konferansar
Både potensielle og påmeldte, og planlagde reiser:
- 16.–21.06.2024: NAACL
- 25.-26.06.2024: Giellabiellje - alle
- 26.-30.08.2024: Divvun-uke + møte med samisk arkiv tirsdag 27.
- 09.-13.09.2024: KONVENS Vienna
- 26.-29.09.2024: Bokmässan (Göteborg)
- 02.-03.10.2024: Lulesamisk språkseminar i Jokkmokk (Inga)
- 05.-06.11.2024: Språkteknologikonferanse i Trondheim/Trøndelag - små språk i Norden (mange/alle?), lansering av sørsamisk TTS
- 06.–07.11.2024: SAALS6 (Helsingfors)
Bodø-konferansen + Divvun-samlinga
- 25.6. kl 12.00 - 26.6. kl 13.00 (ca)
- lansering av talesyntese (SMJ, SME-oppdatering/-nylansering)
- lansering av grammatikkontroll for win/mac (raud-/blåstrek, ikkje sidepanel)
- fysisk arbeidsmøte i lag med Arkivverket etter, forslagsvis på torsdag, men onsdag ettermiddag som alternativ
- Divvun-samling resten av veka?
- Sjur: GALA-webinar 27.6. kl 17.00 norsk tid
Plass for konferansen: Stormen kulturhus (Stormen språksenter held til i huset, har andsvar for pite- og lulesamisk)
Oppgåver:
- møterom - Inga har ordna 2 grupperom for mån (10-), tors og fre (-12)
- tinga reiser+hotell (alle tingar kvar for seg via Berg Hansen) - Divvun-samlinga byrjar til lunsj på måndag, og går fram til lunsj på fredag
- lanseringar: tysdag morgon, før konferansen. Både fysisk og på nett.
- planleggja tekst til FB-event
- melding på andre sosiale medium
- alle melder seg på!
- onsdag ettermiddag: møte i samarbeidsforumet for IDIL/Noreg
- torsdag: møte med Nord/samisk
LREC - framtidsplanar
- maori: grammatikkontroll, datastyring og tilgang, etikk og plattformkontroll
- nasjonalbiblioteket og samiske tekstar - skrive søknad til KD
Ymse
Bokmessa i Gøteborg
Skal vi dra på bokmessa i Gøteborg? 26.-29. september, har samisk som tema i år. Argument for:
- vi blir synlege i den svenske språkdebatten
- vi når nye brukarar
- vi kan få kontakt med forfattarar og forlag med tanke på korpus
Konklusjon: vi legg opp til at nokre dreg.
Møte med Sametingsråd Mikkelsen
18 juni kl 14 norsk tid. Sjur og Børre er med frå Divvun.
Anna
Bør vi arrangera fleire release-partyar eller kurs på nettet? Kan kanskje nå fleire folk lettare på den måten. Målsetjing: nettseminar to gonger om året
Maja: F.eks nettseminar om språkteknologi, nyoppdatering av f.eks grammatikkontroll eller oppdatering av dict -lagt til nye ord og funksjoner i dict
Neste møte: 11.6. til vanleg tid.