Divvun-møte 14.1.2025
Til stades: Sjur, Flammie, Katri, Maja, Børre, Linda
Saker:
- Sidan sist
- Reiser og konferansar
- LREC - framtidsplaner
- Ymse
Sidan sist
Flammie
- fiks med speller bygging på ci
- nodalida workshop organisering med linda og trond
- camera ready til computel
- reiseplan: computel 1.3–11.3
- medarbeidersamtale
- deep learning in northern lights
Børre
- lang-sma: konvertere liste fra GG til dict og missing
- medarbeidersamtale med Sjur
- hjelpe UiT-medarbeider med Divvun -> manuell installasjon, Divvun Manager trøbler pga admin-rettigheter
- touche borti en av Linda & Flammies artikler
- se på hvordan termer kan integreres i metadictionary
- infomøte med Helse Norge om verktøyene våre, api-er og søk i samisk materiale. Interessert i samisk TTS på nettsidene.
Framover:
- rette feil i borealium
- få pontoon til å virkelig synkronisere
- laga oppsett for gramcheck-testdata i cg3-filer
- Bugzilla-flyttinga
Inga
Framover:
- Siste fiksing av flagg som bestemmer kasus på 100, 1000, 10 000, 1 000 000, 1 000 000 000
Linda
- Nodalida-planlegging
- reviewer til Nodalida
- grammatikkontrollartikkel: kameraklar version med Flammie
- testing av grammatikkontroll i WORD
Problem med SME-gram: "álo" Err/Orth Adv Err/Spellrelax
used to be "álo" Err/Orth-a-á Adv
, and now it is Err/Spellrelax
only.
Problemer med talluttrykk som inkluderer komma:
Giissá diamehter lea 43 cm ja dat lea 16,5 cm alu.
Son vuige ahte lea menddo unni go lea dušše 1,76 mehtera alu.
1,76 mehtera
blir analysert slik:
"<1>"
"1" Num Arab Sg Gen <W:0.0> @>N SELECT:21873:r3226 MAP:22617:r158
; "1" A Arab Ord Attr CLBfinal <W:0.0> SELECT:21873:r3226
; "1" Num Arab Sg Acc <W:0.0> REMOVE:19125:r2436
; "1" Num Arab Sg Ill Attr <W:0.0> SELECT:21873:r3226
; "1" Num Arab Sg Loc Attr <W:0.0> SELECT:21873:r3226
; "1" Num Arab Sg Nom <W:0.0> REMOVE:18917:r2398
; "1" Num Sem/ID <W:0.0> SELECT:21873:r3226
"<,>" "," → ", "
"," CLB <W:0.0> <NoSpaceAfterPunctMark> &no-space-after-punct-mark ID:11 R:RIGHT:12 ADD:14414:no-space-after-punct COPY:14432:no-space-after-punct-sugg ADD:14414:no-space-after-punct
no-space-after-punct-mark
"," CLB <W:0.0> <NoSpaceAfterPunctMark> ", 76"S &no-space-after-punct-mark &SUGGESTWF ID:11 R:RIGHT:12 ADD:14414:no-space-after-punct COPY:14432:no-space-after-punct-sugg
no-space-after-punct-mark
"<76>"
"76" A Arab Ord Attr CLBfinal <W:0.0> @>N SELECT:15082:AAttrCop MAP:22391:r86 &no-space-after-punct-mark ID:12 ADD:14424:no-space-after-punct-link ADD:14424:no-space-after-punct-link
"76" A Arab Ord Attr CLBfinal <W:0.0> @>N SELECT:15082:AAttrCop MAP:22391:r86 &LINK ID:12 ADD:14424:no-space-after-punct-link ADDRELATION(RIGHT):14430:no-space-after-punct-rel ADD:14424:no-space-after-punct-link
; "76" Num Arab Sg Acc <W:0.0> SELECT:15082:AAttrCop
; "76" Num Arab Sg Gen <W:0.0> SELECT:15082:AAttrCop
; "76" Num Arab Sg Ill Attr <W:0.0> SELECT:15082:AAttrCop
; "76" Num Arab Sg Loc Attr <W:0.0> SELECT:15082:AAttrCop
; "76" Num Arab Sg Nom <W:0.0> SELECT:15082:AAttrCop
; "76" Num Sem/ID <W:0.0> SELECT:15082:AAttrCop
:
"<mehtera>"
"mehter" N Sem/Measr Sg Gen <W:0.0> @>N SELECT:17156:NewGen MAP:22843:r227
; "mehter" N Sem/Measr Sg Acc <W:0.0> SELECT:17156:NewGen
Mikko
Framover:
- Divvun-jubileet
- artiklar etter Trondheims- konferansen
Sjur
- dokumentasjon
- SMA-TTS-artikkel
- smj-orddeling, shared-mul-feil
- medarbeidarsamtaler
- prosjektorganisering
- møte med NRK o.a.
- feil og problem skal alltid meldast i GitHub!
Framover:
Maja Lisa
- missinglists - Takk til Børre
- diskuterte MT-oversetting av SAČ-1 og 2
- Lønnutvikling
Framover:
- TTS - tall
- artikkel med Katri og Thomas - sma - legge til referanser
- Ny liste fra Gg - FST + dict
- Gramcheck - regler for bl.a pronomener
- Talesyntese og få denne til å fungere + hvordan bruke/implementere denne teknologien i hverdagen? - Smarthus jfr. - Josefina/Nils Johan spør + se på diskusjonen i TTS-tråden om Aanna som ikke fungerer - talesyntesen funker iflg. Josefina
- halvveis avtalt pres. av Gramcheck for Gg-medlemmer - spikre datoen etter jul.
- Interessante ASR-resultat: legge til Err/Orthformer f.eks for “tjoeredh”? Hvordan er dagens språk jfr. f.eks AJ:s?
- tekstnormalisering for SMA (tal og forkortingar til tekst) m/ Inga
- spørsmål om speechify - talesyntese-app
- Missinglist fra Orre Testamente - endringer i lexiconer
- Missinglist fra 6 sma-masteravhandlinger - endringer i lexiconer
- Se sammen med Inga - lexc-arbeid
- Foreberede pres. av lånetilpassinger - hva er vedtatt og hvor er det fortsatt stor variasjon?
- Forberede pres. av GramDivvun - også fra GG: Forberede presentasjon om grammatikkontroll - Variasjon i negasjon og adj-systemer - en faktor til språksperre? Forberede sammen med Linda
Katri
- sme-TTS: prosesserer resten av MS sitt materiale (bare 2-3 lydfiler igjen)
- smj-ASR:
- møte: Sami voice recognition, AI and Nordic PBs and universities.
- medarbeidersamtale
- sma-TTS artikkel
- tekst til nominering
- omorganiserte speech-smj-x-private
Framover/Ideer:
- NB: nordic automatic LID (language
identification), kan brukes til å filtrere norsk
material (tekst) ut fra t.ex. sametingets
plenumaudio?
- Artikkel om sme-TTS: evalueringstest i små språksamfunner er vanskelige
- Til folk som er interessert av TTS-prosjekter: https://docs.coqui.ai/en/latest/what_makes_a_good_dataset.html
Necessary Innovations
- retta feil i grammatikkontroll-API-server
- CI-serveroppsett
Andre planlagde oppdateringar
- stavekontroll inn i MT-sida igjen (unhammer) => Flammie pratar med Kevin, bruk api-serveren
- grammatikkontroll inn i MT-sida (unhammer) => Flammie pratar med Kevin, bruk api-serveren
- grammatikkontroll inn i nettstavekontrollen
- sjå over nettstavekontrollen:
Divvun-jubileum
- på nyåret - det er alt for usikkert i desember
- kavalkade over det vi har gjort
- invitera nokon utanfrå til å seia noko om:
- bruken av verktøya
- nytte for samfunnet
- gjester ved UiT, men òg strøyma slik at andre kan fylgja med
- invitera alle som har jobba i Divvun + folk frå SD og KDD + rektor
- middag
- pressemelding og mediedekning
Reiser og konferansar
Både potensielle og påmeldte, og planlagde reiser:
- 24.-26.02.2025: LT4All 2.0 (Paris)
- 02.–05.03.2025: nodalida, October 21, 2024: Paper submission deadline
- 03.-04.03.2025: Computel. «We invite submissions to the 8th workshop on the Use of Computational Methods in the Study of Endangered Languages, by October 7, 2024.»
-
- eller 26.3.2025: Divvun-jubileum (Tromsø)
- 09.-15.06.2025: Lávdan Sámi Arena (Kautokeino) — vil vi vera med? Abstract Submission Deadline: January 31th, 2025
- 17-21.8.2025: Interspeech (Rotterdam)
- 25.-26.8.2025 Speech Synthesis Workshop (Leeuwarden)
- 18.–23.08.2025 CIFU — Congressus XIV Internationalis Fenno-Ugristarum (Tartu, Estland)
- 26.-29.08.2025: syntaxfest
- seinare: sigmorphon eller andre tba
LREC - framtidsplanar
- maori: grammatikkontroll, datastyring og tilgang, etikk og plattformkontroll
- nasjonalbiblioteket og samiske tekstar - skrive søknad til KD
Ymse
Neste Divvun-samling: i feb, men dato ikkje bestemt. Helst ikkje: 6. februar eller veke 8.
Neste møte: tysdag 21.1. til vanleg tid.