Divvun-møte 12.4.2022
Til stades: Katri, Børre, Sjur, Flammie
Duommá sjukmeldt ut april.
Saker:
Sidan sist
Linda
Avspaserer
Flammie
- rust-kurs, startar 4. april
- möte med alberta og divvunspell planlegging
- LREC-artikkel + videopresentasjon ferdig til 29. april
- har debugga midtape i hfst-pmatch, men ikkje løyst problemet enno
- gjorde ferdig konvertering frå sme og sma til smj
Treng meir info frå analysatoren, t.d. surface-form, har no berre lemma/lemmatisert form. - midtape form kan brukes…
framover:
- shared restruktrering
- divvunspell
- midtape i pmatch2fst / tokenise
Katri
- startet ASR trening med alt Acapela-, Giellagas-, LIA-materiale sammen
- testet modellen men kanskje nånting er feil, jobbar med Liliia
- nyaste resultat etter meir trening:
NEW Prediction:
[‘ja de bosui davvebiegga nu garrosiid go sáhii muhto mađii eanes son bosui dađii čávga deappo vánddardeadji gieasaid jáhka eižas birra’, ‘de beaivváš báitiigođii hui liekkasiid nu lieggasiid ahte vánddar dadji ovttat mános nuolaid jáhka’, ‘ja nie šattai davvebiegga mieđit ahte beaivváš lei sutnos ge hievrrate’]
OLD Prediction:
[‘ja de bohsui davvebiegga nu garrosiidgo sáhtii muhto mađii eanes son bossui dađii čavgade appo vánddardeaddji giesai jáhkaidas birrara’, ‘de beaivváš baitigođii hui jiekkasid nu liegasit ahte vándardeaddji ovtdameanášnuolai jáhka’, ‘ja nie šattai davvebiegga mieđit ja de beaivváš lei sudnosge hievrrat’,
Reference:
[‘Ja de bosui davvebiegga nu garrasit go sáhtii, muhto mađi eanet son bosui, dađi čavgadeappot vánddardeaddji giesai jáhka iežas birra.’, ‘De beaivváš báitigođii hui lieggasit, nu lieggasit ahte vánddardeaddji ovttatmanos nuolai jáhka.’, ‘Ja nie šattai davvebiegga mieđihit ahte beaivváš lei sudnos gievrrat.’]
Framover:
- grep ‘lf’/’lff’ fra korpusen / fálfo?
- møte med Aalto om samarbeid med ASR
- vokallengde? vokaler, diftonger også <- kanskje trigrams hjelper med den også
- Fastpitch – er kanskje ikke kombatible med Sigma2, men ser om det kan fungere…
Børre
- free- og boundcorpus konvertert og commite til github, minus freecorpus-sme og boundcorpus-smj
freecorpus-sme ser ut til å være for stor for github
✦ ❯ git push --set-upstream origin master
Enumerating objects: 263707, done.
Counting objects: 100% (263707/263707), done.
Delta compression using up to 12 threads
Compressing objects: 100% (40031/40031), done.
remote: fatal: pack exceeds maximum allowed size (2.00 GiB)
error: remote unpack failed: index-pack abnormal exit
To github.com:giellalt/corpus-sme
! [remote rejected] master -> master (failed)
error: failed to push some refs to 'github.com:giellalt/corpus-sme'
boundcorpus-smj har en pdf-fil som er for stor (ca 70 MB, selv etter å ha fjernet bilder fra den)
Eige møte i morgon kl 9 norsk tid for å diskutera smj- og sme-problema.
Framover:
- legg til iOS- og Android-appar i butikkane, til intern testing - høyr med TTC om
hjelp med signering og CI. TTC jobber med opplegg for iOS, Android klar.
- Johanna Ijäs/Orkana - bok til korpus
Inga
Borte
Framover:
- førebu opptaksveka:
- le-sjekk for korpus
- stammekonsonantsjekk
- dokumenter +Use/-Spell
Sjur
- møte med NRK, klargjering før opptaksveka
- artiklar og rapportar
- jobba med symbol-konvertering og tekstprosessering for TTS
- kontrakt for stemmegjevarane
- Edmonton-seminaret
Framover:
- tts-analysator
- ELE-rapport om minoritetsspråk i Norden
- git-kurs i vår
- Sametinget har invitert oss til møte, presentasjon av Divvun og GT
for Sametingsrådet, og evt i lag med statssekretæren 6. mai.
Infra-arbeid framover (Børre, Flammie, Sjur):
- kløyva giella-shared
- flytta fst-bygginga inn i fst-mappa
- flytta alle test-katalogane (til underkatalogar av det som skal testast)
Kan dela arbeidsrom via VSCode (med innebygd lydchat). Har ei felles arbeidsøykt etter påske.
Gøteborg
- arbeid med iOS og Android
- one-click-installeraren
- Rust-kurs har starta
Framover:
- LO-OXT for mac - ferdig i slutten av april?
- gjera ferdig one-click-installeraren
- modernisera kbdgen (gjera ferdig)
- stavekontroll til MS Office for mac
Giellatekno
- ny programmerar - seks søkjarar, skal oppnemnast komite
- Luleå-presentasjon
- Alberta/Edmonton
Canada/Alberta
- planlegg arbeidsseminar i juni.
Ymse
- Reservert datoar for opptak i Bodø: 19.-22.4.
- Kva for dagar som ikkje passar for samlingar i Tromsø, i mars, april, mai, juni
- ACL+Computel: 22.-25. + 26.-27. mai
- LREC: 21.-25. juni
- Katri: i Mai passer IKKE: 5., 13., 26.-27.5., April - tts innspelinger etter påsk, i Juni passer IKKE: 2., 10., 18., 21.-25.6 - (LREC?)
- påska: 10.-18.4.
- Børre: ferie i hvert fall 21.6-25.6
- Inga: kan bare i partallsuker: 10,12,14,16, 18, 20, 22.
- Sjur: Luleå 10.-11.5.
- Inga savner stavekontroll i Omegat! Sjur tek det opp med TTC - må ha stavekontroll
for å ha nytte av verktyet
- Decade Of Indigenous Languages
- Linda er ikke i Tromsø 25.3. - 6.4., evtl. ferie i slutten av april/mai
- sør- og lulesamisk konferanse 26. og 27. april. Inga dreg, Børre i reserve dersom det trengst basert på programmet (har ikkje fått det enno)
- Divvun-veke 2.-6. mai
- neste møte tysdag 19.4.2022