The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages
View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no
Møte mellom Trond og Sjur 6. og 8.2. 2018
KAL har hatt multichars som +ABC=DEF+vv
, som eigentleg er det same som
+ABC+vv+DEF+vv
. Tino har automatisk konvertert til det siste formatet, og
kompileringstida har gått dramatisk ned,
Lærdom: Eit stort alfabet gir lang kompileringstid.
Løysinga er å ha ein taggstruktur som gjev så få taggar som mogleg. Bør vi tenkja om korleis vi organiserer semantiske taggar i sme? Dei er bygde på same måten som dei grønlandske, sjølv om vi enno ikkje har så mange taggar.
Byggetid etter omlegginga:
conf: ./configure --with-hfst --without-xfst --enable-hyperminimisation --enable-alignment --with-backend-format=foma
Sjur real 4m 9.347s
bøtte real 10m10.679s
Meir byggjestatistikk:
Konklusjon: eit stort alfabet (=mange multichar) fører til lang byggjetid, særleg for tokeniser og nokre filter. KAL har gått ned frå knapt 4000 taggar til knapt 400, og byggjetida er nede i minutt istf timar. Bør vi sjå ein gong til på SME og dei semantiske taggane? Kva med annan leksikalsk informasjon som er spreidd på ulike kjeldefiler i dag?
Denne veka, helst i morgon (pga Staare-opplegget).
Prosjekt for å byggha pakkehandterar for macOS har starta med Brendan, via firmaet han jobbar for i Göteborg. Pakkehandterar for Windows har han alt laga, men den er ikkje testa enno.
Pakkehandterarane er installerings-, konfigurerings- og oppdateringsprogram for alt som vi gjev ut. Pakkehandteraren kan installera alt vi har, og kan oppdatera både seg sjølv og alle installerte pakker. Det blir det viktigaste verktyet for å installera og spreia verktya våre ut til brukarane.
Dette impliserer ferdigkompilerte FSTar for alle interesserte, til ulike formål, om dei no er språkbrukarar eller lingvistar, og der målet er alt frå tastatur via ordbok og grammatisk analyse (for lingvistar) til stave- og grammatikkontroll.
Idé etter Trond sin tur til Paris førre veka: eit (grafisk) program for å analysera tekst med fst-ane våre (ev heile pipeline).
Dette har vi faktisk allereie, i grammatikkontrollinfrastrukturen, men retta mot grammatisk analyse og ikkje framlegg. Så kombinasjonen av grammatikkontrollinfrastrukturen og nedlastbare fst-ar frå nightly build vil faktisk gje oss det vi vil ha.
TODO: Spesifisere, lyse ut og rulle ut opplegg for dette i løpet av våren
Pga diskhavariet på XServen har vi ingen fungerande chat for tida, særleg ettersom mange ikkje lenger har fungerande GTalk etter den siste macOS-oppdateringa. Vi må rydde opp, kollektivt.
Kva er alternativa:
Sjur har sendt ut e-post om at alle nyttar Skype for Business inntil vidare. Børre jobbar med å få på plass ny jabber-server.
Manglar pr i dag:
Børre arbeider med saka, det har kome brev frå Steinar, saka går framover.
Trond har hatt møte med sms-gjengen om tastaturutforming. Dei likte prinsippa for tastaturutforming som Trond presenterte. Dei kom fram til eit forslag, som no ligg i svn.
Nivå 3 og 4 er uferdig, men dei skoltesamiske bokstavane er ferdig plassert. Trond og Sjur gjer ferdig sms-tastaturet, og legg det ut på nett.
Sjå over, fleire detaljar seinare.