The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages
Til stades: Anders, Brede, Lene, Trond.
Lene skal sjå på det.
Denne fungerte før, men ikkje no. Anders ser på det (med Trond)
Anders har oppretta git-repositorium under giellatekno/webdict
, og har laga eit oppsett som er nyskrive og som kan vere offline.
Adresse https://webdict.z1.core.windows.net
Trond discuterer nedlastbar webdict med Sjur etter sommaren, med utgangspunkt i Anders sitt opplegg. Trond ser også på README-fil for oppdatering av innhald.
Anders gjer ting ferdig.
IT ville ha eit oversyn. Anders laga eit googledoct.
Nye korpusar er sett opp (minus ordsky (ordbild)
Vi tar opp Ordbild etter ferien.
Først må dato på plass i Korp9, deretter ser vi på buggen.
søk på “Nom” gjev også “NomAg” og “NomAct”. “Pl” gjev også “Plc”. Vi har derfor fjerna semtaggar i Korp. Derimot er semtaggar ekstremt interessant i Ordbild. Chiara såg på dette, men vi fekk det ikkje til. Strategi: Prøv å få det til i Ordbild, og viss ikkje: fjern semtaggar.
Få taggrense til å fungere i søket. (jf. diskusjon om Pl, Pl., Pl. og i-menyen: i-menyen må fungere).
Dei som bruker Korp skal ikkje måtte vite kva vi har leksikalisert og ikkje. Ciprian hadde ei rutine for å generere +Der/x og +Cmp.. vart generert og dermed søkbare. Den delen av pipeline forsvann ved siste oppdatering.
Måten å gjere dette: Generere lemma.
Dette må vi gjere til neste oppdatering, m.a. sjå på kva Ciprian og Chiara gjorde.
(eksempelord: čázádatvuoigatvuođaid).
Detmar svarte (bruk ny versjon av log4j), men det har vi prøvd.
Konklusjon: Til hausten leiter vi etter ein Java-person.
Anders har ein ny versjon lokalt.
Anders finpussar i løpet av sommaren.
Vi vil sjå på smesmj til hausten.
Nye metodar:
- GIZA++ light (Anders)
- Dependensanalyse (også det Anders)
Dette må vi sjå på før vi køyrer.
Pivotmetoden gjev 42000, vi skal sannsynlegvis ned i under 10000.
Lene og Trond ser på dette på fredag.
For å oppdatere Korp treng vi meir korpus, vi treng oppdatert tospråklege korpora og vi treng parallelltekstar, kanskje særleg dei samiske språka imellom.
Brede har sett på crawlerscript. Ingen av dei gamle scripta fungerte. Delvis var dette pga gamle katalogar hos oss, delvis fordi nettsidene vi hausta hadde vorte endra:
- det finske sametinget
- det norske sametinget
- statsforvaltaren
Sida til det norske sametinget filtrerte ut teksten betre enn det finske. Det norske sametinget er ok, det finske er meir vanskeleg. Vi klarer no å hente tekstar frå det norske sametinget og parallellisere dei. Det er ca. 1000 filer på nordsamisk, 160 er på lulesamisk, 350 på sørsamisk, nesten alle er på norsk.
Arbeid som står att:
- Dokumentere skripta: **Brede**
- Køyre skripta og legge inn i korpus: **Børre**.
Børre kan få Lab-bruker i Azure. Anders oppdaterer Børre om Azure.
Ting å gjere til sommaren:
… i august.