Giellateknomøte 29.6.2023
Til stades: Anders, Brede, Lene, Trond.
Saksliste
- Sidan sist
- Referat servermøte
- Oppsummering cgi-bin
- Oppsummering Korp
- Oppsummering korpusarbeid
- Sommaren
Sidan sist
sma-paradigme:
Lene skal sjå på det.
Attende-knappen i nettlesar til NDS
Denne fungerte før, men ikkje no. Anders ser på det (med Trond)
webdict
Anders har oppretta git-repositorium under giellatekno/webdict, og har laga eit oppsett som er nyskrive og som kan vere offline.
Adresse https://webdict.z1.core.windows.net
Trond discuterer nedlastbar webdict med Sjur etter sommaren, med utgangspunkt i Anders sitt opplegg. Trond ser også på README-fil for oppdatering av innhald.
Anders gjer ting ferdig.
Referat servermøte
IT ville ha eit oversyn. Anders laga eit googledoct.
Korp
Ny versjon
Nye korpusar er sett opp (minus ordsky (ordbild)
Vi tar opp Ordbild etter ferien.
Datobug
Først må dato på plass i Korp9, deretter ser vi på buggen.
regex
søk på “Nom” gjev også “NomAg” og “NomAct”. “Pl” gjev også “Plc”. Vi har derfor fjerna semtaggar i Korp. Derimot er semtaggar ekstremt interessant i Ordbild. Chiara såg på dette, men vi fekk det ikkje til. Strategi: Prøv å få det til i Ordbild, og viss ikkje: fjern semtaggar.
Få taggrense til å fungere i søket. (jf. diskusjon om Pl, Pl., Pl. og i-menyen: i-menyen må fungere).
Generering av cmp og der
Dei som bruker Korp skal ikkje måtte vite kva vi har leksikalisert og ikkje. Ciprian hadde ei rutine for å generere +Der/x og +Cmp.. vart generert og dermed søkbare. Den delen av pipeline forsvann ved siste oppdatering.
Måten å gjere dette: Generere lemma.
Dette må vi gjere til neste oppdatering, m.a. sjå på kva Ciprian og Chiara gjorde.
(eksempelord: čázádatvuoigatvuođaid).
Konteaksta
Detmar svarte (bruk ny versjon av log4j), men det har vi prøvd.
Konklusjon: Til hausten leiter vi etter ein Java-person.
Oppsummering cgi-bin
Anders har ein ny versjon lokalt.
Anders finpussar i løpet av sommaren.
smesmj
Vi vil sjå på smesmj til hausten.
Nye metodar:
- GIZA++ light (Anders)
- Dependensanalyse (også det Anders)
Dette må vi sjå på før vi køyrer.
Pivotmetoden gjev 42000, vi skal sannsynlegvis ned i under 10000.
Lene og Trond ser på dette på fredag.
Oppsummering korpus
For å oppdatere Korp treng vi meir korpus, vi treng oppdatert tospråklege korpora og vi treng parallelltekstar, kanskje særleg dei samiske språka imellom.
Oppsummering korpusarbeid
Brede har sett på crawlerscript. Ingen av dei gamle scripta fungerte. Delvis var dette pga gamle katalogar hos oss, delvis fordi nettsidene vi hausta hadde vorte endra:
- det finske sametinget
- det norske sametinget
- statsforvaltaren
Sida til det norske sametinget filtrerte ut teksten betre enn det finske. Det norske sametinget er ok, det finske er meir vanskeleg. Vi klarer no å hente tekstar frå det norske sametinget og parallellisere dei. Det er ca. 1000 filer på nordsamisk, 160 er på lulesamisk, 350 på sørsamisk, nesten alle er på norsk.
Arbeid som står att:
- Dokumentere skripta: **Brede**
- Køyre skripta og legge inn i korpus: **Børre**.
Sommaren
Børre kan få Lab-bruker i Azure. Anders oppdaterer Børre om Azure.
Ting å gjere til sommaren:
- Korp: Byningspipelines i Azure?
- nye cgi-bin + evt oppsett i Azure? Husk byggestegene..
- Ny webdict (offline-bruk)
- NDS-fixen (tilbake-knappen) + resten av NDS-lista
- Arbeid med smesmj + generalisering av scripta til nye språkpar
- Sjå på lesehjelp i NDS (og andre ting, frå NDS-lista)
- …
Neste møte
… i august.