Giellateknomøte
Tema: Infrastruktur
Tidspunkt: 10.2.2026
Til stades: Trond, Trond, Anders og Brede
Saker
- korpus: parallellkorpus; (rutine for oppdatering)
- cgi-bin: status for overgang til nytt system
- nytt format for paradigmer i nds: Status og tidsplan
- giellatekno-heimeside
- NDS (tekniske ting)
- metadict
- Avhengigheit
- Neste møte
Mykje av dette er avhengig av kvarandre, så delar av møtet bør gå med til å sjå på prosjektflyt og avklare kva som ventar på kva.
Korpus: parallellkorpus; (rutine for oppdatering)
Parallellkorpus Korp:
Trenger i utgangspunktet bare å konfigureres.
Göteborg lagar no ny backend for korp. Spørsmålet er om vi skal vente på den.
Status:
Påbegynt av Trond Tynnøl. Men ikke så lett å sette opp Korp, dependsproblemer, da CWB-softwaren er utdatert. Vi må kompilere egen.
Relatert:
Upstream (Gøteborg) holder på med full rewrite av Korp backend, forhåpentligvis blir ikke neste versjon vanskeligere å sette opp.
Automatiske analyser av corpus-xxx:
Status:
Br har nedpriorert det. F skulle se på noe? Anders har noen ideer og eksperimenter i Azure, men ingenting ferdig.
Resten av automatisk oppdatering av korp avhenger av corpus-xxx analyser, men skal være mer eller mindre klart. Nye korp_mono forbedrer også gamle, med bedre lemma.
korp-mono var (er) skriptet for å gjere analyse-output om til CWB-format, inkludert “trappemodellen” for dynamisk samansetjing.
Tiltak
- Trappemodellen: Diskusjon programmerarar - lingvistar. Anders seier når vi er der.
- Analyse av einspråkleg korpus: Anders og Flammie.
- Parallellkorpus. Trond Ty? Andre?
- Sjekke tidsplanen for ny korp (Anders)
cgi-bin => “webpipeline”
Status for overgang til nytt system
Cgi-bin:
Webpipelines fungerer, men vi oppdager stadig nye ting i cgi-bin som ikke fungerer, og vi vil ha det bedre for webpipelines.
Note: Har ikke lyst til å pensjonere cgi-bin, selv om webpipelines overtar. Greit å ha som referanse, og for evt brukere som vil ha det.
Problem: Ulike variantar, paradigme for spesifikke ord (fertet, vuovdi x 2, kantuvra)
NomAg er med i genereringsfst-en, +v1, +v2 er ikkje med der. Løysing: Ha med alle relevante taggar. Dei er der i fst-en no, men gjev enno ikkje resultatet vi treng. fst-en ser bra ut:
$ e kantuvra+v1+N+Sg+Nom|hdsme
kantuvra+v1+N+Sg+Nom kantuvra 0,000000
kantuvra+v1+N+Sg+Nom kántuvra 0,000000
$ e kantuvra+v1+N+Sg+Nom|hdsmeNorm
kantuvra+v1+N+Sg+Nom kantuvra 0,000000
$ e kantuvra+v2+N+Sg+Nom|hdsmeNorm
kantuvra+v2+N+Sg+Nom kontuvra 0,000000
$ e biila+v2+N+Sg+Nom|hdsmeNorm
biila+v2+N+Sg+Nom biila+v2+N+Sg+Nom+? inf
Vi må med andre ord berre sørge for at formene generert med same subtagg kjem i lag.
API
Anders: jobber med oppdatering av APIet.
Frontend
Brede: Jobber med frontend, paradigmetabeller, +++ Kommentar Trond Ty: Kan vi fjerne kildinsamisk?
For øvrig: Navnet. Webpipelines? Det var egentlig bare et placeholder-navn… tenke på å bytte?
- Trond Ty: Kva med t.d. “Hámit” jf. “Sánit”
- Namn på nordsamisk? engelsk? ikkjespråkleg?
Tiltak
- Det å unngå blanding av paradigme bør fungere, ser det ut som, TODO: sjekke (Brede)
- Presentere paradigmer i pene tabellar. Brede diskuterer med relevante.
- Vi må ha eit betre namn (alle)
- Kildinsamisk: Vi fjernar kildinsamisk. (Brede)
- Taggar: Diskuter (Trond Tr, Anders, andre?)
Giellatekno-heimeside
Situasjonen
Fortsatt Forrest…. Utfordringa her er at det er eit system utan utvikling. Vi bør med andre ord vere budd på å måtte finne eit alternativ.
Anders: Omskrive til SvelteKit? Vi kan starte med enkelt design, og så forbedre etter hvert, så lenge funksjonaliteten er der. Går an å vurdere å prøve med LLM-hjelp for raskere omskriving?
Krav: Fleirspråklegheit, integrering med nettenester (“webpipeline”)
Tiltak
- Anders eksperimenterer
NDS (tekniske ting)
TTS
- TTS feilet, men skal være i orden. Implementere sjekk og gi beskjed til brukere på noen vis? F.eks en indikasjon på toppmenyen om at TTS ikke fungerer?
- Vi har eit banner, og bruker det når det vi må.
Eit alternativ er å ha fleire automatiske kontrollrutiner.
sme-mul
Trond lagar skript for sme-fin, sme-nob => sme-mul
- arkivere gamle
- lage rutinger for multi-kjelde
- scripte, lage tomme noder
- overføre, sjekke
metadict
login-problemet:
Anders: Har satt automatisk omstart hver 8. time, har testet, skal fungere. Den ideale løysinga er at det skal fungere utan restart. Anders ser på det på ein godversdag.
MEN: Har opplevd problemer som skyldes github selv, og da får vi ikke logget inn! Vurdere å bytte til selv-styrt database over brukere? Mer arbeid: administrasjon, og ikke minst omskriving av api/database-kode.
Ellers skal det være ok.
Innhold
… er pågående arbeid når webpipelines er litt meir på plass.
Tiltak
- Login utan restart: Anders ser på det på ein godversdag.
Annet:
Planlagt nedetid
- ITA planlegger nedetid, bør gå smertefritt, og ta mindre enn en time, og ingenting vi trenger å gjøre. Men de skulle gi beskjed. Jeg venter.
Helgevakt
- Pengar: Spørsmålet er kva som er prislappen. Trond Tr ser på dette.
Dokumentasjon
- Det er masse som bør oppdaterast
Avhengigheit
- webpipeline på plass før Giellatekno-side
- Giellatekno-side på plass før forrest bryt saman (!)
- korp: pipeline på plass før rutiner for transfer til CWB og korp-integrering
- I beste fall: rett inn i ny backend (men dette er avhengig av Gbg)
- Korpusanalyse vs. Giellateknoteknosida
- Anders og Brede ser på Giellatekno med ein gong webpipeline er omtrent ferdig og vi har komme vidare med korpusanalyse.
- Naudløysing: Sjekke IT-avdelinga sine rutiner for kopi av html-filene i Giellatekno
- Trond diskuterer avtale for service ved nedetid med IT
Neste møte
Om 14 dagar.