Giellateknomøte 24.10.2019
Tilstede: Trond, Chiara, Lene, Risten
Saksliste
- Orienteringssaker
- Korpus og Korp
- Preprosessering
- CG-MT
- Nasjonalbiblioteket og jupyter
- Kommande presentasjonar og prioriteringar
- Paris, UNESCO
- Andre saker
Orienteringssaker
Servarar (oppsummering)
Spørjeundersöking, 60 spørsmål, businessorientert. gtoahpa-01, gtweb-01. Dette er servarar, men spørsmål er om applikasjonar.
Trond og Chiara ser på dette.
Wordpress
Chiara klarer no å logge seg inn. Alt ser ut til å fungere.
Vi betaler for den nye og ser etterkvart på kva som skjer.
MT apertium
Ikke arbeidd aktivt med sme-nob på lenge. Lene har arbeidd med sme-smx.
Vi bør også hugse sme-smn (Lene ser på samansetjingsstiar også for smn).
Annex
Trond og Chiara ser på dette neste veke.
SMARTool
Vi har hatt møte og møtereferat.
Konteaksta
Isak Saba-senteret har testa ut Konteksta og liker det.
NDS
Derivasjon: Vi har fått brev fra bruker om substantiv ikke dukker opp. Dette er et substantiv som også har NomAg-analyse.
Når vi går frå eit lemma vi klikkar på i translation bør det gå direkte til lemmaet i smenob-fila, og ikkje via analysatoren. Det er berre forvirrande. Chiara skal endre slik at det går direkte til lemma. Lene skriv Bz på dette.
Dette skal gjelde for alle språkpar (ta hensyn også til Hom-taggene)
Klikk-i-tekst
Det hendar det dukkar opp Der-taggar i klikk-i-tekst-vindauget. Vi må se på hva som skal være med i vinduet, og evt. flere brukervennlige tagger
Korpus og Korp
Status
Chiara kan sjå på HFST vs. XFST.
nob-sme
Risten har parallellisert lovtekstar. Tre står att. Lene har fjerner etterhvert i 2012-korpuset. Spørsmål: Vi analyserer 2012-data ein gong til, for å unngå dobbelt sett tekstar.
Sametinget har lovd å sende over protokoller i docx-format, men ingenting har kommet. Lene tar kontakt om dette.
fin-smn
Reetta laga ei liste over problem i fin-smn. Denne venter til vi har noen til å arbeide med dette språkparet.
nob-fkv
- Tekstane i freecorpus treng parallellisering.
- KI og KMD har tekstar som må i freecorpus
Trond diskuterer med Kvensk Institutt.
mhr og mrj
Desse vil vi har analysert og publisert på gtweb.uit.no/u_korp
[http://victorio.uit.no/rusbound/]
Chiara skal få tilgang til rusbound (Trond)
Arbeidsgang framover:
- fornye korpusinnholdet (Køyre pipeline Chiara og Trond)
- prøve pipeline, viss det går bra: Publisere på u_korp (Chiara)
- Oppdatere Korp-programmet for u_korp og f_korp (Chiara)
- Oppdatere FST og CG (mhr-gruppa)
- Forbetre OCR-prosessering (mhr-gruppa)
Ekstra person til å arbeide?
Vi vurderer måtar å få tak i nokon. Utlysing. Trond diskuterer.
Preprosessering
hfst-tokenise og setningsinndeling.
abbr-filene
- hfst-tokenise inkluderer alle punktum i forkortingane
- hfst-tokenise -cg tok.hfstol og deretter cg3 mwe.hfstol
| hfst-tokenize --giella-cg --weight-classes=1 ~/main/langs/sme/tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst |vislcg3 -g tools/tokenisers/mwe-dis.cg3
- Sjekk om forkortinga ligg inne i sme og i nob
- Parallellize bruker hfst-tokenize, uten mwe, men den er mulig å legge til
- Køyre setning med den relevante kommandoen
Testing og testrutiner
Risten leiter etter setningar med forkortingar (med punktum) inni og til slutt i setningar (transitive og intransitive).
Risten og Trond ser på dette (diskuterer med Børre og Sjur).
Den nye organiseringa av abbr må implementeres også for dei andre samiske språka også (Trond).
CG-MT
Status
Pipelinen for CG-MT fungerer. Halve pipelinen er i et skript tools/mt/cgbased/bin/smegram. Dokumentasjon ligg i tools/mt/cgbased/README
Pipeline fra sme-txt til dep-analyse må legges til manuelt.
Det er enda noen problemer med pipeline, ikke alt fungerer som det skal. Vi skal arbeide med dette i neste uke.
Burde koden etterhvert omskrives fra perl til python?
Veke med Eckhard
Vi inviterer, tidligst veka 9.-13.12. (Trond)
Nasjonalbiblioteket og jupyter
Situasjon
Lars har svart på spørsmål, Trond og Chiara skriv dokumentasjon.
Det kjem ei lenke på korpussida på giellalt.
Kommande presentasjonar og prioriteringar
Trond: smn, fkv, SAALS Uppsala 21-22.11, stadnamn
Lene: 24.10 SESAM, SAALS Uppsala 21-22.11, LIA Trondheim 25-x’27.11, Paris??
Paris, UNESCO
Vi vil sannsynlegvis bli invitert til å lage ein poster.
Andre saker
Kurs i regi av Forskarforbundet
Chiara drar.