The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages
Tilstede: Trond, Chiara, Lene, Risten
Spørjeundersöking, 60 spørsmål, businessorientert. gtoahpa-01, gtweb-01. Dette er servarar, men spørsmål er om applikasjonar.
Trond og Chiara ser på dette.
Chiara klarer no å logge seg inn. Alt ser ut til å fungere.
Vi betaler for den nye og ser etterkvart på kva som skjer.
Ikke arbeidd aktivt med sme-nob på lenge. Lene har arbeidd med sme-smx.
Vi bør også hugse sme-smn (Lene ser på samansetjingsstiar også for smn).
Trond og Chiara ser på dette neste veke.
Vi har hatt møte og møtereferat.
Isak Saba-senteret har testa ut Konteksta og liker det.
Derivasjon: Vi har fått brev fra bruker om substantiv ikke dukker opp. Dette er et substantiv som også har NomAg-analyse.
Når vi går frå eit lemma vi klikkar på i translation bør det gå direkte til lemmaet i smenob-fila, og ikkje via analysatoren. Det er berre forvirrande. Chiara skal endre slik at det går direkte til lemma. Lene skriv Bz på dette.
Dette skal gjelde for alle språkpar (ta hensyn også til Hom-taggene)
Klikk-i-tekst
Det hendar det dukkar opp Der-taggar i klikk-i-tekst-vindauget. Vi må se på hva som skal være med i vinduet, og evt. flere brukervennlige tagger
Chiara kan sjå på HFST vs. XFST.
Risten har parallellisert lovtekstar. Tre står att. Lene har fjerner etterhvert i 2012-korpuset. Spørsmål: Vi analyserer 2012-data ein gong til, for å unngå dobbelt sett tekstar.
Sametinget har lovd å sende over protokoller i docx-format, men ingenting har kommet. Lene tar kontakt om dette.
Reetta laga ei liste over problem i fin-smn. Denne venter til vi har noen til å arbeide med dette språkparet.
Trond diskuterer med Kvensk Institutt.
Desse vil vi har analysert og publisert på gtweb.uit.no/u_korp
[http://victorio.uit.no/rusbound/]
Chiara skal få tilgang til rusbound (Trond)
Arbeidsgang framover:
Vi vurderer måtar å få tak i nokon. Utlysing. Trond diskuterer.
hfst-tokenise og setningsinndeling.
| hfst-tokenize --giella-cg --weight-classes=1 ~/main/langs/sme/tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst |vislcg3 -g tools/tokenisers/mwe-dis.cg3
Risten leiter etter setningar med forkortingar (med punktum) inni og til slutt i setningar (transitive og intransitive).
Risten og Trond ser på dette (diskuterer med Børre og Sjur).
Den nye organiseringa av abbr må implementeres også for dei andre samiske språka også (Trond).
Pipelinen for CG-MT fungerer. Halve pipelinen er i et skript tools/mt/cgbased/bin/smegram
. Dokumentasjon ligg i tools/mt/cgbased/README
Pipeline fra sme-txt til dep-analyse må legges til manuelt.
Det er enda noen problemer med pipeline, ikke alt fungerer som det skal. Vi skal arbeide med dette i neste uke.
Burde koden etterhvert omskrives fra perl til python?
Vi inviterer, tidligst veka 9.-13.12. (Trond)
Lars har svart på spørsmål, Trond og Chiara skriv dokumentasjon.
Det kjem ei lenke på korpussida på giellalt.
Vi vil sannsynlegvis bli invitert til å lage ein poster.
Chiara drar.