Giellatekno-møte 11.09.2018
Tilstede: Ciprian, Trond, Chiara, Lene
Saker
- Oppfølgjing frå førre møte
- Korp
- NDS
- SSHRC
- LIA
- Loggar
- Haustplan
Oppfølgjing frå førre møte
Trond følgjer opp preprocess-saka + tale.
Korp (Stockholm)
- Ciprian lagar presentasjon frå oss
- Multilingual presentasjon av taggane
- Versjonar av Korp (github) 5.0.10 og (som test) 6.0.1 vs. Göteborg: 7.0.0
Korp (Uleåborg)
Nytt innhald + debugging Samansette ord på fleire linjer nedover PUNCT har framleis tomme entryar i grepkorpus
"<doaimma>"
"doaibma" N Sem/Act Sg Gen @>N #2->3
"<skuvlladoaimma>"
"doaibma" N Sem/Act Sg Gen @>N #2->3
"skuvla" N Sem/Edu_Org Cmp/SgGen Cmp #2->3
"<jekkiidsuodjalanguovlu>"
"guovlu" N Sem/Plc Sg Nom @HNOUN #4->2
"suodjaleapmi" N Sem/Act Cmp/SgNom Cmp #4->2
"jeaggi" N Sem/Plc Cmp/PlGen Cmp #4->2
"guovlu" N Sem/Plc Sg Nom @HNOUN #4->2
"suodjaleapmi" N Sem/Act Cmp/SgNom Cmp #4->2
"jeaggi" N Sem/Plc Err/Orth Cmp/PlGen Cmp #4->2
$HLOOKUP $GTHOME/langs/sme/src/generator-gt-norm.hfstol
jeaggi+N+Cmp/PlGen+Cmp#suodjaleapmi+N+Cmp/SgNom+Cmp#guovlu+N+Sg+Nom jekkiidsuodjalanguovlu
jeaggi+N+Sem/Plc+Cmp/PlGen+Cmp#suodjaleapmi+N+Sem/Act+Cmp/SgNom+Cmp#guovlu+N+Sem/Plc+Sg+Nom jekkiidsuodjalanguovlu
(fungerer både med og uten semtagger)
Konklusjon:
- Vi held fram med to preprosesseringsmetodar for Korp (xfst, hfst), og evaluerer skilnaden dei i mellom
- Prioritet: Presentere ny versjon av korpusinnholdet i Uleåborg
- Evalueringa av xfst/hfst vil vise kva versjon vi skal implementere det nye innhaldet med.
[https://spraakbanken.gu.se/eng/research/infrastructure/korp/distribution/backend]
NDS
Posisjonsproblemet med søkeordet er fiksa. Viss søkeordet får to treff prioriterer vi det som har same streng. Chiara har implementert “facebook-feltet” som Sindre ville ha for sanat.
SSHRC
Frist i slutten av september, Lene, Trond, Sjur ser på dette.
LIA
Analyse:
Lene fikk 5 nye filer frå Kristin sist torsdag, disse blei sendt med morfologi og MT på fredag. Det er no 82 000 ord frå oss til LIA.
Det er saker opne med annotering, dette bør vi diskutere i Kautokeino. Retting av ortografi: Det burde være automatiske prosedyrer for å rette betre.
Cip og Joel var einig om at Joel skulle arbeide på den siste versjonen, der %+Fonetikk ikkje skulle vere med.
Debugging
Feilmelding til https://tekstlab.uio.no/glossa2/saami
- Feil søkeresultat (t.d. pronomen for substantiv)
- Feil pop-up-analyse (substantiv, men presentert med feil lemma eller feil analyse)
- Dobbel pop-up-analyse (!)
- Tekniske symbol i analysen (DCC)
- Lingvistiske feil i analyse
- Fjerne # frå MT_output, kanskje også *
Programmet for LIA-workshop
Onsdag med vekt på bruk av LIA Sápmi, torsdag meir internasjonalt og overordna perspektiv
Loggar
Trond har lagt inn oversyn over loggprosessar i priv/. Alle ser om det manglar noko, deretter ser vi på prosessering av loggane.
Haustplan
Alle oppdaterer planen sin, vi ser på prioriteringar neste gong.