The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages
Tilstede: Ciprian, Trond, Chiara, Lene
Trond følgjer opp preprocess-saka + tale.
Nytt innhald + debugging Samansette ord på fleire linjer nedover PUNCT har framleis tomme entryar i grepkorpus
"<doaimma>"
"doaibma" N Sem/Act Sg Gen @>N #2->3
"<skuvlladoaimma>"
"doaibma" N Sem/Act Sg Gen @>N #2->3
"skuvla" N Sem/Edu_Org Cmp/SgGen Cmp #2->3
"<jekkiidsuodjalanguovlu>"
"guovlu" N Sem/Plc Sg Nom @HNOUN #4->2
"suodjaleapmi" N Sem/Act Cmp/SgNom Cmp #4->2
"jeaggi" N Sem/Plc Cmp/PlGen Cmp #4->2
"guovlu" N Sem/Plc Sg Nom @HNOUN #4->2
"suodjaleapmi" N Sem/Act Cmp/SgNom Cmp #4->2
"jeaggi" N Sem/Plc Err/Orth Cmp/PlGen Cmp #4->2
$HLOOKUP $GTHOME/langs/sme/src/generator-gt-norm.hfstol
jeaggi+N+Cmp/PlGen+Cmp#suodjaleapmi+N+Cmp/SgNom+Cmp#guovlu+N+Sg+Nom jekkiidsuodjalanguovlu
jeaggi+N+Sem/Plc+Cmp/PlGen+Cmp#suodjaleapmi+N+Sem/Act+Cmp/SgNom+Cmp#guovlu+N+Sem/Plc+Sg+Nom jekkiidsuodjalanguovlu
(fungerer både med og uten semtagger)
Konklusjon:
[https://spraakbanken.gu.se/eng/research/infrastructure/korp/distribution/backend]
Posisjonsproblemet med søkeordet er fiksa. Viss søkeordet får to treff prioriterer vi det som har same streng. Chiara har implementert “facebook-feltet” som Sindre ville ha for sanat.
Frist i slutten av september, Lene, Trond, Sjur ser på dette.
Lene fikk 5 nye filer frå Kristin sist torsdag, disse blei sendt med morfologi og MT på fredag. Det er no 82 000 ord frå oss til LIA.
Det er saker opne med annotering, dette bør vi diskutere i Kautokeino. Retting av ortografi: Det burde være automatiske prosedyrer for å rette betre.
Cip og Joel var einig om at Joel skulle arbeide på den siste versjonen, der %+Fonetikk ikkje skulle vere med.
Feilmelding til https://tekstlab.uio.no/glossa2/saami
Onsdag med vekt på bruk av LIA Sápmi, torsdag meir internasjonalt og overordna perspektiv
Trond har lagt inn oversyn over loggprosessar i priv/. Alle ser om det manglar noko, deretter ser vi på prosessering av loggane.
Alle oppdaterer planen sin, vi ser på prioriteringar neste gong.