Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Giellatekno-møte 11.09.2018

Tilstede: Ciprian, Trond, Chiara, Lene

Saker

Oppfølgjing frå førre møte

Trond følgjer opp preprocess-saka + tale.

Korp (Stockholm)

Korp (Uleåborg)

Nytt innhald + debugging Samansette ord på fleire linjer nedover PUNCT har framleis tomme entryar i grepkorpus

"<doaimma>"
        "doaibma" N Sem/Act Sg Gen @>N #2->3

"<skuvlladoaimma>"
        "doaibma" N Sem/Act Sg Gen @>N #2->3
                "skuvla" N Sem/Edu_Org Cmp/SgGen Cmp #2->3

"<jekkiidsuodjalanguovlu>"
        "guovlu" N Sem/Plc Sg Nom @HNOUN #4->2
                "suodjaleapmi" N Sem/Act Cmp/SgNom Cmp #4->2
                        "jeaggi" N Sem/Plc Cmp/PlGen Cmp #4->2
        "guovlu" N Sem/Plc Sg Nom @HNOUN #4->2
                "suodjaleapmi" N Sem/Act Cmp/SgNom Cmp #4->2
                        "jeaggi" N Sem/Plc Err/Orth Cmp/PlGen Cmp #4->2



$HLOOKUP $GTHOME/langs/sme/src/generator-gt-norm.hfstol
jeaggi+N+Cmp/PlGen+Cmp#suodjaleapmi+N+Cmp/SgNom+Cmp#guovlu+N+Sg+Nom        jekkiidsuodjalanguovlu
jeaggi+N+Sem/Plc+Cmp/PlGen+Cmp#suodjaleapmi+N+Sem/Act+Cmp/SgNom+Cmp#guovlu+N+Sem/Plc+Sg+Nom        jekkiidsuodjalanguovlu
(fungerer både med og uten semtagger)

Konklusjon:

[https://spraakbanken.gu.se/eng/research/infrastructure/korp/distribution/backend]

NDS

Posisjonsproblemet med søkeordet er fiksa. Viss søkeordet får to treff prioriterer vi det som har same streng. Chiara har implementert “facebook-feltet” som Sindre ville ha for sanat.

SSHRC

Frist i slutten av september, Lene, Trond, Sjur ser på dette.

LIA

Analyse:

Lene fikk 5 nye filer frå Kristin sist torsdag, disse blei sendt med morfologi og MT på fredag. Det er no 82 000 ord frå oss til LIA.

Det er saker opne med annotering, dette bør vi diskutere i Kautokeino. Retting av ortografi: Det burde være automatiske prosedyrer for å rette betre.

Cip og Joel var einig om at Joel skulle arbeide på den siste versjonen, der %+Fonetikk ikkje skulle vere med.

Debugging

Feilmelding til https://tekstlab.uio.no/glossa2/saami

  1. Feil søkeresultat (t.d. pronomen for substantiv)
  2. Feil pop-up-analyse (substantiv, men presentert med feil lemma eller feil analyse)
  3. Dobbel pop-up-analyse (!)
  4. Tekniske symbol i analysen (DCC)
  5. Lingvistiske feil i analyse
  6. Fjerne # frå MT_output, kanskje også *

Programmet for LIA-workshop

Onsdag med vekt på bruk av LIA Sápmi, torsdag meir internasjonalt og overordna perspektiv

Loggar

Trond har lagt inn oversyn over loggprosessar i priv/. Alle ser om det manglar noko, deretter ser vi på prosessering av loggane.

Haustplan

Alle oppdaterer planen sin, vi ser på prioriteringar neste gong.