Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Giellateknomøte 9. mai 2018

Tilstede: Ciprian, Trond, Chiara, Lene

Saksliste

Serversaka

Konteaksta fungerer ikkje fordi serveren (gtoahpa) er full. Det blir også problem med bookmarklet.

Serveroppgradering

Trond tar kontakt med IT advelinga før lunsj i dag, dette er kritisk for oss.

Dette er IT:

Administrasjonen ved UiT
Seksjon for grunntjenester
Seksjon for digitale forskningstjenester
Seksjon for systemutvikling og arkitektur
Seksjon for digitale utdanningstjenester
Seksjon for brukernær IT-støtte

Alle orienterer

Preprosessering

Output for HFST fungerer for Konteaksta.

Trond og Sjur arbeider med output for forkortninger, vs. punktum som setningsgrense

Møte om dette med Lene, Trond, Kevin, Sjur og Linda.

Trond skriv e-post om dette, møte så snart som råd.

LIA

Scriptet Ciprian har laga er no klart til å bruke (inkludert MT).

Bibelen

Ciprian har testa mange ulike konverteringar til vår xml og har laget et tilpasset skript for å få ut både xml og txt.

Lene har analysert, og får relevante analyser på setningsnivå, og kan plukke ut setningene som de ønsker.

Det er eitt teikn som blir prosessert i lag med ordet (enkelt hermeteikn for sitat i sitat). Trond og Lene ser på problemet med teikn.

Ønske fra Bibelselskapet: “Så er det også brukt en del ukjente ord og uttrykk i teksten. Er det mulig for dere å lokalisere slike ad maskinell vei?”

Legge teksten inn i Korp-grensesnitt? Alternativer:

Lingvistikk:

Framdrift

  1. Diskutere med Bibelselskapet
  2. Sende missinglist til dem
  3. Legge inn missing i lexc
  4. Sende setningar som tekst

NDS

Lenkje til Korp

Paradigme på førstesida

Børres framlegg. Dette vil være problematisk pga mye informasjon, og lite ønskelig for mobiltlf. TODO: Rydd opp i grå boks.

Adresse for tilbakemelding til NDS

Vi må få en synlig knapp for tilbakemelding, helst med informasjon om hvilket ord brukeren ser på (dyp url). Helst mulighet for anonym tilbakemelding.

Ulike analysatorar for fkv

Trond har lagt den riktige analyseren i /opt/ og i sanat.config.yaml, og skal sjekke inn endringa i svn.

sms

Kompileringstida for sms er to timar. Det er noko gale der. Vi må sjå på det og diskutere med Jaska.

Lene tar kontakt med Jaska.

        - Warning:  Sublexicons defined but not used:
      A_NUORR A_AQLKHKHI A_VUAQMES GER-ESS_ GER-INSTR_ N_HYPOTEEQS PROP_KHEQRJJ
      TV_PIYKKLOOCHCHYD TV_VUAGGGAD V_PEITTAD

Det skal vere møte i Kautokeino 11.6. om NAV-løysingar på samisk. Trond er bortreist på møte. Lene har planlagt å ta fri den dagen.

Trond høyrer med Sjur.