Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Sjur- og Trondmøte 1.10.2018

Saksliste

preprosessering, segmentering

Vi arbeider med hfst-pipeline, ser på diskusjonen og Bz.

Linda ser på dette i dagane som kjem. Vi ser alle på gullkorpus

Vi vil ta hfst-proc i bruk i cgi-bin og i smedis (Trond)

Arbeidet med LIA og Korp held fram (Ciprian, innspel frå alle).

Tentativ klassifisering av setningsgrenseidentifisering:

Abbr-transitivitet:

Tentativ rettesnor:

Korrekt tekst:

Grammatikkontroll:

Irrelevante taggar i disamb-analysatorane

Lene har fjerna irrelevante taggar for samiske språk, Trond ser på andre språk.

Bugzilla

Buggar opna i september

      Sev  Pri Assign  Reportr Comp      Summary                                                  Comment&Action
2517  cri  P2  Jack    Lene    Morpholo  xfst sms does not compile: doesn't find ProperNoun-smi-  - easy, should be done imm -> P1
2516  enh  P5  Børre   Lene    Corpus a  smn analysen inneholder <smn> tagger                     - Trond + Sjur ser på dette
2513  enh  P5  Sjur    Lene    Continua  V+Ex/IV+Der/PassS+V+                                     - major, requires time -> P3
2512  maj  P2  Thomas  Lene    Continua  Analyse for dynamiske sammensetninger bokstav + tall     - ikkje berre Thomas, alle må sjå på dette --> møte
2511  enh  P5  Sjur    Lene    Analysis  tegn som ikke blir gjenkjent som missing                 - private use, irrelevant
2510  enh  P5  Lene    Lene    Tags      Ha acronymer som er propernouns i smi-propernouns        - krev diskusjon -> møte
2509  maj  P2  Børre   Lene    Corpus a  HFST-korpusanalysen klarer ikke URLer                    - berre på Linux ser det ut til (Stallo, hjå Børre), melding sendt til hfst
2508  nor  P5  Ciprian Sjur    lookup2c  lookup2cg forvrenger sma-lemma                           - er det noko å prioritera? Sjå på det, evt WONTFIX?
2507  nor  P5  Sjur    Sjur    Analysis  Handteringa av tvetydig setningsinndeling og abbr        - jobbar med saka
2506  nor  P4  Thomas  Lene    Continua  Skrivefeil som blir godtatt som Px-substantiver          - ventar på at Thomas blir frisk

Ny prioritering? Sjå merknader over, i merknadsfeltet til høgre.