Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Page Content

T&S-møte

Saker

twolc-testing

Pair-test i twolc-fila

###  Positive testar:
### €# aerpie#eeke
### €0 aerpie-eeke

###  Negative testar:
### $# aerpie#eeke
### $0 aerpie0eeke

Testing fungerer på ein annan måte i hfst, og krev testdata på eit anna format. Omskriving er ikkje trivielt. Hfst-formatet ser slik ut:

g:g æ:æ h:h t:t j:j a:e %>:%> %^COMPDISIMP:0 b:b e:e

Sjur ber hfst-gjengen om å leggja til støtte for Xerox-par i hfst-pair-test, og køyrer ut twolc-testinga for Xerox.

korpus

KMD

Ingen tildelingsbrev enno - Sjur har skrive til dei og spurt.

smenob

Jf. e-post frå fran. Dette må det arbeidast med.

numra m.fl.

Jf. e-post frå trond. Nokre språk er skrivne mai:5, andre 5:mai. Alle språk må fylgja same logikk, og dei avvikande språka må skrivast om.

$ hfst-lookup -q sma/src/transcriptor-date2text-desc.hfst
> 2.2.
2.2.	goevten_mubpie_biejjie	0.000000

> 2.3.
2.3.	njoktjen_mubpie_biejjie	0.000000

Å gjera:

Vi bør også fikse [http://giellatekno.uit.no/num.nno.html] etc. Den bør bli integrert og få eitt språk.

sme i ny infra

I prioritert rekkjefylgje:

  1. +Err/Sub synleg i analysane
  2. dialektar

Jf. [/lang/sme/KompilereFST.html] - fst-spesifiseringane skal stemme med røyndomen (røyndomen må rettast).

SamEst

Trond kallar inn til møte.

hfst vs. xfst

Xfst/Xerox er eit problem, fordi dei ulike versjonane oppfører seg ulikt, og det gjer at ulike folk får ulike resultat med den same koden, og for nokre språk gjev Xerox og Hfst ulike svar.

Xfst-fordelar:

Svar:

xerox er eit bra verkty der det fungerer godt. hfst kan bli brukt i produksjon etterpå. For hfst i utviklingsarbeidet må vi evt. klare oss utan eit program hfst-twolc.

Sjur diskuterer dette eksplisitt med Hfors på eit tidspunkt.

BZ

BZ Open bugs: 170 bugs found.

blo-cri and P1-P2.

ID Sev Pri Assignee Reporter Comp Summary
1756 blo P2 heli1401@gmail.com lene.antonsen@uit.no Konteaks Konteaksta er hacket
1670 blo P4 borre.gaup@uit.no thomas.omma@uit.no Suggesti illegal compounds
906 cri P2 tomi.k.pieski@uit.no trond.trosterud@uit.no Systemat eee strings
1344 cri P2 sjur.n.moshagen@uit.no lene.antonsen@uit.no Compilat regex-filer for kompilering av ifst til dict og oahpa
1566 cri P2 lene.antonsen@uit.no lene.antonsen@uit.no sme-oahp Sahka: eksempelsvar fungerer ikke
1754 cri P2 sjur.n.moshagen@uit.no lene.antonsen@uit.no Compilat Filtrering av Use/NG bare for MT og Oahpa
1780 cri P2 borre.gaup@uit.no lene.antonsen@uit.no xml conv smj og sma er definert som sme
1430 maj P1 borre.gaup@uit.no linda.wiechetek@uit.no Corpus a metainformation gets mixed up with actual text
915 maj P2 tomi.k.pieski@uit.no thomas.omma@uit.no Systemat PlGen as first part and hyphenation:
1024 maj P2 tomi.k.pieski@uit.no lene.antonsen@uit.no Text cor ocr-feil og språkmerkingsfeil i sma
1296 maj P2 borre.gaup@uit.no trond.trosterud@uit.no Stem lex uløste problemer med abbr
1538 maj P2 trond.trosterud@uit.no sjur.n.moshagen@uit.no sme-oahp Number, clock and date fst’s are not properly documentet, no new infra version
1687 maj P2 maja.l.kappfjell@uit.no lene.antonsen@uit.no Continua Navn fra smi-propernouns.lexc lar seg ikke analysere/generere
1709 maj P2 trond.trosterud@uit.no lene.antonsen@uit.no sma morp Hætta blir til Hæ9tta
1712 maj P2 ciprian.gerstenberger@uit.no lene.antonsen@uit.no CGI (Int endring av pipe-line for sme (cgi)
1755 maj P2 maja.l.kappfjell@uit.no lene.antonsen@uit.no Stem lex Lemmaer forsvunnet fra sma-leksikon
1794 maj P2 trond.trosterud@uit.no lene.antonsen@uit.no NDS sme: Miniparadigme for substantiver mangler
1831 maj P2 ryan.txanson@gmail.com lene.antonsen@uit.no NDS sánit: Problemer med lokaliseringa: det dukker engelsk opp