twolc-testing

klar for å bli rulla ut (berre xerox, vil kreva at dei fleste par blir retta)

Pair-test i twolc-fila

###  Positive testar:
### €# aerpie#eeke
### €0 aerpie-eeke

###  Negative testar:
### $# aerpie#eeke
### $0 aerpie0eeke

Testing fungerer på ein annan måte i hfst, og krev testdata på eit anna format. Omskriving er ikkje trivielt. Hfst-formatet ser slik ut:

g:g æ:æ h:h t:t j:j a:e %>:%> %^COMPDISIMP:0 b:b e:e

Sjur ber hfst-gjengen om å leggja til støtte for Xerox-par i hfst-pair-test, og køyrer ut twolc-testinga for Xerox.

korpus

Børre har kontakta Avvir, nye xml-data kjem
stort sett ferdig med å retta feil i konverteringa
- språkgjenkjenning? Enno ikkje bra nok, jf dev-korp - søk på lij, jih i sme

KMD

Ingen tildelingsbrev enno - Sjur har skrive til dei og spurt.

smenob

Jf. e-post frå fran. Dette må det arbeidast med.

numra m.fl.

Jf. e-post frå trond. Nokre språk er skrivne mai:5, andre 5:mai. Alle språk må fylgja same logikk, og dei avvikande språka må skrivast om.

$ hfst-lookup -q sma/src/transcriptor-date2text-desc.hfst
> 2.2.
2.2.	goevten_mubpie_biejjie	0.000000

> 2.3.
2.3.	njoktjen_mubpie_biejjie	0.000000

Å gjera:

sjekka/ endra Makefile.am med invert net for alle pråk for xfst
hfst fungerer sannsynlegvis som det skal (sjekk)
sjekka / skriva om lexc-koden for sme til same format som for dei andre

Vi bør også fikse [http://giellatekno.uit.no/num.nno.html] etc. Den bør bli integrert og få eitt språk.

sme i ny infra

I prioritert rekkjefylgje:

+Err/Sub synleg i analysane
dialektar

Jf. [/lang/sme/KompilereFST.html] - fst-spesifiseringane skal stemme med røyndomen (røyndomen må rettast).

SamEst

Trond kallar inn til møte.

hfst vs. xfst

Xfst/Xerox er eit problem, fordi dei ulike versjonane oppfører seg ulikt, og det gjer at ulike folk får ulike resultat med den same koden, og for nokre språk gjev Xerox og Hfst ulike svar.

Xfst-fordelar:

lett å installera - hent binærfiler
lett å testa twolc, xfst pga interne kommandoliner som kan brukast til utvikling og testing
Xerox er framleis/som oftast mykje raskare til å kompilera fst-ar

Svar:

be Krister og gjengen om å laga nedlastbare binærfiler for brukarane?
- finst for Windows? Kan de laga for Mac?
- er MacPorts eit mogleg alternativt svar? Ja
hfst-xfst har no ei kommandoline - svar 2.b
hfst-twolc har ikkje kommandoline for aka^WG osb.
- echo test hfst-lookup lang-hfst-twolc.bin

xerox er eit bra verkty der det fungerer godt. hfst kan bli brukt i produksjon etterpå. For hfst i utviklingsarbeidet må vi evt. klare oss utan eit program hfst-twolc.

Sjur diskuterer dette eksplisitt med Hfors på eit tidspunkt.

BZ

BZ Open bugs: 170 bugs found.

blo-cri and P1-P2.

ID	Sev	Pri	Assignee	Reporter	Comp	Summary
1756	blo	P2	heli1401@gmail.com	lene.antonsen@uit.no	Konteaks	Konteaksta er hacket
1670	blo	P4	borre.gaup@uit.no	thomas.omma@uit.no	Suggesti	illegal compounds
906	cri	P2	tomi.k.pieski@uit.no	trond.trosterud@uit.no	Systemat	eee strings
1344	cri	P2	sjur.n.moshagen@uit.no	lene.antonsen@uit.no	Compilat	regex-filer for kompilering av ifst til dict og oahpa
1566	cri	P2	lene.antonsen@uit.no	lene.antonsen@uit.no	sme-oahp	Sahka: eksempelsvar fungerer ikke
1754	cri	P2	sjur.n.moshagen@uit.no	lene.antonsen@uit.no	Compilat	Filtrering av Use/NG bare for MT og Oahpa
1780	cri	P2	borre.gaup@uit.no	lene.antonsen@uit.no	xml conv	smj og sma er definert som sme
1430	maj	P1	borre.gaup@uit.no	linda.wiechetek@uit.no	Corpus a	metainformation gets mixed up with actual text
915	maj	P2	tomi.k.pieski@uit.no	thomas.omma@uit.no	Systemat	PlGen as first part and hyphenation:
1024	maj	P2	tomi.k.pieski@uit.no	lene.antonsen@uit.no	Text cor	ocr-feil og språkmerkingsfeil i sma
1296	maj	P2	borre.gaup@uit.no	trond.trosterud@uit.no	Stem lex	uløste problemer med abbr
1538	maj	P2	trond.trosterud@uit.no	sjur.n.moshagen@uit.no	sme-oahp	Number, clock and date fst’s are not properly documentet, no new infra version
1687	maj	P2	maja.l.kappfjell@uit.no	lene.antonsen@uit.no	Continua	Navn fra smi-propernouns.lexc lar seg ikke analysere/generere
1709	maj	P2	trond.trosterud@uit.no	lene.antonsen@uit.no	sma morp	Hætta blir til Hæ9tta
1712	maj	P2	ciprian.gerstenberger@uit.no	lene.antonsen@uit.no	CGI (Int	endring av pipe-line for sme (cgi)
1755	maj	P2	maja.l.kappfjell@uit.no	lene.antonsen@uit.no	Stem lex	Lemmaer forsvunnet fra sma-leksikon
1794	maj	P2	trond.trosterud@uit.no	lene.antonsen@uit.no	NDS	sme: Miniparadigme for substantiver mangler
1831	maj	P2	ryan.txanson@gmail.com	lene.antonsen@uit.no	NDS	sánit: Problemer med lokaliseringa: det dukker engelsk opp

Language Technology at UiT

Page Content