The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages
View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no
T&S-møte
Saker
Pair-test i twolc-fila
### Positive testar:
### €# aerpie#eeke
### €0 aerpie-eeke
### Negative testar:
### $# aerpie#eeke
### $0 aerpie0eeke
Testing fungerer på ein annan måte i hfst, og krev testdata på eit anna format. Omskriving er ikkje trivielt. Hfst-formatet ser slik ut:
g:g æ:æ h:h t:t j:j a:e %>:%> %^COMPDISIMP:0 b:b e:e
Sjur ber hfst-gjengen om å leggja til støtte for Xerox-par i hfst-pair-test
,
og køyrer ut twolc-testinga for Xerox.
Ingen tildelingsbrev enno - Sjur har skrive til dei og spurt.
Jf. e-post frå fran. Dette må det arbeidast med.
Jf. e-post frå trond. Nokre språk er skrivne mai:5, andre 5:mai. Alle språk må fylgja same logikk, og dei avvikande språka må skrivast om.
$ hfst-lookup -q sma/src/transcriptor-date2text-desc.hfst
> 2.2.
2.2. goevten_mubpie_biejjie 0.000000
> 2.3.
2.3. njoktjen_mubpie_biejjie 0.000000
Å gjera:
Vi bør også fikse [http://giellatekno.uit.no/num.nno.html] etc. Den bør bli integrert og få eitt språk.
I prioritert rekkjefylgje:
+Err/Sub
synleg i analysaneJf. [/lang/sme/KompilereFST.html] - fst-spesifiseringane skal stemme med røyndomen (røyndomen må rettast).
Trond kallar inn til møte.
Xfst/Xerox er eit problem, fordi dei ulike versjonane oppfører seg ulikt, og det gjer at ulike folk får ulike resultat med den same koden, og for nokre språk gjev Xerox og Hfst ulike svar.
Xfst-fordelar:
Svar:
echo test | hfst-lookup lang-hfst-twolc.bin |
xerox er eit bra verkty der det fungerer godt. hfst kan bli brukt i produksjon etterpå. For hfst i utviklingsarbeidet må vi evt. klare oss utan eit program hfst-twolc.
Sjur diskuterer dette eksplisitt med Hfors på eit tidspunkt.
BZ Open bugs: 170 bugs found.
blo-cri and P1-P2.
ID | Sev | Pri | Assignee | Reporter | Comp | Summary |
---|---|---|---|---|---|---|
1756 | blo | P2 | heli1401@gmail.com | lene.antonsen@uit.no | Konteaks | Konteaksta er hacket |
1670 | blo | P4 | borre.gaup@uit.no | thomas.omma@uit.no | Suggesti | illegal compounds |
906 | cri | P2 | tomi.k.pieski@uit.no | trond.trosterud@uit.no | Systemat | eee strings |
1344 | cri | P2 | sjur.n.moshagen@uit.no | lene.antonsen@uit.no | Compilat | regex-filer for kompilering av ifst til dict og oahpa |
1566 | cri | P2 | lene.antonsen@uit.no | lene.antonsen@uit.no | sme-oahp | Sahka: eksempelsvar fungerer ikke |
1754 | cri | P2 | sjur.n.moshagen@uit.no | lene.antonsen@uit.no | Compilat | Filtrering av Use/NG bare for MT og Oahpa |
1780 | cri | P2 | borre.gaup@uit.no | lene.antonsen@uit.no | xml conv | smj og sma er definert som sme |
1430 | maj | P1 | borre.gaup@uit.no | linda.wiechetek@uit.no | Corpus a | metainformation gets mixed up with actual text |
915 | maj | P2 | tomi.k.pieski@uit.no | thomas.omma@uit.no | Systemat | PlGen as first part and hyphenation: |
1024 | maj | P2 | tomi.k.pieski@uit.no | lene.antonsen@uit.no | Text cor | ocr-feil og språkmerkingsfeil i sma |
1296 | maj | P2 | borre.gaup@uit.no | trond.trosterud@uit.no | Stem lex | uløste problemer med abbr |
1538 | maj | P2 | trond.trosterud@uit.no | sjur.n.moshagen@uit.no | sme-oahp | Number, clock and date fst’s are not properly documentet, no new infra version |
1687 | maj | P2 | maja.l.kappfjell@uit.no | lene.antonsen@uit.no | Continua | Navn fra smi-propernouns.lexc lar seg ikke analysere/generere |
1709 | maj | P2 | trond.trosterud@uit.no | lene.antonsen@uit.no | sma morp | Hætta blir til Hæ9tta |
1712 | maj | P2 | ciprian.gerstenberger@uit.no | lene.antonsen@uit.no | CGI (Int | endring av pipe-line for sme (cgi) |
1755 | maj | P2 | maja.l.kappfjell@uit.no | lene.antonsen@uit.no | Stem lex | Lemmaer forsvunnet fra sma-leksikon |
1794 | maj | P2 | trond.trosterud@uit.no | lene.antonsen@uit.no | NDS | sme: Miniparadigme for substantiver mangler |
1831 | maj | P2 | ryan.txanson@gmail.com | lene.antonsen@uit.no | NDS | sánit: Problemer med lokaliseringa: det dukker engelsk opp |