The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages
T&S-møte 10.3.
Saker:
Støtte for alle språk no - men funkar ikkje (funkar berre for sme).
Det burde vera nok med (for xerox-basert abbr-generering):
./configure
make
Funkar berre for sme
, hfst funkar for sma
, ingenting for smj
. Ei
mogleg feilkjelde er at abbr.txt ligg i svn for sma
og smj
.
abbr.txt
blir lagt i tools/preprocess/abbr.txt
.
Trond har same problem som Sjur (testa med Hfst, ikkje Xerox).
Vi vil over til fst-basert tokenisering og analyse. Det er no mogleg, men må testast og rettast. Kommando for ny preprosessering+analyse:
echo "text | hfst-proc2 --xerox \
tools/preprocess/tokeniser-disamb-gt-desc.pmhfst | cg-conv | l
Resultat med ulike opsjonar:
Direkte til CG-format (inneheld + og er dermed feil):
echo "don" | hfst-proc2 --cg tools/preprocess/tokeniser-disamb-gt-desc.pmhfst
"<don>"
"dohte" Pron Dem Sg Ill Attr
"dohte" Pron Dem Sg Gen
Xerox-analyseformat:
echo "datne leah dr. Bergsland." \
| hfst-proc2 --xerox tools/preprocess/tokeniser-disamb-gt-desc.pmhfst \
| cg-conv \
| vislcg3 -g src/syntax/disambiguation.cg3
"<datne>"
"datne" Pron Pers Sg2 Nom
"<leah>"
"lea" V Ind Prs Sg2 @+FMAINV
"<dr.>"
"dr" N ABBR Attr
"<Bergsland>"
"Bergsland" N Prop Sem/Plc Sg Nom
"<.>"
"." CLB
Diskusjonspunkt (neste veke?):
Arbeidet må ordnast stegvis, og testast for kvart steg:
cat tekst | preprocess --abbr=tools/preprocess/abbr.txt
cat tekst | hfst-proc2 tools/preprocess/tokeniser-disamb-gt-desc.pmhfst | grep -v '^$'
hfst-proc2 tools/preprocess/tokeniser-disamb-gt-desc.pmhfst
analyser-disamb-gt-desc.*fst
Dette blir eit arbeidspunkt: Viss vi skal unngå lookup2cg må det språkspesifikke innhaldet i den fila flyttast inn i fst-en.
cg-conv
lookup2cg
Det kan henda at nokre endringar i andre komponentar krev endringar i disambigueringsfila. Dette må i så fall testast òg.
Gullkorpus for sme
ligg i test/
(spør Lene)
Møte neste veke om arbeidspunkta: tysdag kl 9.30 (forslag, sjekk med andre). Deltakarar: Lene, Linda, Sjur, Trond.
Vi analyserte dei noverande skripta, Trond deltek i diskusjonen pr e-post.
Vi kjem attende til denne saka.