T&S-møte 10.3.
Saker:
- Abbr
- Diskusjonen førre veka med Ciprian og Lene
- prosjekt framover - status og oversikt
Abbr
Støtte for alle språk no - men funkar ikkje (funkar berre for sme).
Det burde vera nok med (for xerox-basert abbr-generering):
./configure
make
Funkar berre for sme, hfst funkar for sma, ingenting for smj. Ei
mogleg feilkjelde er at abbr.txt ligg i svn for sma og smj.
abbr.txt blir lagt i tools/preprocess/abbr.txt.
Trond har same problem som Sjur (testa med Hfst, ikkje Xerox).
Alternativ til abbr og preprocess
Vi vil over til fst-basert tokenisering og analyse. Det er no mogleg, men må testast og rettast. Kommando for ny preprosessering+analyse:
echo "text | hfst-proc2 --xerox \
tools/preprocess/tokeniser-disamb-gt-desc.pmhfst | cg-conv | l
Resultat med ulike opsjonar:
Direkte til CG-format (inneheld + og er dermed feil):
echo "don" | hfst-proc2 --cg tools/preprocess/tokeniser-disamb-gt-desc.pmhfst
"<don>"
"dohte" Pron Dem Sg Ill Attr
"dohte" Pron Dem Sg Gen
Xerox-analyseformat:
echo "datne leah dr. Bergsland." \
| hfst-proc2 --xerox tools/preprocess/tokeniser-disamb-gt-desc.pmhfst \
| cg-conv \
| vislcg3 -g src/syntax/disambiguation.cg3
"<datne>"
"datne" Pron Pers Sg2 Nom
"<leah>"
"lea" V Ind Prs Sg2 @+FMAINV
"<dr.>"
"dr" N ABBR Attr
"<Bergsland>"
"Bergsland" N Prop Sem/Plc Sg Nom
"<.>"
"." CLB
Diskusjonspunkt (neste veke?):
- handteringa av samansette ord (lemmaform)
- handteringa av avleiinga (stjerne vs underlesingar)
Arbeidet med fst-basert tokenisering
Arbeidet må ordnast stegvis, og testast for kvart steg:
Steg 1)
cat tekst | preprocess --abbr=tools/preprocess/abbr.txt
cat tekst | hfst-proc2 tools/preprocess/tokeniser-disamb-gt-desc.pmhfst | grep -v '^$'
Steg 2)
hfst-proc2 tools/preprocess/tokeniser-disamb-gt-desc.pmhfst
analyser-disamb-gt-desc.*fst
Steg 3)
Dette blir eit arbeidspunkt: Viss vi skal unngå lookup2cg må det språkspesifikke innhaldet i den fila flyttast inn i fst-en.
cg-conv
lookup2cg
Steg 4)
Det kan henda at nokre endringar i andre komponentar krev endringar i disambigueringsfila. Dette må i så fall testast òg.
Gullkorpus for sme ligg i test/ (spør Lene)
Møte neste veke om arbeidspunkta: tysdag kl 9.30 (forslag, sjekk med andre). Deltakarar: Lene, Linda, Sjur, Trond.
Diskusjonen førre veka med Ciprian og Lene
- ciprian har ikkje (nok) tid til ny infra
- trond gjorde ting utan å sjekka alle konsekvensar -> jobben vart halvgjort
Vi analyserte dei noverande skripta, Trond deltek i diskusjonen pr e-post.
prosjekt framover - status og oversikt
Vi kjem attende til denne saka.