Abbr

Støtte for alle språk no - men funkar ikkje (funkar berre for sme).

Det burde vera nok med (for xerox-basert abbr-generering):

./configure
make

Funkar berre for sme, hfst funkar for sma, ingenting for smj. Ei mogleg feilkjelde er at abbr.txt ligg i svn for sma og smj.

abbr.txt blir lagt i tools/preprocess/abbr.txt.

Trond har same problem som Sjur (testa med Hfst, ikkje Xerox).

Alternativ til abbr og preprocess

Vi vil over til fst-basert tokenisering og analyse. Det er no mogleg, men må testast og rettast. Kommando for ny preprosessering+analyse:

echo "text | hfst-proc2 --xerox \
tools/preprocess/tokeniser-disamb-gt-desc.pmhfst | cg-conv | l

Resultat med ulike opsjonar:

Direkte til CG-format (inneheld + og er dermed feil):

 echo "don" | hfst-proc2 --cg tools/preprocess/tokeniser-disamb-gt-desc.pmhfst
"<don>"
	"dohte" Pron Dem Sg Ill Attr
	"dohte" Pron Dem Sg Gen

Xerox-analyseformat:

echo "datne leah dr. Bergsland." \
|  hfst-proc2 --xerox tools/preprocess/tokeniser-disamb-gt-desc.pmhfst \
|  cg-conv \
|  vislcg3 -g src/syntax/disambiguation.cg3

"<datne>"
	"datne" Pron Pers Sg2 Nom
"<leah>"
	"lea" V Ind Prs Sg2 @+FMAINV
"<dr.>"
	"dr" N ABBR Attr
"<Bergsland>"
	"Bergsland" N Prop Sem/Plc Sg Nom
"<.>"
	"." CLB

Diskusjonspunkt (neste veke?):

handteringa av samansette ord (lemmaform)
handteringa av avleiinga (stjerne vs underlesingar)

Arbeidet med fst-basert tokenisering

Arbeidet må ordnast stegvis, og testast for kvart steg:

Steg 1)

cat tekst | preprocess --abbr=tools/preprocess/abbr.txt
cat tekst | hfst-proc2 tools/preprocess/tokeniser-disamb-gt-desc.pmhfst | grep -v '^$'

Steg 2)

 hfst-proc2 tools/preprocess/tokeniser-disamb-gt-desc.pmhfst
 analyser-disamb-gt-desc.*fst

Steg 3)

Dette blir eit arbeidspunkt: Viss vi skal unngå lookup2cg må det språkspesifikke innhaldet i den fila flyttast inn i fst-en.

 cg-conv
 lookup2cg

Steg 4)

Det kan henda at nokre endringar i andre komponentar krev endringar i disambigueringsfila. Dette må i så fall testast òg.

Gullkorpus for sme ligg i test/ (spør Lene)

Møte neste veke om arbeidspunkta: tysdag kl 9.30 (forslag, sjekk med andre). Deltakarar: Lene, Linda, Sjur, Trond.

Diskusjonen førre veka med Ciprian og Lene

ciprian har ikkje (nok) tid til ny infra
trond gjorde ting utan å sjekka alle konsekvensar -> jobben vart halvgjort

Vi analyserte dei noverande skripta, Trond deltek i diskusjonen pr e-post.

prosjekt framover - status og oversikt

Vi kjem attende til denne saka.

Sitemap

Language Technology at UiT

Page Content