The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages
View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no
Møte om korpuskonvertering og -parallellisering, 4.7. 2017
Til stades: Ciprian, Reetta, Risten, Trond
orig:
html/doc/pdf/txt
==> endring av ..
a. html: xpath
doc:
pdf: cm på arket
txt: linjenr
b. alle: str1/str2/str3/ -> rpl1/rpl2/rpl3
ikkje ha denne fila (feil språk)
xsl:
lenke til feil parallellfil
språkidentifikasjon
ulikt innhald
preprosessering.
Forbetre preprocess (Ciprian, sjå nedanfor)
parallellisering
Sjekke om filparet er korrekt parallellisert:
a. viss ja:
Flytt over til stable (sjå nedanfor)
b. viss nei
Sjekk om parallelliseringa kan rettast opp
i. Ja, det kan det
med betre input (sjå ovafor):
==> forbetre input og parallelliser på nytt
eller med betre parallelliseringsprogram (tca2)
(betre anchor-liste, betre tca2-parameter, ...)
==> forbetre tca2 eller anchor-nob-sma og parallelliser på nytt
ii. Nei, det kan det ikkje:
(dette er få filer)
==> manuelt arbeid og deretter flytt til stable
Flytt heile katalogen: svn mv prestable/tmx/nob2sma/folder/folder stable/tmx/nob2sma/folder/folder svn ci prestable/tmx/nob2sma/folder/folder stable/tmx/nob2sma/folder/folder
Flytt ei og ei fil: svn mv prestable/tmx/nob2sma/folder/folder stable/tmx/nob2sma/folder/folder/fil.tmx svn ci prestable/tmx/nob2sma/folder/folder stable/tmx/nob2sma/folder/folder/fil.tmx
Riktig form, riktig preprossessering
$ echo "Måantan, ruffien 10. b. 2017"|preprocess --abbr=tools/preprocess/abbr.txt
Måantan
,
ruffien
10.
b.
2017
Feil form, riktig preprossessering
$ echo "Måantan, ruffien 10.b. 2017"|preprocess --abbr=tools/preprocess/abbr.txt
Måantan
,
ruffien
10.
b.
2017
Riktig form, riktig preprossessering
$ echo "Måantan, ruffien 10. b."|preprocess --abbr=tools/preprocess/abbr.txt
Måantan
,
ruffien
10.
b.
Feil form, feil preprossessering
$ echo "Måantan, ruffien 10.b."|preprocess --abbr=tools/preprocess/abbr.txt
Måantan
,
ruffien
10
.
b.
Sjå også denne:
echo " sajos(at)samediggi.fi"|preprocess --abbr=tools/preprocess/abbr.txt
sajos
(
at
)
samediggi
.
fi
Relevant tekst i .xsl
This variable is used for epub or html files.
select contains comma separated xpath path pairs.
A path pair is separated by a semicolon.
Each path should start with .//body
Examples of valid pairs:
* .//body/div[1]/h2[1];.//body/div[3]/div[1]/h3[1]
* .//body/div[5];.//body/div[8]/div[3]/h1[1], .//body/div[11]/div[2];.//body/div[11]/div[5]