Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Møte om korpuskonvertering og -parallellisering, 4.7. 2017

Til stades: Ciprian, Reetta, Risten, Trond

Oversyn over prosessen

orig:
html/doc/pdf/txt
==> endring av ..
a.  html: xpath
    doc:
    pdf: cm på arket
    txt: linjenr
b.  alle: str1/str2/str3/ -> rpl1/rpl2/rpl3


ikkje ha denne fila (feil språk)

xsl:
lenke til feil parallellfil
språkidentifikasjon
ulikt innhald

preprosessering.
    Forbetre preprocess (Ciprian, sjå nedanfor)


parallellisering
    Sjekke om filparet er korrekt parallellisert:
    a. viss ja:
    Flytt over til stable (sjå nedanfor)
    b. viss nei
      Sjekk om parallelliseringa kan rettast opp
      i. Ja, det kan det
      med betre input (sjå ovafor):
      ==> forbetre input og parallelliser på nytt
      eller med betre parallelliseringsprogram (tca2)
      (betre anchor-liste, betre tca2-parameter, ...)
      ==> forbetre tca2 eller anchor-nob-sma og parallelliser på nytt
      ii. Nei, det kan det ikkje:
      (dette er få filer)
      ==> manuelt arbeid og deretter flytt til stable

Korleis flytte til stable:

Flytt heile katalogen: svn mv prestable/tmx/nob2sma/folder/folder stable/tmx/nob2sma/folder/folder svn ci prestable/tmx/nob2sma/folder/folder stable/tmx/nob2sma/folder/folder

Flytt ei og ei fil: svn mv prestable/tmx/nob2sma/folder/folder stable/tmx/nob2sma/folder/folder/fil.tmx svn ci prestable/tmx/nob2sma/folder/folder stable/tmx/nob2sma/folder/folder/fil.tmx

TODO-liste

  1. Bygg parallell struktur i stable (Ciprian)
  2. språkattkjenning fungerer ikkje (Ciprian) (viss “‘1’” og mlang = “sme” så alle språk) Same feil har vi i rusbound Spörsmål: Parallelliserer vi paragrafar med feil språk?
  3. preprocess (eksempel nedanfor)
  4. xpath-pair-avsnitt: Her treng vi dokumentasjon (sjå: “epub or html” nedanfor)

Eksempel

preprocess:

Riktig form, riktig preprossessering

$ echo "Måantan, ruffien 10. b. 2017"|preprocess --abbr=tools/preprocess/abbr.txt
Måantan
,
ruffien
10.
b.
2017

Feil form, riktig preprossessering

$ echo "Måantan, ruffien 10.b. 2017"|preprocess --abbr=tools/preprocess/abbr.txt
Måantan
,
ruffien
10.
b.
2017

Riktig form, riktig preprossessering

$ echo "Måantan, ruffien 10. b."|preprocess --abbr=tools/preprocess/abbr.txt
Måantan
,
ruffien
10.
b.

Feil form, feil preprossessering

$ echo "Måantan, ruffien 10.b."|preprocess --abbr=tools/preprocess/abbr.txt
Måantan
,
ruffien
10
.
b.

Sjå også denne:

echo " sajos(at)samediggi.fi"|preprocess --abbr=tools/preprocess/abbr.txt
sajos
(
at
)
samediggi
.
fi

epub or html

Relevant tekst i .xsl

        This variable is used for epub or html files.

        select contains comma separated xpath path pairs.
        A path pair is separated by a semicolon.
        Each path should start with .//body

        Examples of valid pairs:
        * .//body/div[1]/h2[1];.//body/div[3]/div[1]/h3[1]
        * .//body/div[5];.//body/div[8]/div[3]/h1[1], .//body/div[11]/div[2];.//body/div[11]/div[5]