Language Technology at UiT The Arctic University of Norway

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Page Content

Møte om omsetjing 28.4.2017

Til stades: Børre, Sjur, Tomi, Trond, Lene (på bidix-saka)

Sakser:

TermWiki som input til Apertium-bidix

Utgangspunkt: arbeidet som Tomi har gjort i det siste.

Nye bidix-filer:

<e><p><l>oahppostoffa<s n="n"/><s n="sg"/><s n="acc"/></l><r>opetusaineisto<s n="n"/><s n="sg"/><s n="nom"/></r></p></e>
<e><p><l>oahppostoffa<s n="n"/><s n="sg"/><s n="nom"/></l><r>opetusaineisto<s n="n"/><s n="sg"/><s n="nom"/></r></p></e>
<e><p><l>oahppostoffa<s n="n"/><s n="sg"/><s n="gen"/></l><r>opetusaineisto<s n="n"/><s n="sg"/><s n="nom"/></r></p></e>

apertium-sme-fin.sme-fin.dix

    <e><p><l>oahpahus<s n="n"/></l><r>opetus<s n="n"/></r></p></e>

    <e><p><l>oahpponeavvu<s n="n"/><s n="g3"/></l><r>opetusmateriaali<s n="n"/></r></p></e>

    <e><p><l>goappašagat<s n="prn"/><s n="ind"/><s n="pl"/><s n="nom"/></l><r>molemmat<s n="prn"/><s n="nom"/></r></p></e>
    <e><p><l>goappašagat<s n="prn"/><s n="ind"/><s n="pl"/></l><r>molemmat<s n="prn"/><s n="pl"/></r></p></e>
    <e><p><l>goappašat<s n="prn"/><s n="ind"/><s n="pl"/><s n="nom"/></l><r>molemmat<s n="prn"/><s n="nom"/></r></p></e>
    <e><p><l>goappašat<s n="prn"/><s n="ind"/><s n="pl"/></l><r>molemmat<s n="prn"/><s n="pl"/></r></p></e>

    <e><p><l>ánsikta<s n="n"/><s n="sg"/></l><r>kasvot<s n="n"/><s n="pl"/></r></p></e>
    <e><p><l>ámadadju<s n="n"/></l><r>ansikt<s n="n"/><s n="nt"/></r></p><par n="maydetind__n"/></e>

TODO

termwiki lemma + POS:

… for kvart språkpar: sme-nob, sme-fin, sme-smn, sme-smj, sme-sma

OmegaT

[https://github.com/divvun/OmegaT-hfst-tokenizer] [https://giellalt.uit.no/mt/omegat/OmegaT.html#HFST+Tokenizer]

Dokumentasjonen på wiki er oppdatert.

Fst-fila i speller/-katalogen skal slutte på *-.hfstol (analyser-gt-norm-se.hfstol).

Alle oppslag i glossary-lista skal ha standardisert lemmaform, ingen variantar. Variantane blir fanga opp av fst-en.

TODO

apertium/trunk/

cat se-nb.dix |grep '<e>'|cut -d">" -f4|cut -d"<" -f1|sort|uniq|hfst-proc ~/apertium/trunk/apertium-sme-nob/sme-nob.automorf.hfst |grep '\*'|wc -l

Originalreferat her: [http://pad.spline.de/dkPs1svMtO]