The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages
Referat, Giellateknomøte, 25. mars.
Trond, Ciprian, Lene
Trond orienterte om prosjektsøknaden Weight-training til ERC + diskusjon.
Jussi og Lene sine kommentarar til Korp:
...originally published within about the past three decades and made available
by Sámi Korpus at UiT The Arctic University of Norway...
...texts made available by the Sámi korpus corpus at UiT...
...the more than two thousand occurrences of illudit ‘rejoice; celebrate’
in the available North Saami corpus (Sámi korpus) also include...
Idemyldring rundt namn:
SAMTE
Samte
SamT
samde
Konklusjon: Samte (forkorting for Sámi teaksta / samisk tekst / Saami text)
Cip: Short description of the author problem in Korp.
Lene har gått gjennom csv listene og Ciprian har generert nye xmlfiler:
100 % overlapp mellom lemma og tg i fad og gt: fad2merge check fad vs source xml meir informasjon i fad enn i gt
Innhald i fad2merge:
00_readme.txt
check_fad-vs-sna/
check_fad-vs-src/xml_data/auto/total/ total match men mer/annen info i fad, x = extra
check_fad-vs-src/xml_data/manual/ de med 'm', skal redigeres manuelt
fad-sna2merge/
inc/
full match, men mer informasjon, lagt fad2merge/check_fad-vs-src/xmldata, og er merka med x=”fad”
Døme:
<e usage="vd">
<lg>
<l pos="N">máksinnákca</l>
</lg>
<mg>
<tg xml:lang="nob">
<t decl="yyy" gen="m" pos="N">likviditet</t>
</tg>
</mg>
<mg x="fad">
<tg xml:lang="nob">
<t pos="N">betalingsevne</t>
</tg>
</mg>
<mg x="fad">
<tg xml:lang="nob">
<t pos="N">likviditetsforvaltning</t>
</tg>
</mg>
<mg x="fad">
<tg xml:lang="nob">
<t pos="N">likviditet</t>
</tg>
</mg>
</e>