The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages
View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no
Korpusmöte 25.11.2016
Áilu, Børre, Ciprian, Trond, Sjur
Ikkje noko skjedd
Børre finn ein god måte.
Andre forlag: Lag forfattarliste (Áilu) (etter at vi startar produksjon av korp_2016)
$GTHOME/xtdoc/divvun/src/documentation/content/xdocs/adm/legal/writers-and-books.fods
Etter Korp_2016.
Politisk vedtak: Dette skal bli gjort tilgjengeleg for språkteknologisk forsking og utvikling. Sjur snakkar med Anne-Britt Hætta om dette.
Vi ventar på metadata og tekst
Vi ventar på tekst, grc-prosjektet ser på dette
Nytt forsøk
Jf. Bz 2274
<?xml version="1.0" encoding="UTF-8"?><article>
<story id="3E6AF368-7769-4786-A33C-EACD78A3102D">
<p class="tittel smånytt">Dásseárvointegreren</p>
</story>
<story id="19014F7B-3542-43B3-996A-FD81A867FB9B">
<p class="tekst">Sámediggi ja 17 iežá ....duvvot.</p>
</story><story id="19014F7B-3542-43B3-996A-FD81A867FB9B">
<p class="tekst">Sámediggi ja 17 iežá ....</p>
</story>
<story id="3E6AF368-7769-4786-A33C-EACD78A3102D"><p class="tittel smånytt">Dásseárvointegreren</p></story></article>
Prosedyre:
korrektur
Prosessering i korrektur-katalogen er ei anna sak, men det ser ut til å vere mogleg å bygge korrektur-korpus automatisk.
Tiltak
korrektur
,
evt. ha dei i same converted, men med ei ccat-rutine, som tar berre korrekt
tekst til korpus, og korrektur-diff til spellertestingEitt txt-dokument med tekst på to eller fleire språk. (jf. tiltakslista ovarfor)
Om to veker, 9.12. kl. 09.30