The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages
Giellatekno-møte 17.12.2015
Trond skriv brev til Laura si gruppe om eit møte på nyåret der vi ser på avslaget.
Vi registrerer nokre av ressursane våre med permanent URL og metadata.
Om kort tid har vi 23 datasett tilgjengelege: Korpora, ngram, frekvenslister, ordbøker (med ein viss kvalitet).
Registrering av metadata på COMEDI-editoren i Bergen.
Parallelltekster sme-smn:
gt/common/src/anchor.txt
3*, three*, thir* / 3*, tree* / 3*, golbm*, golmm* / 3*, kolme / 3*, gålmmå*, gålmå / 3*, golme* /
fought / kjempet, kjempa, sloss / doarui* / tappeli*, tapell* / oajbbu*, oajboj*, dårru*, doaroj* / dåar*, dåår* /
Mål: Fungerande pipeline første veka etter nyttår.
Trond og Ciprian ser på dette neste veke, etter Clarino.
<ciprian>
Hei,
jeg vil gjerne snakke også om
arbeid med audio-dataene og som jeg har forslått:
- bygging av en audio-korpus med pipeline lingende på vårt text-korpus
- dette kommer til bli relevant for language technology for spoken language
- Michael, Josh, and Jack have already a need for this kind of stuff
- I myself am thinking of an Oahpa++ with spoken language and even
gesture (agent programming, e.g., SARL http://www.sarl.io/about/index.html), kind of an teacher avatar
As I already mentioned, the work with audio data at GT is by far not sufficient to use it for serious LT projects,
not event the TTS stuff.
</ciprian>
<michael>
aber deine ideen gefallen mir. ich hatte vor einer weile auch mal die idee einer kleinen (und eigentlich recht banalen) audio-erweiterung für oahpa. ich erinnere nicht, ob ich dir auch darüber geschrieben habe. an trond hatte ich mal so eine grobe idee geschickt, ist aber schon lange her:
a) “dikta” - anstatt geschriebener wörter werden fünf audiodateien ausgegeben, man muss sie anhören und korrekt eintippen
b) “lyssna” - dito, eingetippt wird nur eine übersetzung.
wir hätten jetzt wahrscheinlich genügend (ich glaube es sind schon über 4000) skoltsaamische wörter, um eine testversion herzustellen. ich nehme an, dass jack die entsprechenden links demnächst in die xml-quelldateien einbaut.
</michael>