Sjur og Trond, 134.10.14
Saksliste
- sme-flytting
- møterommet
- Sør-Afrika
- TTS
- Direkte nedlasting av fst-ar
- Teksting-korpus
- mobiltastatur
- ENG
- neste CLARINO-møte
sme-flytting
Yaml-testing
Ciprian har gamle paradigme frå VD, dei kan vi bruke som (utgangspunkt for) yaml-testar.
Vi vil ha testar etter:
- fortsetjingsleksikon (dette kan skriptast)
- sluttvokal
- rotvokal
- stammekonsonant
- rotkonsonant xx:x, x:y, xy:xxy (fyll ut for x og y) kontekst* trigger
Dokumentasjon for yaml-testane finst på: [/infra/infraremake/AddingMorphologicalTestData.html]
TILTAK: Ciprian tar eit utval frå VD-paradigmet og sett inn i
` main/langs/sme/test/src/gt-desc-yamls/ (der det ligg ei modellfil), evt.
main/langs/sme/test/src/gt-norm-yamls/`. Dette skjer etter Göteborg.
Korpustesting
Analyser eit rimeleg stort korpus med analysatorane frå både ny og gamal infra, sjekk at resultata er like eller kompatible.
- Lene analyserer korpus med fst frå ny og gamal infra
- diffen og output skal liggja i
$GTHOME/langs/sme/test/data/move/
- diffen og output skal liggja i
Oahpa-testing
Heli har genrerert og laga diffar, Lene har kommentert, vi fann ei lus i ny infra som no er retta. Vi treng ein ny diff -> Heli.
TILTAK:
- Heli må laga ein ny diff => Trond sender e-post
- diffen skal liggja i
$GTHOME/langs/sme/test/data/move/
- diffen skal liggja i
Møterommet
Vi har fått e-post frå Kyrre Soleng. Møte om ca 2 veker (i november).
Sør-Afrika
Trond har skrive e-post, vi ventar på svar.
TTS
Vi har ein betaversjon! Våre testarar bør få litt meir eksplisitt dokumentasjon.
Fleire betatestarar:
- Audun
- Per Edvard
- Nils Øyvind Helander + resten av språkavdelinga på SD
Børre lagar nettskjema med lydfilene, og deretter ber vi folk på FB om å testa.
Direkte nedlasting av fst-ar
Folk vil analysera sjølve, men vil ikkje ha heile pakka, og vil ikkje byggja frå kjeldekoden.
Språk? I prinsippet alle, men sme.
Kompiler på xserve, legg ut på static_files
Vi kan ha eit shellscript
Dei treng tre typar filer:
- Eksterne program:
- (hfst-)lookup
- vislcg3
- perl ~ hfst-tokenisering
- binære analysefiler
- analyser-gt-desc.hfst
- disambiguate.bin
- giella-skript:
- preprocess
- lookup2cg
Mål: vi lagar ei pakke som kan distribuerast og som inneheld alt bortsett frå eksterne verkty.
Timeplan? Vi må koma attende til saka.
Teksting-korpus
Vi får tilgang til eit korpus av samisk teksta TV-sendingar, frå univ i Joensuu. Men kravet er at det er lukka, og til forskingsformål.
Lukka ok, vi har ein lisens for det. Men vi kjem til å nytta deriverte data til produktutvikling til beste for det samiske samfunnet. Det må vera ok. Alle produkt er gratis og open kjeldekode.
TILTAK: Trond følgjer opp.
Mobiltastatur
For seg sjølv eller i langs? Trond: for seg sjølv.
ENG
Møte: kl 8. torsdag
Neste CLARINO-møte
Når? 1-2.12.2014 (UB er arrangør). Skal vi prata om Akan? Utveksla data?
Tiltak: skriva svar - men vi ventar, vi må prata meir.