Giellatekno-møte 3.4. 2018
Tilstede: Chiara, Ciprian, Trond, Lene
Saksliste
- Oppsummering og status
- LIA
- Små driftsmidler-søknad
- NFR-søknader
- ICALL
- Stedsnavn Statens Kartverk
- NRK Sápmi har teksting lenkja til lydfiler
Oppsummering og status
Lingvistikkmøte 1 MWE
- LIA-materialet
- legg vi inn som Err/Lex i sme inntil vidare. Dette vil vere
aktuelt for andre samiske språk
- MWE 1: Sámegiela% ja% sámi% girjjálašvuođa% mastergrádaoahppu
- Det er ikkje bra å ha store fleirordsuttrykk i standard-FST-en
- grammatikkontrollgruppa vil ha det i grammatikkontroll-FST-en
(med ein -
- MWE 2: New York
- MWE-korrigering
< {gurut} "@P.Pmatch.Backtrack@" { bealde} > adv ;
Lingvistikkmøte 2: bindestrek
Vi må avklare Giellagáldu sin posisjon i denne saka.
Servarar osb
Sjur og Børre var her, Chiara hadde problem med Konteksta
(plassproblem), sysadminproblem. Etter møte før påske skreiv
Børre til IT-avd, og vi kan få nye servarar denne veka.
Forrest:
- Vi har sletta xtdoc/gtuit2
- Vi skal ha felles techdoc
[https://giellalt.uit.no/infra/system/Serveroppgradering.html]
LIA
- Over til hfst i analyse av materiale
- Endre formatet frå LIA-output til input for analysatorane våre
- Lia-annotatorane bruker ein del spesielle teikn (#, +1, ##, …) som vi må
prosessere. Det finst ei lenkje til liste over desse symbola: http://tekstlab.uio.no/LIA/transkripsjon.html
- Lene og Ciprian snakker sammen om dette
- Lingvistisk analyse i eigen tier
- MT i eigen tier
- Legge nob-ord til i egen fil som kan være med i kompileringa for alle språk?
- Integrere nob-fil i automake (etterhvert, ikke hast no)
- Syntaktisk analyse (CG) - egen speech-disambiguator.cg3, som inneholder INCLUDE disambiguator.cg3
- Integrere speech-disambiguator i automake?
Små driftsmidler-søknad, søknadsfrist 11. mai
- Små driftsmidler skal tildeles aktive forskere (i fast vitenskapelig stilling)
- Det kan tildeles fra kroner 10.000 til kroner 60.000 til formålet
- Bevilgningene er normalt ettårige
- Midlene tildeles til konkrete forskningsprosjekter
- Det er ikke krav til egenandel
- Det kreves ikke rapport ved prosjektavslutning
- Prioritering
- Prosjektets relevans sett i forhold til fakultetets forskningsstrategi
- Søkerens publikasjoner de to siste årene
- Pengane kan ikkje gå til:
- Bokinnkjøp
- Innkjøp av utstyr, inklusive datautstyr og smarttelefoner
- Støtte til å arrangere større konferanser
- Frikjøp
- Generell drift til forskningsgrupper
- Undervisningsrettede tiltak
Ideer
- Sørsamiske barnebøker (vi har tospråklige filer)
- arbeid: vitass, legge inn i korpus, tilpasse xsl-filer, aligning, sjekking
- forskning:
- Historisk samisk materiale (fra Finland)
- arbeid: sortere materialet etter ortografi, formulere konvertering til ny ortografi, legge inn i korpus, tilpasse xsl-filer
- forskningsartikkel:
- Annotering av skrivefeil
- arbeid: annotere
- forskning:
- Lage gullkorpus for arbeid med syntaks
- arbeid: rette automatisk analyse
- forskning:
NFR-søknaden
Trond og Lene arbeider med dette 3. april kl 14.
ICALL
Arbeid så langt: Morfologiske oppgåver. Vidare seinare: Syntaktiske.
- Konteaksta: Chiara har fiksa alle oppgåvene: Godkjenne begge formene er i boks.
- Layout er oppdatert.
- Lene skal finne flere tekster som passer til oppgavene. Kopi av korpustekster legges i static-files eller i biggies.
- legges i gtuit@divvun.no:Sites/static_files
- Arbeid med menyar slik at oppgvene blir produsert berre med tekst og ikkje i menyane.
- Skal testes med folk utafor GT, og deretter med lærere ved Nord-Troms VGS
- Vurdere søknad til TFK om tilpasning (programmering)
Stedsnavn Statens Kartverk
Lene tar kontakt med AKP, snakker først med Ciprian
NRK Sápmi har teksting lenkja til lydfiler
NRK Sápmi: lage multimediakorpus med oversettinger som ligger på deres nettside
- arbeid:
- innsamling
- programmering
- manuell gjennomgang av parallellisering osv
- Nettside
- forskningsartikkel om:
- Prosessen med å lage det synkroniserte korpuset
- Kodeveksling samisk/norsk
- Talespråkssyntaks
- Innhald