Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Grammatikkontrollmøte 28.3.2014

Til stades: Linda, Fran, Sjur

Tidsrom: 11:10-12:30

Tekniske løsninger for generering av forslag

Eksempel: ?Áidna gii váilu dán govas lea bussevuoddji. Ii váillo eará go bussevuoddji dán govas.

* flytte på lemmata ved hjelp av tall
** 1 áidna -> 2 eará go
** 2 gii -> DELETE
** 3 váilu -> 1 ii váillo
** 4 lea -> DELETE
** 1-2-3-4 -> 2-1
* knytte ei synonymordbok til grammatikkontroll (foreslår Sjur)
** dette forutsetter digitalisering av ordboka
** og WSD av verb og substantiv

Prioritering - real word errors

* antakeligvis den største gruppe feil
* mye korpusmateriale fra Lene
* a/á-feil, hk-hkk-feil etc. er i utgangspunktet skrivefeil
* krever detaljert (av og til lemma/form-spesifisk arbeid pga. forskjellige homonymi-mønster for ulike ord
* vi må vite både hvordan lemmaet i teksten og lemmaet som skriveren i utgangspunktet ville bruke
reagerer i konteksten for å kunne skille mellom de to

Eksempel: et korp-søk på lemmaet “čohkat” gir 153 resultater, 12 er korrekt, 64 disambiguerings-feil (dvs. formen skal ha et anna lemma (čohkket, čohkkát, čohkka, čohkkedit, čohkánit, etc.) og 77 grammatiske (dvs. skrive-) feil

Tilpasse disambiguator - en balanseakt

* vi trenger en syntaktisk analyse for å kunne kjenne igjen feil i setninga (dvs. setningsledd må til en
viss grad være disambiguert)
* regler som annoterer gramatiske feil refererer til setningsledd, PoS etc. både i form av kontekst og
barrierer når en viss lesing av en form skal velges
* den syntaktiske analysen må være åpen nok for å ikke forkaste muligens korrekte lesinger, men likevel
være restriktiv nok for å gi en pålitelig syntaktisk analyse som feilanalysen kan basere seg på
* når det er en feil i setninga, feks et transitivt verb er skrevet feil slik at formen resulterer i et
intransitivt verb, så kan objektet til verbet evtl. ikke bli kjent igjen som objektet (kanskje det blir
analysert som et genitiv attributt isteden). Hvis regelen som skal finne feil refererer til objektet
som blir analysert som attributt, kan ikke regelen finne feilen. Derfor må enten

Feilkilder:

* NRK Sápmi: – Sus ferte varra eanet bálká vai sus lea seammá bálká go eará sátnejođiheddjiin, oaivvilda son. http://www.nrk.no/sapmi/samegillii/_-ii-doala-lohpadusa-1.11425242 (varra 'blod' - várra 'kanskje')
* korp

Søknader:

* Sámediggi-søknad: enten svar i mai 2014 (årets budsjett) eller januar 2015 (neste årets budsjett)
* EU-søknad 2015 (Francis foreslår å kooperere med fst-folk i Helsinki)
* Forskingsrådet september 2014 (vi har tid å avvente svaret til Sámediggi)

Teknisk

* re-installere libre office med språkinstillinger (Francis, Sjur)
* installere libre office (Linda)
* screenshots på norsk med samisk feedback