Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Giellateknomøte 12.11.14

Nettsider/forrest

Saka blei ikke disktutert.

smenob/nobsme-ordbøker

Cip har rydda.

Samanslåing

No: Bli samd om format for evaluering av formene som skal bli slått saman, og om lappane vi skal bruke.

Lene har synspunkt på kva lapper vi skal bruke, og skriv eit framlegg. Vi tar det opp, og Cip genererer. Prioritering: Etter korpusoppdatering.

Metainformasjon til brukarar

nyinfraflytting, oppsummering

Eventuelle problem ser vi når vi skal bygge nye ting.

Planar framover

Trond:

Komponentane i planprosessen.

Lene:

Poeng: Prioritere

Viktig: Ting som fungerer, artiklar vi får publisert. Internasjonalisering eller ikkje. I kor stor grad?

Ciprian:

Ikkje enten/eller men heller selektivt både/og.

Vi held fram planprosessen.

16.1.-workshop

Trond refererte.

Trond/Sjur-møtet

Trond refererte

Genereringsproblem

Problemet er derivasjon.

Cip vil ha grunnform og POS.

Viss vi har POS* har vi derivasjon. Denne POS* peiker til final POS (gjeldande ordklasse).

Problemet er løyst i Laura sitt prosjekt. Overføring av denne løysinga til vårt korpus er problematisk.

Med ein mange-til-ein-relasjon mellom base og generert form vil det ikkje vere eintydig sti attende til base, vi vil få flere basar.

Ciprian vil ikkje tilby pseudo-lemma, men avleidd lemma med korrekt POS. Korrekt POS er ikkje noko problem, men å få korrekt lemma er eit problem.

Han får lemma som ???. Ein grunn til det er at lemma inneheld #.

Lene: Vi skal tilby berre leksikalisert lemma, ikkje dynamiske samansetjingar

et lite forskingsarbeid – ganske stort, eigentleg eg bruker alltid å seie at ny ortografi er for ungdommen – fødd etter 1975

ikkeordsfeil = feil som resulterer i nonsensord ekteordsfeil = feil som reesulterer i eksisterende ord

[[hoppe over feiltypar]

her har vi et nordsamisk ord == her har vi en oversikt over

TROND: i samisk fonologi er stavelse og takt sentral Bergsland 48 gir dermed namn til alle deler av de tre første stavelsene

  1. og 2. stavelse = første takt

Most frequent positions ==> the most frequnt positions where we have errors

i etter vokal er konsonant*

Divvun spellchecker evaluation

sa du kva som var N = (det kan du skrive på 78%-sliden

Phonological rules ==> Phonological rules in the spellchecker

Kanskje du ksal ha feite typar (eller fjerne kursivering) attom ordet til venstre for > for å skilje betre mellom ord og framlegg

foms > forms

possive > possessive

Disse formene dekker feilskriving i det absolutte paradigmet

Why use FST ==> Ny overskrift? Why should we still use FST and not a list-based speller? AND NOT JUST COLLECT THE WORDS FROM TEXTS

Are all our generated forms in use in the language

THE ONELINER, spissformuleringa:

fst-en genererer ikke-eksisterende former, og dekker dermed over skrivefeil. Vi må dermed kontrollere fst-en, og hindre den frå å generere former som aldri blir brukt

(Lene: endre rekkjefølgje her)


Possible limitations Trond: ulik farge på regel (første linje i strekpunkt) og eksempel (resten)

Trond: Ver meir eksplisitt: Innføring av disse 5 reglene (begrensingene på generering) vil gi en bedre stavekontroll

Limitations 6 adjektiv i korpus har Px .. spm: og kva slags former er det dei har?

Verbgenitiv Spesielt problematisk i stavekontrollsammenheng fordi den er kort

dahko -> dahkko atnon - > adnon For alle desse: kva er vanleg, kva er ekteordsfeil (kanskje du bør ha fargekode eller grå eller noko her

Looked at a corpus of 19 mill ==> Denne sliden er bra.

Prabably misspellings… Number of undetected misspellings

Nordsmisk spellchecker I DAG idnetifisererer …

Fonotaks er viktig ==> men her er programmet for dårlig? her er det potensiale?