The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages
Saka blei ikke disktutert.
Cip har rydda.
No: Bli samd om format for evaluering av formene som skal bli slått saman, og om lappane vi skal bruke.
Lene har synspunkt på kva lapper vi skal bruke, og skriv eit framlegg. Vi tar det opp, og Cip genererer. Prioritering: Etter korpusoppdatering.
Eventuelle problem ser vi når vi skal bygge nye ting.
Trond:
Komponentane i planprosessen.
Lene:
Poeng: Prioritere
Viktig: Ting som fungerer, artiklar vi får publisert. Internasjonalisering eller ikkje. I kor stor grad?
Ciprian:
Ikkje enten/eller men heller selektivt både/og.
Vi held fram planprosessen.
Trond refererte.
Trond refererte
Problemet er derivasjon.
Cip vil ha grunnform og POS.
Viss vi har POS* har vi derivasjon. Denne POS* peiker til final POS (gjeldande ordklasse).
Problemet er løyst i Laura sitt prosjekt. Overføring av denne løysinga til vårt korpus er problematisk.
Med ein mange-til-ein-relasjon mellom base og generert form vil det ikkje vere eintydig sti attende til base, vi vil få flere basar.
Ciprian vil ikkje tilby pseudo-lemma, men avleidd lemma med korrekt POS. Korrekt POS er ikkje noko problem, men å få korrekt lemma er eit problem.
Han får lemma som ???. Ein grunn til det er at lemma inneheld #.
Lene: Vi skal tilby berre leksikalisert lemma, ikkje dynamiske samansetjingar
et lite forskingsarbeid – ganske stort, eigentleg eg bruker alltid å seie at ny ortografi er for ungdommen – fødd etter 1975
ikkeordsfeil = feil som resulterer i nonsensord ekteordsfeil = feil som reesulterer i eksisterende ord
[[hoppe over feiltypar]
her har vi et nordsamisk ord == her har vi en oversikt over
TROND: i samisk fonologi er stavelse og takt sentral Bergsland 48 gir dermed namn til alle deler av de tre første stavelsene
Most frequent positions ==> the most frequnt positions where we have errors
i etter vokal er konsonant*
Divvun spellchecker evaluation
sa du kva som var N = (det kan du skrive på 78%-sliden
Phonological rules ==> Phonological rules in the spellchecker
Kanskje du ksal ha feite typar (eller fjerne kursivering) attom ordet til venstre for > for å skilje betre mellom ord og framlegg
foms > forms
possive > possessive
Disse formene dekker feilskriving i det absolutte paradigmet
Why use FST ==> Ny overskrift? Why should we still use FST and not a list-based speller? AND NOT JUST COLLECT THE WORDS FROM TEXTS
Are all our generated forms in use in the language
THE ONELINER, spissformuleringa:
fst-en genererer ikke-eksisterende former, og dekker dermed over skrivefeil. Vi må dermed kontrollere fst-en, og hindre den frå å generere former som aldri blir brukt
(Lene: endre rekkjefølgje her)
Possible limitations Trond: ulik farge på regel (første linje i strekpunkt) og eksempel (resten)
Trond: Ver meir eksplisitt: Innføring av disse 5 reglene (begrensingene på generering) vil gi en bedre stavekontroll
Limitations 6 adjektiv i korpus har Px .. spm: og kva slags former er det dei har?
Verbgenitiv Spesielt problematisk i stavekontrollsammenheng fordi den er kort
dahko -> dahkko atnon - > adnon For alle desse: kva er vanleg, kva er ekteordsfeil (kanskje du bør ha fargekode eller grå eller noko her
Looked at a corpus of 19 mill ==> Denne sliden er bra.
Prabably misspellings… Number of undetected misspellings
Nordsmisk spellchecker I DAG idnetifisererer …
Fonotaks er viktig ==> men her er programmet for dårlig? her er det potensiale?