The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages
View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no
Lingvistmøte smj & sme om tagger og adverber
Til stede: Inga, Sjur, Linda, Lene, Trond
Denne taggen er i bruk i noen språk:
+Use/-Spell !!≈ * **@CODE@** Orthographically correct, typically perifer words, excluded in speller because they cause trouble for frequent words (fra sme root)
lang-sme lan000$ cut -d '!' -f1 src/fst/stems/* |grep 'Use/-Spell' |wc -l 33
lang-sme lan000$ cut -d '!' -f1 src/fst/affixes/* |grep 'Use/-Spell' |wc -l 70
lang-smj lan000$ cut -d '!' -f1 src/fst/stems/* |grep 'Use/-Spell' |wc -l 85
lang-smj lan000$ cut -d '!' -f1 src/fst/affixes/* |grep 'Use/-Spell' |wc -l 28
lang-sma lan000$ cut -d '!' -f1 src/fst/stems/* |grep 'Use/-Spell' |wc -l 0
lang-sma lan000$ cut -d '!' -f1 src/fst/affixes/* |grep 'Use/-Spell' |wc -l 3
lang-sms lan000$ cut -d '!' -f1 src/fst/stems/* |grep 'Use/-Spell' |wc -l 0
lang-sms lan000$ cut -d '!' -f1 src/fst/affixes/* |grep 'Use/-Spell' |wc -l 14
lang-smn: 0
Linjene med denne taggen blir ikke med i normativ HFST. Vi diskuterte bruken.
TILTAK:
Denne taggen blei inført for å skille mellom homonymi i sme, mellom likestavelsesstammer som som vuorru og vuor’ru, og deretter utvida til også ord som ikke har homonymer, hvor det ikke skilles i skriftspråk mellom G2 og G3. Tilsvarende +G7 for dem som har G3 uten stadieveksling. I smj er den brukt på alle ord med slike geminater, uansett stamme. Dette var med tanke på TTS. Det blir ikke bruk for taggen for TTS, og derfor kan den fjernes, og beholdes kun for ord som trenger den for å skille mellom homonymer i Sg Nom.
Det har etterhvert blitt leksikalisert mange ord i adverbfila som kanskje ikke burde være der.
Iflg. Sammallahti 2007 er adverb bl.a. ord som ikke har lenger har fullt substantivparadigme. Vi bør derfor fjerne ord som har omtrent samme betydning som substantivet, f.eks. ruovttus
, som i PS ordbok ikke er oppslagsord, mens ruoktot er det. Dette må følges opp i CG3-filer, dict og MT-filer.
TILTAK: