The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages
atnu Sg Nom + N – atnuprográmmat = bruksprogrammer
* (1 Loc LINK *-1 COPULAS + Sg) - Nom Sg SUBJ - PLACE -
ii/sáhttá leat (Pl1 Pl3 Inf ConNeg) atnu programmain
* (1 Gen LINK *-1 COPULAS + Sg)
* (2 Po LINK -1 Gen LINK *-1 COPULAS + Sg) - dasa lea atnu programmaid ektui/ dasa lea atnu
* (0 <TH-Ill-Any> LINK *1 Ill BARRIER NPNH LINK *-1 COPULAS + Sg) - atnu programmaide: Lea/Gieđahallajuvvui atnu programmaide. / Liikon atnuprogrammaide.
* (1 (N Sg Ill Sem/Lang) %maybe not for all nouns %e.g. atnu sámegillii
* (1 (N Sg Loc Sem/Lang) % njálmmálaš atnu sámegielas ja virggálaš atnu dárogielas
* (1 (N Sg Loc Sem/Domain) %atnu ealáhusas
## Otne leat sihke neahtta-bálvalusat ja mobiila atnu prográmmat buotlágan dieđuid nugomat dálkedieđuid ja girdiáiggiid ja busseruvttuid ja gos lagamus falástallanrusttet lea .
#$ Viidáset atnu EO lea meroštallan ahte EO ja Norgga almmolaš dieđuid márkanárvu lea sullii 200 miljárdda ruvdno .
#$ , mas gieđahallojuvvui sámegiela sadji ja atnu bálvalusain .
## Buot dát ledje atnu dávvirat , maidda beaivválaččat lei dárbu .
## IEŠGUĐETLÁGAN GÁLVVUT : Bossogobis vuvde ee. goike duljiid , gápmagiid ja eará atnu biergasiid .
#$ – De ii leat atnu siidarájiide , muhto orohatrájiide .
#$ Lea bat dus atnu elefánttii ?
#$ – kulturdoahpaga problematiseren sámi oaidninsajis – sámi kultuvra siskkáldas atnu olgomáilmmi gáibadusaid ja vuordámušaid ektui – ealáhus ja kultuvra ; okta ja lágan guovllus guvlui ja álbmogis álbmogii .
#$ Ándd e-Márgget lei geahččalan cagahit heakkas searvvi , earát sáhtte álkibut dohkkehit ahte diekkárii ii lean atnu guovllus .
## Danne galggašii leat čielggas ahte giddodaga dábálaš atnu eana- ja vuovdedoallun ja mii gullá dákkár doibmii nugo lea dábálaš orohagas , ii galgga mearrádus dábálaččat heađuštit .
"<Dáža>"
"dáža" N Sem/Hum Sg Gen @>N MAP:16234:r227 SELECT:17941:r3504 #2->2
* **"dáža" N Sem/Hum Sg Gen Allegro REMOVE**: 3387
* **"dáža" N Sem/Hum Sg Acc @OBJ> MAP:17374:IfNoTransV< SELECT:17941**: r3504
* **"dáža" N Sem/Hum Sg Nom @SUBJ> MAP:17252 SELECT:17941**: r3504
"<ássanguovlluid>"
"ássanguovlu" N Sem/Plc Err/Orth Pl Gen @>N MAP:16234:r227 SELECT:17927:r3500 #3->3
"ássanguovlu" N Sem/Plc Pl Gen @>N MAP:16234:r227 SELECT:17927:r3500 #3->3
* **"ássanguovlu" N Sem/Plc Err/Orth Pl Acc @OBJ> MAP:17374:IfNoTransV< SELECT:17927**: r3500
* **"ássanguovlu" N Sem/Plc Pl Acc @OBJ> MAP:17374:IfNoTransV< SELECT:17927**: r3500
"<atnu>"
"atnu" N <TH-Ill-Any> Sem/Dummytag Sg Nom @SUBJ> MAP:17252 &compound-atnu #4->4 ADD:4424:compound-atnu ADD:4424:compound-atnu
"<Meara>"
"mearra" N Sem/Plc Sg Gen @>N MAP:16240:r229 #5->5
* **"mearrat" V TV Ind Prs ConNeg REMOVE:9356**: NotConNegNotNeg
* **"mearrat" V TV Imprt ConNeg REMOVE:9356**: NotConNegNotNeg
* **"mearrat" V TV Imprt Sg2 REMOVE:9395**: NotImprtN
* **"mearrat" V TV VGen REMOVE:9552**: r1842
* **"mearra" N Sem/Plc Sg Acc @OBJ> MAP:17374:IfNoTransV< REMOVE:17735**: r3440
"<buorre>"
"buorre" A Sem/Hum Sg Nom @>N MAP:15792:CaseAgrBuorre #6->6
"<guollebivdu>"
"guollebivdu" N Sem/Act Sg Nom @SUBJ> MAP:17252 #7->7
"<dat>"
"dat" Pcle @PCLE SELECT:4821:r895 MAP:15543:r16 #8->8
* **"dat" Pron Dem Sg Nom SELECT:4821**: r895
* **"dat" Pron Dem Pl Nom SELECT:4821**: r895
Leksikaliser alle særskrivingskandidatar i korpuset:
alternativ formulering:
leksikaliserte sammensetninger som er mindre frekvente en den særskrevne varianten
Kvifor får denne Err/SpaceCmp??
"<ovddasvástádus go>"
"ovddasvástádus" Err/Orth N Sem/Perc-emo Sg Nom Qst Err/Spellrelax Err/SpaceCmp <W:0>
Skjer òg med Foc/ge.
Kommando for å laga enkel frekvensliste over ting som får særskrivingsanalysar frå hfst-tokenise:
$ cat sme.corpus.txt | hfst-tokenise \
--giella-cg $GTHOME/langs/sme/tools/preprocess/tokeniser-gramcheck-gt-desc.pmhfst \
| cg-conv -N 2>/dev/null |grep -v $'Qst\|Foc\|^\t'|grep Err/SpaceCmp \
| cut -f1 | sort | uniq -c | sort -nr
t.d. [http://sprunge.us/LZIK] der dei mest frekvente (og dermed sannsynlege falske alarmar) er:
55 Dasa lassin
42 boahtte jagi
40 dán jagáš
28 dasa lassin
22 beaivválaš jođiheaddji
21 sámi kultuvrra
18 dađi bahábut
17 vuosttaš geardde
15 parlamentáralaš jođiheaddji
15 mannan vahkkoloahpa
15 jagi áigi
15 bures boahtin
15 boahtte áiggis
13 Dán jagáš
12 mannan vahkku
12 guhkit áigge
Merk at minst 481 av 1431 har Err/Spellrelax – Err/Spellrelax bør kanskje ikkje kunna stå saman med Err/Spacecmp? Eventuelt fjern tidleg i CG.
Går det an å ha ei liste med farleg tvetydige substantiv som aldri får Err/Spacecmp i leksikon?