Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Grammatikkontrollmøte 8.6.2016

Særskrivingsfeil

atnu Sg Nom + N – atnuprográmmat = bruksprogrammer

    * (1 Loc LINK *-1 COPULAS + Sg) - Nom Sg SUBJ - PLACE -
    ii/sáhttá leat (Pl1 Pl3 Inf ConNeg) atnu programmain
    * (1 Gen LINK *-1 COPULAS + Sg)
    * (2 Po LINK -1 Gen LINK *-1 COPULAS + Sg) - dasa lea atnu programmaid ektui/ dasa lea atnu
    * (0 <TH-Ill-Any> LINK *1 Ill BARRIER NPNH LINK *-1 COPULAS + Sg) - atnu programmaide: Lea/Gieđahallajuvvui atnu programmaide. / Liikon atnuprogrammaide.
    * (1 (N Sg Ill Sem/Lang) %maybe not for all nouns %e.g. atnu sámegillii
    * (1 (N Sg Loc Sem/Lang) % njálmmálaš atnu sámegielas ja virggálaš atnu dárogielas
    * (1 (N Sg Loc Sem/Domain) %atnu ealáhusas

    ## Otne leat sihke neahtta-bálvalusat ja mobiila     atnu prográmmat     buotlágan dieđuid nugomat dálkedieđuid ja girdiáiggiid ja busseruvttuid ja gos lagamus falástallanrusttet lea .
    #$ Viidáset     atnu EO     lea meroštallan ahte EO ja Norgga almmolaš dieđuid márkanárvu lea sullii 200 miljárdda ruvdno .
    #$ , mas gieđahallojuvvui sámegiela sadji ja     atnu bálvalusain     .
    ## Buot dát ledje     atnu dávvirat     , maidda beaivválaččat lei dárbu .
    ## IEŠGUĐETLÁGAN GÁLVVUT : Bossogobis vuvde ee. goike duljiid , gápmagiid ja eará     atnu biergasiid     .
    #$ – De ii leat     atnu siidarájiide     , muhto orohatrájiide .
    #$ Lea bat dus     atnu elefánttii     ?
    #$ – kulturdoahpaga problematiseren sámi oaidninsajis – sámi kultuvra siskkáldas     atnu olgomáilmmi     gáibadusaid ja vuordámušaid ektui – ealáhus ja kultuvra ; okta ja lágan guovllus guvlui ja álbmogis álbmogii .
    #$ Ándd e-Márgget lei geahččalan cagahit heakkas searvvi , earát sáhtte álkibut dohkkehit ahte diekkárii ii lean     atnu guovllus     .
    ## Danne galggašii leat čielggas ahte giddodaga dábálaš     atnu eana-     ja vuovdedoallun ja mii gullá dákkár doibmii nugo lea dábálaš orohagas , ii galgga mearrádus dábálaččat heađuštit .

"<Dáža>"
        "dáža" N Sem/Hum Sg Gen @>N MAP:16234:r227 SELECT:17941:r3504 #2->2
* **"dáža" N Sem/Hum Sg Gen Allegro REMOVE**: 3387
* **"dáža" N Sem/Hum Sg Acc @OBJ> MAP:17374:IfNoTransV< SELECT:17941**: r3504
* **"dáža" N Sem/Hum Sg Nom @SUBJ> MAP:17252 SELECT:17941**: r3504
"<ássanguovlluid>"
        "ássanguovlu" N Sem/Plc Err/Orth Pl Gen @>N MAP:16234:r227 SELECT:17927:r3500 #3->3
        "ássanguovlu" N Sem/Plc Pl Gen @>N MAP:16234:r227 SELECT:17927:r3500 #3->3
* **"ássanguovlu" N Sem/Plc Err/Orth Pl Acc @OBJ> MAP:17374:IfNoTransV< SELECT:17927**: r3500
* **"ássanguovlu" N Sem/Plc Pl Acc @OBJ> MAP:17374:IfNoTransV< SELECT:17927**: r3500
"<atnu>"
        "atnu" N <TH-Ill-Any> Sem/Dummytag Sg Nom @SUBJ> MAP:17252 &compound-atnu #4->4 ADD:4424:compound-atnu ADD:4424:compound-atnu
"<Meara>"
        "mearra" N Sem/Plc Sg Gen @>N MAP:16240:r229 #5->5
* **"mearrat" V TV Ind Prs ConNeg REMOVE:9356**: NotConNegNotNeg
* **"mearrat" V TV Imprt ConNeg REMOVE:9356**: NotConNegNotNeg
* **"mearrat" V TV Imprt Sg2 REMOVE:9395**: NotImprtN
* **"mearrat" V TV VGen REMOVE:9552**: r1842
* **"mearra" N Sem/Plc Sg Acc @OBJ> MAP:17374:IfNoTransV< REMOVE:17735**: r3440
"<buorre>"
        "buorre" A Sem/Hum Sg Nom @>N MAP:15792:CaseAgrBuorre #6->6
"<guollebivdu>"
        "guollebivdu" N Sem/Act Sg Nom @SUBJ> MAP:17252 #7->7
"<dat>"
        "dat" Pcle @PCLE SELECT:4821:r895 MAP:15543:r16 #8->8
* **"dat" Pron Dem Sg Nom SELECT:4821**: r895
* **"dat" Pron Dem Pl Nom SELECT:4821**: r895

Strategiar for å disambiguera særskriving vs å unngå falske alarmar

  1. Leksikaliser alle særskrivingskandidatar i korpuset:

  2. lag monogram og bigram av korpuset med frekvensinfo
  3. monogram med høgare frekvens enn tilsvarande bigram (for særskriving) blir leksikalisert
  4. bigram med høgare frekvens enn tilsvarande monogram er moglege falske alarmar, og går inn i eit cg-sett for ein forsiktig-modus

alternativ formulering:

leksikaliserte sammensetninger som er mindre frekvente en den særskrevne varianten

Litt feilanalyse, ting som må ordnast i lexc

Kvifor får denne Err/SpaceCmp??

"<ovddasvástádus go>"
        "ovddasvástádus" Err/Orth N Sem/Perc-emo Sg Nom Qst Err/Spellrelax Err/SpaceCmp <W:0>

Skjer òg med Foc/ge.

Kommando for å laga enkel frekvensliste over ting som får særskrivingsanalysar frå hfst-tokenise:

$ cat sme.corpus.txt | hfst-tokenise \
--giella-cg $GTHOME/langs/sme/tools/preprocess/tokeniser-gramcheck-gt-desc.pmhfst \
|  cg-conv -N 2>/dev/null |grep -v $'Qst\|Foc\|^\t'|grep Err/SpaceCmp \
|  cut -f1 | sort | uniq -c | sort -nr

t.d. [http://sprunge.us/LZIK] der dei mest frekvente (og dermed sannsynlege falske alarmar) er:

  55 Dasa lassin
  42 boahtte jagi
  40 dán jagáš
  28 dasa lassin
  22 beaivválaš jođiheaddji
  21 sámi kultuvrra
  18 dađi bahábut
  17 vuosttaš geardde
  15 parlamentáralaš jođiheaddji
  15 mannan vahkkoloahpa
  15 jagi áigi
  15 bures boahtin
  15 boahtte áiggis
  13 Dán jagáš
  12 mannan vahkku
  12 guhkit áigge

Merk at minst 481 av 1431 har Err/Spellrelax – Err/Spellrelax bør kanskje ikkje kunna stå saman med Err/Spacecmp? Eventuelt fjern tidleg i CG.

Går det an å ha ei liste med farleg tvetydige substantiv som aldri får Err/Spacecmp i leksikon?