Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Disamb-čoahkkin 18.2.2013

Biret Merete, Lene, Ritva, Trond.

GEAVAHIT smedist ja smedis gohččomiid sihke ođđa ja boares fiillain:

see script/sent-proc.sh:
	DIS="$GTHOME/$lg/$l/src/$l-dis.rle"
=>	DIS="$GTHOME/$lg/$l/src/Nsme-dis.rle"  vs. DIS="$GTHOME/$lg/$l/src/sme-dis.rle"

Iskat doaibmágo ođđa fiila:

cat Testmapverbs | preprocess --abbr=bin/abbr.txt | usme | lookup2cg | vislcg3 -g src/Nsme-dis.rle | l

Iskat gokko njuolggadus doaibmá boares fiila

cat Testmapverbs | preprocess --abbr=bin/abbr.txt | usme | lookup2cg | vislcg3 -g src/sme-dis.rle --trace | l

Bargovuohki go áigu lasihit ollu njuolggadusaid oktanaga

(omd. SELECT Acc / REMOVE Gen- njuolggadusaid)

  1. kopiere sme-dis.rle-njuolggadusaid Nsme-dis.rle-fiilii
  2. rievdat seahtaid namaid nu ahte analysa doaibmá
  3. Merke buot dáid njuolggadusaid :X, omd REMOVE:Xr432
  4. Analysere testkorpus.txt ja eará fiillaid: Nsme-dis.rle --trace > analysa
cat analysa | tr " " "\n" | grep ':X' | sort | uniq -c | sort -nr | see

dál oainnát mo njuolggadusat doibmet

  1. Sáhtát omd sirdit bivnnoheamos njuolggadusaid sekšuvnna álgui, ja de dahkat 4. ja 5. ođđasit, ja de geahččat jávketgo muhtun njuolggadusat => eai leat dárbbašlaččat šat
  2. go háliidat dahkat juoidá radikála, de sáhtát álo iskat ovdal ja maŋŋel: sh script/testCGrules.sh ja buohtastahttit diff-loguid
  3. ale bala sihkkumis njuolggadusaid, dat gávdnojit sme-dis.rle-fiillas gos mii sáhttit viežžat daid fas
  4. Iskat mo njuolggadusat doibmet:
    1. Ráhkat alccesat cealkkafiilla testemii
    2. kopiere buot ovdamearkacealkagiid mat leat teastasekšuvnnas cealkka-fiilla bajimussii
    3. analysere cealkkafiilla –trace ja geahča mo njuolggadusat doibmet, vejolaččat fertet sirdit ovdamearkacealkagiid eará njuolggadusa vuollái
    4. go dađistaga lasihat ovdamearkacealkagiid dán fiilii, de dus šaddá hui ávkkálaš testenfiila danne go das leat cealkagat maid várás leat ráhkaduvvon njuolggadusat
cat cealkkafiilla | preprocess --abbr=bin/abbr.txt | usme | lookup2cg | vislcg3 -g src/Nsme-dis.rle --trace | l