Sidan sist

Duommá

som vanligt i framtiden har han jobbat med testkorpuset
legge til tagger i leksikonet
samle falske positiver av kommaregler til Linda
testar hur reglerna funkar (hovedprøvekanin for grammatikkontroll)
tweakar lexikons och compound-tags i henhold till for exempel real word errors
legger till ord i listor før grammarcheckern
ser hur reglerna kan utvecklas
etc etc etc

Linda

[http://giellatekno.uit.no/bugzilla/show_bug.cgi?id=2363]:

#ADD:punct-sahcu (&punct-sáhcu) TARGET ("-" PUNCT) IF (NEGATE -1 CC);
    ## Muitalusat -girji

    # particle readings
    # -----------------


REMOVE:unspacecmp (Pcle) (0/0 ("mat" Pcle) LINK 0/2 N)(0 (N Pl Nom));
    ## bihtáidbargamat
    # assuming that mat only goes to verbs
    ## Dálkkádatrievdamat     dagahit stuorra hástalusaid álgoálbmotkultuvrraide , ealáhusheivehemiide ja servodatovdáneapmái .


REMOVE:unspacecmp (Pcle) (0/0 ("mat" Pcle) LINK 0/1 (N Sg Nom) OR (V Ind Prs Sg3 Err/Orth-a-á))(0 (N Pl Nom));
    ## Juohke vahkku lea sierra lekšuvdna ( plána ) mas ovdanbohtet doaimmat ja barggut , lohkamušat ja     logaldallamat.
    ## Fágaloggat ,     bagadallamat     ja profešuvdnamáhppa geavahuvvojit reaidun šaddat dihtomielalažžan iežas oahppamis.
    ## Sámi     vieruiduvvamat
    ## Ságastallamat     rivdet maiddái go oahppi álgá nuoraidskuvlii .
    ## Dát     čiekčamat     eai lágiduvvo eambbo okte juohke njeallji jagis .
REMOVE:unspacecmp (V Foc/gis) (0 (N Sg Loc));
    ## báikkálaš álbmogis
    ## Mii vuovdit gollosiid sidjiide geat eanemusat fállet bidjegis.
    ## 51_% galgá leahkit dan seamma     meinnegis     Stuorradikkis ovdal nu manná , muhto dasa mii goit leat bargame.

Problemord med analyse:

álbmogis
álbmogis    álbmot+N+Sg+Loc
álbmogis    álbmot+N+Sg+Acc+PxSg3
álbmogis    álbmot+N+Sg+Gen+PxSg3
álbmogis    álbmut+V+TV+Ind+Prs+Du1+Foc/gis
álbmogis    álbmut+V+TV+Ind+Prt+Pl3+Foc/gis

Saka er ferdig, vi legg til nye reglar i mwe-dis om det trengst (eller fjerner stiar i lexc).

Kevin

døme i webdemo redigerbare av andre enn meg
ckeditor-plugin, med webdemo (ikkje basert på SCAYT)
- http://gtweb.uit.no/gc/ck/
tilbakemeldingsmodul (divvun-suggest):
- xml-format har no defaults m/regex på tagg
- R:$2:17 betyr no «bytt ut ‘$2’ i tittel med/form til ordet med ID:17
  - ADDRELATION ($2) (&real-something) (0 (blah)) TO (*1 N);
  - “ord1” &real-something R:$2:17
  - “andreordimellom”
  - “ord2” N ID:17
  - errors.xml: $1 should be something-else when preceded by $2
pipelessness (bruk som bibliotek):
- heile pipelinen utanom hfst-tokenise kan no køyra utan bruk av pipes/IPC (Windows sitt stave-API tillet ingen interprogramkommunikasjon)
- https://github.com/unhammer/vislcg3/tree/StreamApplicator

Arbeid framover

Duommá

som vanligt i framtiden ska han jobbat med testkorpuset
legge til tagger i leksikonet
samle falske positiver av kommaregler til Linda
testa hur reglerna funkar (hovedprøvekanin for grammatikkontroll)
tweaka lexikons och compound-tags i henhold till for exempel real word errors
legge till ord i listor før grammarcheckern
se hur reglerna kan utvecklas
etc etc etc

Linda

fortsatt problemer med taggrekkefølge: jierpmálaš+A+Sg+Nom+Superl burde være jierpmálaš+A+Superl+Sg+Nom

"<jierpmálaš>"
      "jierpmálaš" A Sem/Dummytag Sg Nom <W:0> @<SPRED MAP:17047:r3339 &syn-super-part2 #7->7 ADD:11628:syn-super-part2
syn-super-part2
      "jierpmálaš" A Sem/Dummytag Sg Nom <W:0> @<SPRED MAP:17047:r3339 Superl &SUGGEST #7->7 COPY:11630:syn-super-part2
jierpmálaš+A+Sg+Nom+Superl      ?

TODO:

(X) Linda legg inn på Bugzilla
Kevin pratar med Tino

Kevin

tilbakemeldingsmodul (divvun-suggest)
- alternative forslag på same ord
- forslag på ord-med-subreadings?
pipeless bibliotek
- hfst-tokenise inn i pipeless-prototyp
- lesing av arkivformat
- kodereinsk

Vi må ha eit møte med hfst-gjengen (Krister og Sam) for å diskutera gjenståande saker med pmatch/tokenise. Kevin kjem med forslag til tider som passar han, og Sjur tek det opp med Krister og Sam. Saker vi vil ta opp:

kvifor blir pmhfst ca 3 gonger større enn input-fst?
kvifor er runtime-minnebruk 6-7 gonger større enn fst-fil?
er maskineriet kring tvetydig tokenisering ok? Kan det bli ein standard del av hfst-pmatch/-tokenise?

Language Technology at UiT

Page Content

Sidan sist

Duommá

Linda

Kevin

Arbeid framover

Duommá

Linda

Kevin

Sitemap