Grammatikkontrollmøte 13.5.2014
Til stades: Linda, Sjur
Tidsrom: 13:20-14:15
Semantisk annotering
- mer enn halvparten av substantivleksikonet er annotert (Linda)
- revision 94020: 41395/80594 (51.36%)
- det som er mest arbeidskrevende er utviklinga av meningsfulle kategorier
og kategorisering av ord innafor disse kategoriene
- når taggene er på plass vil det være lettere å annotere leksikonet til
andre språk
Semantiske tagger i grammatikkontroll
- for å finne sammensatte ord som ikke er skrevet sammen (utelukke visse
sammensetninger basert på semantikken av første og andre leddet)
- finne objekt til visse verb og på grunnlag av det finne kasusfeil
- finne feil i adposisjonsfraser
- finne realworderrors basert på semantisk kontekst
Guesser
For ukjente navn og andre ukjente ord som stavekontrollen ikkje kan hjelpe med.
- i CG: med regex
- i morfologisk analysator
Falske positiver
- evt når en “feil” form ble skrevet i kursiv og dermed er et sitat (er det mulig å løse dette?)
To do
- legge teknisk til rette slik at Francis kan fortsette med arbeidet (Sjur)
- lage en gullstandard med minst 1000 setninger (Linda, men ikke ennå)
- fortsette med den semantiske tagginga av leksikonet, definere semantiske
kategorier (Linda)