Grammatikkontrollmøte 6.9.2017
Til stades: Duommá, Kevin, Linda, Sjur
Saker:
- sidan sist
- andre ting
- arbeid framover
Sidan sist
Kevin og Sjur har hatt møte i Helsingfors. Referat frå Helsingforsmøtet
her.
- (X) gjera ferdig zip-lesinga (les no hfst-ar frå minnet òg
[https://github.com/hfst/hfst/commit/355aaf9c], og Travis-testane fungerer)
- ( ) gjera ferdig gramcheck-lib – må prøve å lenka til det frå heilt eksterne
program, og ventar på at vislcg3-endringar kjem upstream (så det er enklare
for folk å bygga)
- (X) kommandolineverkty for gramcheck-lib
- ( ) bør m.a. kunna korrigera tekst i batsj-modus, slik at ein kan evaluera
grammatikkontrollen automatisk i høve til eit gullstandardkorpus
- ( ) bør kunna ta ei liste med attr-verdi-par som argument for å spesifisera
brukarval
- (-) bør ha ein modus der ein får ei liste med alle moglege brukarval, og
tilgjengelege verdiar for kvar av dei – kan visa og velja pipeline, men ikkje
brukarval innanfor pipeline
- ( ) byta ut modes-fila med xml-fila som er ein del av zip-fila, og generer
sh-skript frå den
- ( ) laga ein gramcheck-generator for å generera forslag (Sjur)
- (X) endra hfst-tokenise til ikkje å konvertera taggar til CG-format
- (X) … men gjer det i staden i fst-en med eit filter
endra tagg-parsinga til ikkje å vera avhengig av + som ein del av taggen
- ( ) skriva/dokumentera gramcheck-API
- ( ) lenka mot unicode-bibliotek og slå opp alle ord som har store bokstavar
som om dei hadde små
- som ein enkel preprosessering av input (+ soft-hyphen)
- ved runtime, så ingen eksplosjon i fst-en
- om dette fungerer, fjern A→a på førstebokstav av fst-en (dvs berre leksikalsk
form av kvart ord i fst-en)
- ( ) laga gjettarar for alle opne ordklasser, inkl morfologi
- sjekk om det går ut over fst-storleik
- sjekk om det går ut over analysefart
Linda & Duommá
- jobbar med testkorpuset
- legger til tagger i leksikonet
- samler falske positiver av kommaregler til Linda
- testar hur reglerna funkar
- tweakar lexikons och compound-tags i henhold till for exempel real word errors
- legger till ord i listor før grammarcheckern
- ser hur reglerna kan utvecklas, och om dom i det hela tatt er relevanta
- jobba med kongruensregler og barrierer (subjekt-verbal i enkle setninger)
- fiksa overgenereringer i mwe-dis og feil disambiguering i disambiguator
- fiksa modes (tokenisers istedenfor preprocess)
Nummer- og talprosesseringa må bli betre, med feiltaggar for feilaktige
taluttrykk. Døme:
"<163 - 250>"
"163 - 250" Num Arab Sg Acc <== Err/NumRange
"163 - 250" Num Arab Sg Gen
"163 - 250" Num Arab Sg Ill Attr
"163 - 250" Num Arab Sg Loc Attr
"163 - 250" Num Arab Sg Nom
Det skal vera:
Men - kva med tvetydige lesingar:
Ikte ledje dušše 163 - 250 olbmo leat boahtán odne.
Igår var det bare 163 - 250 mennesker har kommet idag. =
Igår var det bare 163 ; 250 mennesker har kommet idag.
Det finst (iallfall) tre ulike moglege rettingar, avhengig av kontekst:
163-250
minus utan mellomrom, berre gi dette forslaget i mattekontekst
163; 250
163–250
- kort tankestrek utan mellomrom
Matematisk bruk:
(men der skal det vel ikkje vera mellomrom?)
Integrering med stavekontroll
input:
"<ukjendord>"
"ukjendord" ?
output:
"<ukjendord>"
"ukjendord" ?
"forslag" A Stavekontroll
LIST ukjend = ?;
input:
"<kjent>"
"kjent" A
output, viss me stavar kjende ord òg:
"<kjent>"
"kjent" A
"forslag" A Stavekontroll
Vi vil prøva ut å setja inn stavekontrollen etter hfst-tokenise. rett etter
mwe-split, men før disambigueringa, ved å bruka hfst-ospell-cg
.
Stavekontrollen vil gje forslag med analyse, slik at vi kan disambiguera vekk
irrelevante forslag, samtidig som vi har betre data for resten av
dsiambigueringa (faktiske, moglege analyser istf spørsmålsteikn).
Vi vinn:
- betre forslag (irrelevante er disambiguert vekk)
- stavekontroll berre på ukjende ord (dersom det er det vi vel å gjera), dvs
vi bruker ikkje stavekontrollen på feilskrivne ord som vi har ein analyse på
(kanskje - vi skal vurdera om vi vil køyra stavekontrollen på alle ord,
slik at vi kanskje fangar opp ekteordsfeil som ikkje er dekt av reglane våre)
Vi tapar:
- fart - stavekontrollen kan vera sein når han skal generera forslag
- kompleksitet - meir komplekse cg-reglar?
LT-integrering?
LanguageTool er open kjeldekode for å integrera ein grammatikkontroll med LibreOffice, OpenOffice, Google Chrome og Firefox. Vi kan bruka integreringskoden deira for å få tilgang til vertsprogramma på ein enkel måte. Seinare kan vi kanskje bli ein alternativ backend til LT.
Fungerer ikkje interaktivt.
Testing og evaluering
Vi treng eit kommandolineverkty som kan nyttast til å testa og evalueringa
grammatikkontrollen. Her er to døme på korleis evalueringsresultata blir vist
i stavekontrolltestinga:
Andre ting
- referere til grammatikkontroll i phden min “Giellaoahpa Divvun” (GoDivvun)
arbeid framover
Kevin
- stavekontroll i CG-pipelinen
- testing av gramcheck-lib, finpuss, API-dokumentasjon
- evalueringssystem mot gullkorpus
- brukarval: hent liste over moglege feiltypar, skjul gitte typar
Linda
- teste subjekt-verbal kongruensfeil og fikse reglan
- teste kommaregler
Neste møte
Onsdag 27.9. kl 10.30