Grammatikkontrollmøte 7.3.2017
Til stades: Linda, Duommá, Kevin, Sjur
Saker:
- status
- arbeid framover
- NoDaLiDa
- anna?
status
Duommá:
- har halde fram med å byggja korpus over feil og rett
- veldig nyttigt, ser kva som må jobbes meir med, åså vilka eventuella regler som bara är å kasta bort
Bortkasta reglar: partitiv lokativ - två tolkningar:
- …2003 čavčča juolludan oasi
ruđaid… = høsten 2003 tilldelat en del pengar…. - …2003 čavčča juolludan oasi
ruđain… = høsten 2003 tilldelat en del av pengarna….
Linda:
- tegnsettingsregler, dvs. kommaregler
- sett for real-word error confusion pairs
- Namneforslag: GODivvun - GiellaOahppaDivvun GiellODivvun GOdivvun
- feedback formulering - utfordring - DUommá
- flere kasusregler subjekt vs. akk/gen
- feil i sammenheng med derivasjoner – Giellagáldu
- feil i ellipser (koordinering) – Giellagáldu
- jf «eg sikter til og snakkar om X» vs *«eg sikter og snakkar om X»
- maintenance: tilpassing til nye tagger, forandringer i disambigueringa etc.
Kevin:
- webdemo meir språkgenerell (jf. fao-demo), ein del bugfix, escaping
- småbugs m/hfst-tokenize; travis-testar
- html-støtte i errors.xml / tilbakemeldingstekst
- hfst-ospell-cg-prototyp – CG-reglar for å fjerna tullete forslag
Sjur:
- url-parsar - nyttig for gk? - ja
- litt perifert: jobba med ein ny versjon av MacVoikko -> MacDivvun - framtidig ramme for os-vid grammatikkontroll
- rydda og samla GC-dokumentasjonen - alt er no samla under techdoc/proof/gramcheck/
arbeid framover
- alternativ pipeline for enkle formatteringsfeil; inn i webdemo — Kevin
- anførselsteikn
- “kake” → «kake» – kanskje CG
- og « kake» → og «kake» — ikkje CG — Kevin
- parentesar:
- ubalanserte parentesar:
{kake] -> {kake}
- ubalanserte parentesar:
- anførselsteikn
- altern. pipeline, framhald:
- parentesar, framhald:
- 1.) :-)
- 2.) :-(((
- telefonnummer
- dato
- … og andre taluttrykk
- doble mellomrom, mellomromsfeil:
- kake ; ost → kake; ost
- og )eller → og) eller — ikkje CG — Kevin
- store vs. småbokstaver? — korpusgransking?
- parentesar, framhald:
- meldingar til brukaren — Duommá
- bruk nettdemoen for å sjekka resultata
- åtvaring ved forslag som er like input (divvun-suggest) — Kevin
- gjera det lettare å leggja til nye dømesetningar — Kevin
- leggja til fleire dømesetningar — Linda og Duommá
- alternativ pipeline med hfst-ospell-cg; inn i webdemo — Kevin
- xml-format for pipeline-spesifisering — Kevin
- vi har eit gamalt utkast, men det finst ikkje i svn; inn i svn — Kevin
- url-parsar: legg inn i gramcheck — Sjur
- errors.xml: liste med taggar/tagg-regex som skal ha same (korte) standardfeilmelding
For å få meir fleksibilitet, og mindre redundans utvider vi formatet for feilmeldingane til ~dette:
<defaults>
<default>
<errors>
<e re="real-.*"/>
<e id="real-ráđastaddat"/>
<e id="real-blah"/>
</errors>
<header>
<title lang=nn>Feilbrukt ord</title>
<title lang=en>Wrong word in context blah</title>
</header>
<default>
<errors>
<e id="missing-comma"/>
<e id="wrong-apos/>
</errors>
<header>
<title lang=en>Typographic thingy</title>
</header>
</default>
</defaults>
<error id="real-ráđastaddat">
<header><!-- is now optional, and only overrides default-titles, cf above -->
<title xml:lang="en">It should be "ráđastaddat" not "rađastaddat" "ráđastaddat"</title>
<title xml:lang="se">Galggašii leat "ráđastaddat" iige "rađastaddat" </title>
</header>
<body>
<description xml:lang="en">"$1" seems to be a spelling error, "ráđastaddat" seems to be a better choice.</description>
<description xml:lang="se">"$1" orru leamen čállinmeattáhus ja "ráđastaddat" orru heiveme buorebut.</description>
<examples>
<ex xml:lang="se">Bengtsson {rađastattai} visot omiid.</ex>
</examples>
</body>
</error>
<error id="real-vuovttat">
<body>
<description xml:lang="en"></description>
<description xml:lang="se"> "$1" orru buoret sázu haga</description>
<examples>
<ex xml:lang="se">Son jáhkii bártniid liikot buorebut {čuvges-vuovttat} nieiddaide.</ex>
</examples>
</body>
</error>
$-variablar:
- cg-analysen identifiserer alltid relevante ord med ein nummerert tagg
- dette ordet kan ein setja inn i feilmeldinga med ein dollartagg med same nummer
"<relevantkontekstord>"
"relevantkontekstord" ADV @F-SUBJ ID:1056
[…kanskjeandreord…]
"<eitordsomerfeil>"
"eitordsomerfeil" N &real-detretteordet R:$2:1056
Tilhøyrande feilmelding:
<error id="real-detretteordet">
<body>
<description xml:lang="en"></description>
<description xml:lang="se"> "$1" orru buoret sázu haga</description>
<examples>
<ex xml:lang="se">Son jáhkii bártniid liikot buorebut {čuvges-vuovttat} nieiddaide $2.</ex>
<ex xml:lang="nn">Etter «$2», bør «$1» stå i habitiv, ikkje medlativ. Eller så bør du skriva «$2» i ikkjetiv.</ex>
</examples>
</body>
</error>
$1 er alltid det ordet som har feiltaggen på seg, alle andre $n svarar til CG-relasjonen $n:
ADDRELATION ($2) (CC) (-1 (*)) TO (-1 (*));
Dette fungerer! Jf [http://beta.visl.sdu.dk/cg3/single/#rel-addrelation]
NoDaLiDa
Vi takkar nei, vi har ikkje høve.
anna?
Nei.