The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages
View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no
20202.10.27 Stavekontrolltesting
Til stades: Børre, Sjur, Tommi
Saker:
Ta utgangspunkt i https://github.com/divvun/divvunspell/ og accuracy-tester
accuracy-tester
genererer json-data. Må konverterast til noko som kan visast direkte i GitHub - kan vera MD eller noko som MD kan lenka til.
Testdata finst for alle språk i test/data/typos.txt
(TSV-fil).
Kva vi vil ha:
Data som må vera med:
TSV-format:
hash dato Release/description top1 top5 lower5 nosugg wrongsugg
accuracy-tester
Manglar i Brendan-versjonen:
Gamalt format, kolonner:
Brendan-format, kolonner:
Redigeringsavstand bør koma frå accuracy-tester
, dvs Rust, og skrivast ut i json-rapporten som ein del av testresultata. Noko i stil med:
{
"input": "mnngan",
"expected": "mænngan",
"edit_dist": 1, # <== nytt felt
"suggestions": [
{
"value": "mænngan",
"weight": 21.669922
},
...
],
"position": 0,
"time": {
"secs": 0,
"subsec_nanos": 5624911
}
},
Tommi prøver å leggja inn dette, spør Brendan om hjelp om det trengst. Forslag til Rust-crate: [https://docs.rs/distance/0.4.0/distance/]
Status 20202.11.4:
tools/spellcheckers/test/
(Sjur) - FERDIG