Language Technology at UiT The Arctic University of Norway

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Page Content

20202.10.27 Stavekontrolltesting

Til stades: Børre, Sjur, Tommi

Saker:

Ta utgangspunkt i https://github.com/divvun/divvunspell/ og accuracy-tester

accuracy-tester genererer json-data. Må konverterast til noko som kan visast direkte i GitHub - kan vera MD eller noko som MD kan lenka til.

Testdata finst for alle språk i test/data/typos.txt (TSV-fil).

Kva vi vil ha:

TSV-fil og historisk graf

Data som må vera med:

TSV-format:

hash	dato	Release/description	top1	top5	lower5	nosugg	wrongsugg

Detaljert rapport

Manglar i Brendan-versjonen:

Gamalt format, kolonner:

Brendan-format, kolonner:

Redigeringsavstand bør koma frå accuracy-tester, dvs Rust, og skrivast ut i json-rapporten som ein del av testresultata. Noko i stil med:

  {
   "input": "mnngan",
   "expected": "mænngan",
   "edit_dist": 1,  # <== nytt felt
   "suggestions": [
    {
     "value": "mænngan",
     "weight": 21.669922
    },
...
   ],
   "position": 0,
   "time": {
    "secs": 0,
    "subsec_nanos": 5624911
   }
  },

Tommi prøver å leggja inn dette, spør Brendan om hjelp om det trengst. Forslag til Rust-crate: [https://docs.rs/distance/0.4.0/distance/]

Arbeid framover

Status 20202.11.4:

Ferdig