Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Page Content

20202.10.27 Stavekontrolltesting

Til stades: Børre, Sjur, Tommi

Saker:

Ta utgangspunkt i https://github.com/divvun/divvunspell/ og accuracy-tester

accuracy-tester genererer json-data. Må konverterast til noko som kan visast direkte i GitHub - kan vera MD eller noko som MD kan lenka til.

Testdata finst for alle språk i test/data/typos.txt (TSV-fil).

Kva vi vil ha:

TSV-fil og historisk graf

Data som må vera med:

TSV-format:

hash	dato	Release/description	top1	top5	lower5	nosugg	wrongsugg

Detaljert rapport

Manglar i Brendan-versjonen:

Gamalt format, kolonner:

Brendan-format, kolonner:

Redigeringsavstand bør koma frå accuracy-tester, dvs Rust, og skrivast ut i json-rapporten som ein del av testresultata. Noko i stil med:

    {
      "input": "mnngan",
      "expected": "mænngan",
      "edit_dist": 1,   # <== nytt felt
      "suggestions": [
        {
          "value": "mænngan",
          "weight": 21.669922
        },
...
      ],
      "position": 0,
      "time": {
        "secs": 0,
        "subsec_nanos": 5624911
      }
    },

Tommi prøver å leggja inn dette, spør Brendan om hjelp om det trengst. Forslag til Rust-crate: [https://docs.rs/distance/0.4.0/distance/]

Arbeid framover

Status 20202.11.4:

Ferdig