Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Korpus-møte

Til stades: Børre, Sjur, Trond

nye metadata: kva slags bruk dokumentet er ok for (dokumentert med kva slags testar som har vorte køyrde)

Bruksområde

Krav til konvertering

Språkattkjenning

text_cat er frå Groningen, og perlbasert. Brendan Molloy har laga ein ny versjon, for sin eigen del og for “miljøet”, reinskrive i Python ut i frå artikkelen som Groningen-verktyet byggjer på.

TODO

automatiserte testar for så mykje som mogleg

Språkgjenkjenning og OCR-feil

Parallelle setningar

Gjeld berre parallelldokument

Status quo for innsamla data

Status quo for uinnsamla data

arbeidsprioritering framover

kjøpa meir arbeidskraft?

Andre saker?