Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Trond

Lene

brukere av korpuset. dvs.

Trond2

brukarperspektivet gjeld (bør gjelde) for oss alle:

Eit av problema med korpuset er jo at både brukarane og konverterarane i for liten grad har sett på resultatet.

Forslag

Brukarperspektiv:

Konverteringsperspektiv:

Feilbehandling

Automatisk generert feilskriving i news

bilde:Leif titt:Čiekčamat mtitt:Ii tekst:Álgočiekčamat ingress:Mannan byline:Johan BILDETEKST:Dá ÐMun ÐGalanihtoguovllus DagÈ ÒVassdalenisÓ oahpponeavvo-ráhkadeapmaiÓ

filer hvor de nordsamiske bokstavene er forsvunnet: Reportáaid Dieuid osv

Vi har ei felles common.xsl som blir brukt for alle konverteringar. Her er det mogleg å leggje inn ei retting av typen “bilde: LÁIDEJIT”.

Sametinget har enno ikkje (?) fått i stand ein klausul for språkteknologisk forsking for tekst produsert med støtte av Sametinget.

Samarbeidsavtalen mellom fylkeskommunane og Sametinget bør inkludera overlevering av samiske dokument (og norske parallellfiler) til den samiske korpussamlinga.

Wordcount bør være med i metadata.

metadata mangler i xml-filene: /apache_corpus/boundcorpus/orig/sme/news/Avvir_xml-filer/Avvir_2010_xml-filer (sjekka f.eks. year, ingen av filene inneholder ordet).