Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Møte om feiloppmerking i korpus, 21.6.2021

Til stede:Inga, Linda, Thomas, Sjur

Korleis kan ein skilja på foreign (∞) og leksikalsk (€) feil?

{wrong}∞{error classification}

∞ = framand tekst

{ord}€{foreign|}

€ = leksikalske feil:

Problematiske tilfelle å passe på

Inga er veldig fornøyd med systemet hun bruker for SMJ.

konsekvenser: snakke med Børre om at det fungerer - test

Viktig for:

Lulesamiske eksempler

Kommandoar for å konvertera korpustekst til xml, og deretter trekkja ut med ‘foreign’

For å konvertera originaltekst til xml:

$ convert2xml --goldstandard orig/smj/ficti/other_files/dan-le-danna-infonuorra.correct.txt.xsl

For å konvertera éi korpusfil til tekst:

ccat -l smj -a -withforeign -c goldstandard/converted/smj/ficti/other_files/dan-le-danna-infonuorra.correct.txt.xml
ccat -a -withforeign goldstandard/converted/smj/news/NRK/2012 | see
ccat -a -withforeign goldstandard/converted/smj/news/NRK/2012 | gsed 's/¶/\n/g'

For å konvertera mange korpusfiler til tekst:

for f in $(find ./goldstandard/converted/smj -name '*.correct.*' ) ; do \
    bname=$(basename $f); ccat -a -withforeign $f | gsed 's/¶/\n/g' > tts/$bname; \
    done

Nordsamisk

ihtu+N+Err/Lex+Sem/Dummytag:ihºtu GOAHTI-U ;
sámi% statistihkka% fágaseminára+N+MWE+CmpNP/First+Err/Lex+Sem/Event:sámi% statistihkka% fágaseminára GOAHTI-A ; !tja

servicekantuvra+Err/Lex:service# KANTUR_N ;
sykehuonaš+N+Sem/Build+Err/Lex+Use/LIA:syke^huotna DAIVVAS ;
hovedsivva+N+Sem/Semcon+Err/Lex+Use/LIA:hoved^sivva GOAHTI-A ; !LIA
plasthálla+N+Err/Lex+G3+Sem/Build:plast9#hálºla GOAHTI-A ;

fleaska+N+Sem/Food+Err/Lex+Use/LIA:fleasºka GOAHTI-A ; !LIA
slakteriija+N+Err/Lex+Sem/Org:slakteri IIJA ;
slakteriija+N+Err/Lex+Sem/Org:šlakteri IIJA ;

noen ord legger vi til til det samiske leksikonet:`

Kommenterte/problematiske døme

{Gruppa}€{foreign|} Pamyua ja Phillip Blanchett.
Kittis šattai CD-artista go almmustahtii Dovddut ({Feelings}€{foreign|}) -álbuma.
--- Feelings -- namn

Sii leat juo {álggurájes}${noun,notcmp|álggu rájes}, jagis 1989, čuojahan punk, {hard}€{foreign|} {rock}${noun,mix|rohka} ja árbevirolaš navajomusihka seaguhusa.

{Revontultentie}€{foreign|} lea riikkaidgaskasaš johtalusfávli, ja ruovdegeaidnojohtalusa {ovddidanvuloš}£{noun,attr,gensg,nomsg,case|ovddidanvuloža} oktavuohtan leat evttohuvvon riikkaidgaskasaččat mearkkašahtti Jäämerenrata ja turismma dárbbuid doarju ruovdegeaidnooktavuohta Levii.
--- Revontultentie -- namn

Jovnna Ovllá oaččui {Norsk Kulturarvs ærespris}€{foreign|} 2012, Norgga Kulturárbbi {gudnibálkašumi}${noun,mix|gudnebálkkašumi} dá {moatti vahku áigge}£{po,pph,nomsg,gensg,case|moatti vahku áigi}.
--- Norsk Kulturarvs ærespris --- namn

#{Publisert}€{foreign|} 14.11.2012 10:59. {Oppdatert}€{foreign|} 14.11.2012 11:02.
Mii leat vásihan ahte leat áidna sámi NGO (eaktodáhtolaš organisašuvdna) guhte čállá gulaskuddancealkámuša almmolaš eiseválddiide Norggas dain áššiin mat gusket sámenissoniid dillái ja sohkabealdásseárvui, nu go NOU 2011:18 – {Struktur for likestilling}€{foreign|} ({‘}‰{cit|”}Dásseárvui vuogádat{’}‰{cit|”}).
--- Struktur for likestilling --- namn

Duogáš Son lea oahppan sosiálaekonoma, ja bargan ovdal {Norges}€{foreign|} {Rederiforbund:as}${prop,suf|Rederiforbundas} ja {Norges}€{foreign|} {Industriforbund:as}${prop,suf|Industriforbundas}.
--- burde blitt merka opp som ett ord: {Norges Rederiforbund:as}${prop,suf|Norges Rederiforbundas}


Enodaga gielddas ledje jagi 2010 loahpas 187, Gihttelis 11, {Muonios}∞{prop,foreign|Muonás} 5 ja Kolaris 2 sámegielaga.
--- jag hadde merkt opp Muonio som skrivefel (dollar) i yaml och errorthat før å få Muonás som førslag i gramkontrollen

{piera.balto@nrk.no}∞{url}

— Lehpet go meannudan {"}‰{cit|”}{mearrasámeáksuvnna}${noun,mix|mearrasámeakšuvnna}{"}‰{cit|”} {Nordkappa}∞{prop,foreign|Davvikáhpa} sámiid searvvis?

Loahpas de {arvvá}${verb,conc|arvá} {til og med}∞{adv,foreign|vel}.

{#Publisert}∞{nob} 22.11.2012 16:01. {Oppdatert}∞{nob} 22.11.2012 16:21.