Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Page Content

Møte om sme-dict 23.8.2011

Til stades: Ciprian, Berit, Biret, Lene, Trond.

Saker

Bakgrunn

Alle ord frå visse bøker inn i ordbøkene.

Hvordan gjør vi det med hermetegnord?

Sára beaivvegirji = For å la språket vise til 11 år gamal jente bruker forfattaren ordet “ambulansemann”.

  1. Skal dei med?
  2. Viss ja, korleis?
<re>om kvinner</re>
<style>litterær</style>

Kjeldetilvisng som attributt for x og xt:

<x src="S.B. Johansen 2010: Sárá beaivegirji s. 21">... dakkár ilgadis olmmošlágan filbmasivdnádus, mii lea eambbo robohtalágan go olbmolágan.</x>

Dette må inn i DTD-en!

Grammatisk informasjon om rørsleadverbial

bajimussii

         <tg>
			<re>bevegelse til</re>
            <t pos="adv">øverst</t>
+            <t pos="adv">til øverst</t>   <==== ny
            <xg>
               <x>Dál leige mu vuorru fas goargŋut bajimussii.</x>
               <xt>Nå var det igjen min tur å klatre helt øverst.</xt>

  <e src="nj" usage="vd">
      <lg>
         <l attr="no" context="none" pos="a">skoavddas</l>
         <lc>skoavdasat</lc>
      </lg>
      <mg>
         <tg>
            <re>om masse</re>   <===== lagt til
            <t pos="a">hul</t>
            <te>f.eks. snø eller is</te>   <===== fjerna
            <xg>
               <x>skoavdeláibi</x>
               <xt>hult brød</xt>
            </xg>
            <xg>
               <x>Jiekŋa lea skoavddas.</x>
               <xt>Isen har hulrom.</xt>
            </xg>
         </tg>
      </mg>
   </e>

Hvordan legge til ord som bare er ord nr 2 i faste uttrykk (f.eks. binná banná) - lage et felt for link til ord nr 1?

háluid - link til hiluid med eksempel med hiluid háluid - binná bánná

mwe_smenob.xml:

  <e usage="vd">
      <lg>
         <l attr="no" context="none" pos="adv">hiluid háluid</l>
      </lg>

jfr-felt, med link for synonymer?

Initialt i <mg>:
<syn lemmaID="buohccebiila" /> → vise til eit synonym
<ant lemmaID=""> ↛ vise til eit antonym
<hyponym> ↓ vise til eit meir spesifikt ord
<hypernym> ↑ vise til eit meir overordna ord
<obs> vær obs på dette (bajimussii -> bajimusas) !
   <e usage="vd">
      <lg>
         <l pos="n">balloŋŋa</l>
         <lsub extrapage="yes" pos="n">balluvdna</lsub>
         <!-- extrapage="yes" er default -->
      </lg>
      <mg>
         <tg>
            <t pos="n">ballong</t>
         </tg>
      </mg>
   </e>

      <lg>
         <l pos="n">kantuvra</l>
         <lsub extrapage="no" pos="n">kántuvra</lsub>
      </lg>

te vs. re

ieža = sjøl (om flere)

inc-listtut

Til saman 604 nye ord.

inc-today.csv:

njenecagiella _**n**_ nenetsisk språk ___ a2
itáliagiella _**n**_ italiensk språk ___ a2

news.1056.missing_nouns.csv:

áviisa _**n**_ avis
bálkkašupmi _**n**_ pris| belønning| premie _**Munnje lea stuora gudni oažžut dán bálkkašumi.**_ For meg er det en stor ære å få denne prisen.
ávvudeapmi _**n**_ feiring| fest _**Saami álbmotbeaivvi almmolaš ávvudeapmi lea kulturviesus.**_ Den offisielle markeringen av samefolkets dag er på kulturhuset.
proseassa _**n**_ prosess
indiána _**n**_ indianer

Format som i xxx_smafin.txt

amma _**pcle**_ toki $ pas | päs

TODO:

  1. Trond rydder listene og evt. sletter det som ikke er oversatt.
  2. Ciprian lager om til xml-format i en egen fil.
  3. BM redigerer i xmlMind.
  4. Deretter legger Ciprian dem inn i de eksisterende filene.

kompileren (smenob)

Etter at man har lagt til/sjekka ca 604 oversatte ord fra inc-lister pluss incliste fra “Čábbámus iđitguovssu”

Når? 15. september skal det være klart for kompilering:

Neahtta vs VD

Cip oppdaterer nettordboka annakvar veke.

nob-x

Mål for snuing: 1. oktober.

Hva er målet med ordboksarbeidet?

Enkeltord

Vi gikk gjennom lista fra Sárá beaivegirji, se words/dicts/smenob/inc/inc_sara_beaivegirji_sorted.txt