Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Giellateknomøte 14.10.

Saksliste

Saker

programmerer-stillinga

Trond har snakka med Eystein, som delegerer intervjuansvaret til Trond. Administrasjonen kan ikke hjelpe til med det praktiske med intervjuene. Trond engasjerer en til å gjøre dette for oss.

phd-stillinger

programmerer phd.

Vi venter på instituttet.

lingvistisk phd

Trond tar opp saka.

bidix

ordbok til bidix

Ciprian sjekka inn i går:

smePOSsmnPOS

finsmn/trans_dict/all_sme2smn.csv

albma   A       rievtis A
albma   A       vuoigâ  A
albma   A       puigâ   A
albma   A       olmâ    A <===
albma   A       penttâ  A
albma   A       uálgis  A
albma   A       uálgispeln      A
albma   A       uálgispeeli     A
albma   A       piiŋušpeeli     A
albma   A       puigâ   A
albma   A       rievtis A
albma   A       vuoigâ  A
albma   A       olmâ    A
albma   A       penttâ  A
albma   A       olmâ    A

astat   V       enittiđ V
astat   V       kiergâniđ       V
astat   V       happiittiđ      V
astat   V       noddiđ  V
astat   V       ostâđ   V
astat   V       juovdâđ V
astat   V       ostâstuđ        V
astat   V       terttiđ V
astat   V       ostâđ   V   <===
astat   V       lijgodiđ        V

Desse skal over i bidix-format.

  1. Ciprian lager et skript for Levenshtein.
  2. Ciprian viser til filene
  3. Vi studerer filene, og
  4. diskuterer (denne veka)

Homonymi i bidix

finsmn/trans_dict$ wc -l all_sme2smn.csv  19390 all_sme2smn.csv
finsmn/trans_dict$ cut -f1 all_sme2smn.csv |sort -u | wc -l    6401
finsmn/trans_dict$ cut -f3 all_sme2smn.csv |sort -u | wc -l    9455

I dag har vi

 <e><p><l>gárdin<s n="n"/></l><r>kärdi<s n="n"/></r></p></e>
 <e><p><l>gárdin<s n="n"/></l><r>muorâkärdi<s n="n"/></r></p></e>

Når det er flere smn for en sme: generere apertium-sme-smn.sme-smn.lrx

Det er ulike modellar for å prioritere mellom ulike omsetjingar, status i fst, rekkjefølgje i ordboka, redigeringsavstand til sme, … Vi må sjå på dei når vi kjem så langt.

Automatarbeid, smn

Mål: Utnytte informasjonen i kolonnene i smn-ordbøkene

  1. Viss formene i kolonne y er bøyingsform av lemmaet i kolonne x er alt bra.
  2. Viss ikkje sjekkar vi.

Verb + bøyingsformer er:

cat smnfin/inc/2015/Saami-suoma_ERRATA_03072015.csv |grep 'đ '|cut -f1

Script: For ord nr 2, 3 på kvar linje, har dei lemma = ord 1?

Desse to filene har same innhald, og er dei som er i best stand.

aLanâddâđ  aLanâd
aLaniđ  allaan
a'ldadâllâđ  a'ldadâlâm
aldaniđ
a'ldediđ  aldeed
alediđ
a'lgâttiđ  aalgât
almaaštâllâđ  almaaštâlâm  ```

1. smnfin/inc/2015/Saami-suoma_ERRATA_03072015.csv
1. smnfin/src/Saami-suoma_ERRATA_03072015_smnfin.xml

cat finsmn/src/all_finsmn.xml |grep ‘wf=’

párustiđ rohhoođ harijdiđ korâstâllâđ kye'cistiđ iär'dudiđ härdiđ ha'rdâččiđ kye'cistiđ

I beste fall er dei to identisk, som her:

smnfin: addiittâllâđ addiittâlâm addiittâl finsmn: addiittâllâđ


Døme på verb med fleire enn ei wf:

“moostâm masta”>mostâđ</t> “ibárdâs paijeel”>moonnâđ</t> “iä’náduum iä’náduVá”>iä’náduđ</t>


Døme på verb med berre ei wf:

“ramâččâdâm”>ramâččâttâđ</t> “kobdánâd”>kobdánâddâđ</t> “kobdoot”>ko’bdottiđ</t> “uulât”>ulâttiđ</t> “olám”>olleeđ</t> “keelijd”>kelijdiđ</t>

cat finsmn/src/all_finsmn.xml |grep ‘wf=’|grep ‘đ</t>‘|sed ‘s/wf=/™/’|cut -d”™” -f2|grep ‘ ‘


Men i finsmn er einskildformer vs. fleirordsuttrykk disambiguert.

Lene og Trond ser på dette, med utgangspunkt i finsmn.

###  todo-lista

Trond og Ciprian ser på det.

##  Dubletter i korpus

Ciprian har prosessert data. Vi har dublettpar av to typer:

 (1) filer men nesten samme naven

2015-10-13/sme/news/minaigi/2000/75-103/nmk-buljoglad.txt.xml 2015-10-13/sme/news/minaigi/2000/75-103/_nmk-buljoglad.txt.xml

2015-10-13/sme/news/minaigi/2000/75-103/od-1999.txt.xml 2015-10-13/sme/news/minaigi/2000/75-103/_od-1999.txt.xml

2015-10-13/sme/news/minaigi/2000/75-103/od-ingaguttorm.txt.xml 2015-10-13/sme/news/minaigi/2000/75-103/_od-ingaguttorm.txt.xml … ```

(2) filer med uliker navn (se BZ bug #2092)

  1. Same fil med ulike namn
  2. Same fil med like namn med ulike konvensjonar
  3. Nesten same fil med ulike namn
  4. Nesten same fil med like namn med ulike konvensjonar

Tomi hadde eit skript for å sjekke dublettar i korpus.

Vi tar initiativ til eit møte med Divvun om dette.

Det er også andre dublettar:

Bug om dubletter i smn

Detmars invitasjon til Tübingen

November-desember?

Skrive til Detmar og:

framlegg om brukarloggar

Brukarloggar, ulike innfallsvinklar

Førebu oss på ei breitt perspektiv:

Fortelje om oss sjølv-foredrag (samiske språk, samisk språkteknologi)

Bruk av arbeidstid

Når det gjelder engasjementer og samarbeid med andre

Prioriterte område

Rommet

Sjur har kontakt med Kyrre, som diskuterer eit konkret tilbod med oss denne veka. Deretter diskuterer vi rom + framtidsperspektiv.

gtweb

… vart oppdatert denne veka. Det avslørte at don’t panic-sida ikkje var eksplisitt nok. Vi har etter det oppdatert dokumentasjonen, og den er betre.

Tiltak: Lene går gjennom dokumentasjonen og kommenterer.

Diskusjonen om artiklar (slutten av diskusjonen)