The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages
Giellateknomøte 14.10.
Trond har snakka med Eystein, som delegerer intervjuansvaret til Trond. Administrasjonen kan ikke hjelpe til med det praktiske med intervjuene. Trond engasjerer en til å gjøre dette for oss.
Vi venter på instituttet.
Trond tar opp saka.
Ciprian sjekka inn i går:
sme
finsmn/trans_dict/all_sme2smn.csv
albma A rievtis A
albma A vuoigâ A
albma A puigâ A
albma A olmâ A <===
albma A penttâ A
albma A uálgis A
albma A uálgispeln A
albma A uálgispeeli A
albma A piiŋušpeeli A
albma A puigâ A
albma A rievtis A
albma A vuoigâ A
albma A olmâ A
albma A penttâ A
albma A olmâ A
astat V enittiđ V
astat V kiergâniđ V
astat V happiittiđ V
astat V noddiđ V
astat V ostâđ V
astat V juovdâđ V
astat V ostâstuđ V
astat V terttiđ V
astat V ostâđ V <===
astat V lijgodiđ V
Desse skal over i bidix-format.
finsmn/trans_dict$ wc -l all_sme2smn.csv 19390 all_sme2smn.csv
finsmn/trans_dict$ cut -f1 all_sme2smn.csv |sort -u | wc -l 6401
finsmn/trans_dict$ cut -f3 all_sme2smn.csv |sort -u | wc -l 9455
I dag har vi
<e><p><l>gárdin<s n="n"/></l><r>kärdi<s n="n"/></r></p></e>
<e><p><l>gárdin<s n="n"/></l><r>muorâkärdi<s n="n"/></r></p></e>
Når det er flere smn for en sme: generere apertium-sme-smn.sme-smn.lrx
Det er ulike modellar for å prioritere mellom ulike omsetjingar, status i fst, rekkjefølgje i ordboka, redigeringsavstand til sme, … Vi må sjå på dei når vi kjem så langt.
Mål: Utnytte informasjonen i kolonnene i smn-ordbøkene
Verb + bøyingsformer er:
cat smnfin/inc/2015/Saami-suoma_ERRATA_03072015.csv |grep 'đ '|cut -f1
Script: For ord nr 2, 3 på kvar linje, har dei lemma = ord 1?
Desse to filene har same innhald, og er dei som er i best stand.
aLanâddâđ aLanâd
aLaniđ allaan
a'ldadâllâđ a'ldadâlâm
aldaniđ
a'ldediđ aldeed
alediđ
a'lgâttiđ aalgât
almaaštâllâđ almaaštâlâm ```
1. smnfin/inc/2015/Saami-suoma_ERRATA_03072015.csv
1. smnfin/src/Saami-suoma_ERRATA_03072015_smnfin.xml
cat finsmn/src/all_finsmn.xml |grep ‘wf=’
I beste fall er dei to identisk, som her:
smnfin:
addiittâllâđ addiittâlâm addiittâl
finsmn:
Døme på verb med fleire enn ei wf:
“moostâm masta”>mostâđ</t> “ibárdâs paijeel”>moonnâđ</t> “iä’náduum iä’náduVá”>iä’náduđ</t>
Døme på verb med berre ei wf:
“ramâččâdâm”>ramâččâttâđ</t> “kobdánâd”>kobdánâddâđ</t> “kobdoot”>ko’bdottiđ</t> “uulât”>ulâttiđ</t> “olám”>olleeđ</t> “keelijd”>kelijdiđ</t>
cat finsmn/src/all_finsmn.xml |grep ‘wf=’|grep ‘đ</t>‘|sed ‘s/wf=/™/’|cut -d”™” -f2|grep ‘ ‘
Men i finsmn er einskildformer vs. fleirordsuttrykk disambiguert.
Lene og Trond ser på dette, med utgangspunkt i finsmn.
### todo-lista
Trond og Ciprian ser på det.
## Dubletter i korpus
Ciprian har prosessert data. Vi har dublettpar av to typer:
(1) filer men nesten samme naven
2015-10-13/sme/news/minaigi/2000/75-103/nmk-buljoglad.txt.xml 2015-10-13/sme/news/minaigi/2000/75-103/_nmk-buljoglad.txt.xml
2015-10-13/sme/news/minaigi/2000/75-103/od-1999.txt.xml 2015-10-13/sme/news/minaigi/2000/75-103/_od-1999.txt.xml
2015-10-13/sme/news/minaigi/2000/75-103/od-ingaguttorm.txt.xml 2015-10-13/sme/news/minaigi/2000/75-103/_od-ingaguttorm.txt.xml … ```
(2) filer med uliker navn (se BZ bug #2092)
Tomi hadde eit skript for å sjekke dublettar i korpus.
Vi tar initiativ til eit møte med Divvun om dette.
Det er også andre dublettar:
November-desember?
Skrive til Detmar og:
framlegg om brukarloggar
Brukarloggar, ulike innfallsvinklar
Førebu oss på ei breitt perspektiv:
Fortelje om oss sjølv-foredrag (samiske språk, samisk språkteknologi)
Når det gjelder engasjementer og samarbeid med andre
Sjur har kontakt med Kyrre, som diskuterer eit konkret tilbod med oss denne veka. Deretter diskuterer vi rom + framtidsperspektiv.
… vart oppdatert denne veka. Det avslørte at don’t panic-sida ikkje var eksplisitt nok. Vi har etter det oppdatert dokumentasjonen, og den er betre.
Tiltak: Lene går gjennom dokumentasjonen og kommenterer.