Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Page Content

S&T

orig/fkv/inc/Pirjo

Liten p, ikkje stor (Hugs: mac skil ikkje mellom store og små bokstavar).

Koodiriihi, oppsummering

Vi gjekk ned frå 152 til 136 opne (pr i dag) - og det er bra, men ikkje nok. 20 andre buggar vart kommentert i dagane før og fram til i dag. Bra å jobba med Bugzilla elles, men om vi har bestemt ein dag, så skal den dagen nyttast til det. Vi treng fleire slike dagar.

Vi pratast om saka neste veke, med fokus på P1 og P2, og satsar på ein ny dag i juni.

Møterommet

Skriva e-post i lag - torsdag formiddag kl 9.

Ungararane

Gjera ferdig og retta spørjeskjemaet. Sjur ser på saka.

smj neste veke

Sjur pratar med Ciprian.

LREC-plakat

Sjur kan likevel :-) byggja pdf

Tommi bør sjekke inn ein versjon

Vi må prate om plakaten denne veka. Møte torsdag kl 12 norsk tid (Google Hangout).

Trond: Lage ein plakat ulik artikkelen:

Kanskje:

SP (Sg & Pl) vs NULL

No ser det slik ut for Erzya (myv):

+N+Sg+Ela+Def
+N+Pl+Ela+Def
+N+SP+Ela+Indef
+N+SP+Ela+PxSg1
+N+SP+Ela+PxSg2
+N+SP+Ela+PxSg3
+N+SP+Ela+PxPl1
+N+SP+Ela+PxPl2
+N+SP+Ela+PxPl3

Samisk:

gielas
gielas	gielas+N+Sg+Nom
giellan	giella+N+Ess

For samisk har vi ikkje +SP i essiv., og ikkje +Abs for absolutt deklinasjon (utan possessivsuffiks).

Det ser slik ut i Cree (crk):

+3Sg+3SgO:%>âci		   # ;
+3Sg+3PlO:%>ikotwâwi   # ;
+3Sg+2SgO:%>iski	   # ;
+3Sg+2PlO:%>ikoyêko	   # ;

Andre døme frå Erzya:

кандомс
кандомс	кандомс+V+TV+Der/Омс+Inf+Ill
кандомс	кандомс+V+TV+Der/Омс+Inf+Ill+Der/Pr+V+Ind+Prs+ScSg3
кандомс	кандомс+V+TV+Der/Омс+Inf+Ill+Der/Pr+V+Ind+Prs+ScPl3

+V+Inf
+V+Ind+Prs+Sg3

палатан	паламс+V+TV+Ind+Prs+ScSg1+OcSg2
паласа	паламс+V+TV+Ind+Prs+ScSg1+OcSg3
паласынзе	паламс+V+TV+Ind+Prs+ScSg3+OcPl3
палат	паломс+V+IV+Ind+Prs+ScSg2
палан	паламс+V+TV+Ind+Prs+ScSg1

Cree-varianten for myv:

палатан	паламс+V+TV+Ind+Prs+Sg1+2SgO
паласа	паламс+V+TV+Ind+Prs+Sg1+3SgO
паласынзе	паламс+V+TV+Ind+Prs+Sg3+3PlO
палат	паломс+V+IV+Ind+Prs+Sg2
палан	паламс+V+TV+Ind+Prs+Sg1

Vi vil ha for myv:

палатан	паламс+V+TV+Ind+Prs+Sg1+Sg2O
паласа	паламс+V+TV+Ind+Prs+Sg1+Sg3O
палан	паламс+V+TV+Ind+Prs+Sg1

палат	паломс+V+IV+Ind+Prs+Sg2

yaml-testing

downcase-derived_proper

Funkar i xfst, men ikkje i lag med valfri storbokstav (fordi flagget blir rekna som symbol for den regex-en?): oslolaš er ok, Oslolaš er IKKJE ok:

$ lookup -q src/analyser-gt-desc.xfst
oslolaš
oslolaš	Oslo	+N+Prop+Sem/Plc+Der/laš+A+Sg+Nom
oslolaš	Oslo	+N+Prop+Sem/Plc+Der/laš+A+Attr
oslolaš	oslolaš+N+Sg+Nom
oslolaš	oslolaš+A+Sg+Nom
oslolaš	oslolaš+A+Attr

Oslolaš
Oslolaš	oslolaš+N+Sg+Nom
Oslolaš	oslolaš+A+Sg+Nom
Oslolaš	oslolaš+A+Attr

Vi ser på dette i neste veke i Tromsø.

Funkar ikkje i hfst:

optimized-lookup/transducer.cc: maximum recursion depth exceeded, discarding results
optimized-lookup/transducer.cc: maximum recursion depth exceeded, discarding results

Sjur testar meir, og melder frå til Hfst-gjengen.