Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Lingvistmøte smj & sme om tagging og begrensning av derivasjoner

Til stede: Inga, Sjur, Linda, Lene, Thomas, Trond

Tagger

Gram/xxx

Hvilke Gram-tagger trenger vi, og harmonisering mellom samiske språk

I smj:
  +Gram/Comp      !!≈ * @CODE@ = Inherent comp, lexicalized derivation
  +Gram/Superl    !!≈ * @CODE@ = Inherent superl, lexicalized derivation
  +Gram/Dimin     !!≈ * @CODE@ = Inherent diminutive, lexicalized derivation
  +Gram/NomAg     !!≈ * @CODE@ = Inherent Actor Noun From Verb - Nomen Agentis, lexicalized derivation
  +Gram/r         !!≈ * @CODE@ = Inherent -r derivation. guollit-guollár
  +Gram/NomAct    !!≈ * @CODE@ = Inherent Actio Noun From Verb - Nomen Actionis, lexicalized derivation
  +Gram/NomInstr  !!≈ * @CODE@ = Inherent Intsrumental noun From Verb, Nomen instrumentalis,lexicalized derivation
  +Gram/TAbbr     !!≈ ; @CODE@ : Transitive abbreviation (it needs an argument)
  +Gram/NoAbbr    !!≈ ; @CODE@ : Intransitive abbreviations that are homonymous
  +Gram/TNumAbbr  !!≈ ; @CODE@ : Transitive abbreviation if the following
  +Gram/NumNoAbbr !!≈ ; @CODE@ : Transitive abbreviations for which numerals
  +Gram/TIAbbr    !!≈ ; @CODE@ : Both transitive and intransitive abbreviation
  +Gram/IAbbr     !!≈ ; @CODE@ : Intransitive abbreviation (it takes no argument)
  +Gram/3syll     !!≈ ; @CODE@ : trisyllabic verbs
  +Gram/SentInit  !!≈ ; @CODE@ : copula verb le-

Bør også disse få Gram:

+Gram/xxx blir brukt òg for leksikaliserte deriverte ord som ein parallell til dynamisk derivasjon.

Alle Gram-taggar er alltid valfrie ved generering, men ikke alle skal være valgfri for dict- og MT-generering, f.eks. +Gram/NomAg

smj: politihkkár+N+Gram/r+Sg+Nom, tydelig for brukere at dette er en avledning av det ikke mye brukte “politihkkit” og ikke tilpasning av “politiker”

Harmonisere slik at også nordsamisk får +Gram/NomAg, nå er det:

IV og TV kan endres til +Gram/IV og +Gram/TV (vente med denne?)

TILTAK:

Sammenlikning av NomAg-taggen i flere språk

uit-mac-443:giellalt ttr000$ grep NomAg lang-*/src/fst/root.lexc
lang-kpv/src/fst/root.lexc:+Der/NomAg  !!≈ * **@CODE@**
lang-mdf/src/fst/root.lexc: +NomAg
lang-mdf/src/fst/root.lexc: +Der/NomAg
lang-myv/src/fst/root.lexc: +NomAg   !!≈ * @CODE@ Actor Noun From Verb - Nomen Agentis
lang-myv/src/fst/root.lexc:+Der/NomAg
lang-sje/src/fst/root.lexc:+NomAg		  !!= * @CODE@ Agent noun
lang-sje/src/fst/root.lexc:+Der/NomAg 	  !!= * @CODE@ Derived agent noun
lang-sma/src/fst/root.lexc: +Der/NomAg     !!≈ |            |            | **@CODE@** | VN   | Nomen Agentis
lang-sma/src/fst/root.lexc:  %^NOMAGieDISIMP !!≈ | @CODE@ | diphthong simplification for NomAg ie stems
lang-sme/src/fst/root.lexc: +NomAg   !!≈ * **@CODE@** Actor Noun From Verb - Nomen Agentis, +N+NomAg
lang-sme/src/fst/root.lexc: +Err/Confused-NomAgIll   !!≈ * **@CODE@** grammarcheking rela word error confusion pairs
lang-sme/src/fst/root.lexc:!+Der/eaddji  ! XN = +Der/NomAg
lang-sme/src/fst/root.lexc: +Der/NomAg
lang-smj/src/fst/root.lexc: +NomAg   !!≈ * @CODE@ Actor Noun From Verb - Nomen Agentis
lang-smj/src/fst/root.lexc:  +Gram/NomAg !!≈ * @CODE@ = Inherent Actor Noun From Verb - Nomen Agentis, lexicalized derivation
lang-smj/src/fst/root.lexc:+Der/r !!≈ * @CODE@ VN  - NomAg contracted verbs - guollit-guollár
lang-smj/src/fst/root.lexc: +Der/NomAg !!≈ * @CODE@ VN -diddje
lang-smn/src/fst/root.lexc: +NomAg
lang-smn/src/fst/root.lexc: +Der/NomAg
lang-sms/src/fst/root.lexc:+NomAg	  !!= * @CODE@ CHECK ME
lang-sms/src/fst/root.lexc:+Der/NomAg	!!= * @CODE@ agent V»N
lang-vro/src/fst/root.lexc: +Der/JA !!= **@CODE@**	NomAg

Cmp/Sh - (Bug 2695)

I MT er det problematisk å lage dynamiske sammensetninger, pga. +Cmp/Sh taggen.

Sammenlikning av sme og smj:

boradanbeavdi	boradit+V+TV+Der/NomAct+N+Cmp/SgNom+Cmp#beavdi+N+Sg+Nom
boradanbeavdi	boradit+V+TV+Der/NomAct+N+Cmp/SgNom+Cmp#beavdi+N+Sg+Nom

borranbeavdi	borran+N+Cmp/SgNom+Cmp#beavdi+N+Sg+Nom

echo boradangirji |apertium -d. sme-smj
bårådibmegirjje

Her ville bårådimgirjje vært bedre.

boradangirji	boradit+V+TV+Der/NomAct+N+Cmp/SgNom+Cmp#girji+N+Sg+Nom
bårådibmegirjje	bårådit+V+TV+Der/NomAct+N+Cmp/SgNom+Cmp#girjje+N+Sg+Nom
bårådimgirjje	bårådit+V+TV+Der/NomAct+N+Cmp/Sh+Cmp#girjje+N+Sg+Nom

For å kunne generere bårådimgirjje må Cmp/SgNom endres til Cmp/Sh, noe som er mulig i MT, men problemet er at dette skal gjelde bare ulikestavelsesverb, NomAct-substantiver avledet fra ulikestavelsesverb og firestavelsessubstantiver, og da krever det en større ommøblering av bidixfila, hvor man må lage egne stier for disse verbene og substantivene.

På nordsamisk er ikke boradeapmigirji mulig, derfor er Cmp/Sh default og ikke uttrykt i tagger. Også på lulesamisk er Cmp/Sh default, men den lange formen er også mulig. Hvis det ikke hadde vært samme tagger, så kunne man brukt +Use/NG, dvt. kunne man ha +Cmp/Sh som en tilleggstagg i analysen, men som ikke er obligatorisk i genereringa.

En annen mulighet er å endre sme, slik at taggene er som i smj, men i MT vil det da være problemer hvis innputt er et tostavelsesverb og output er et trestavelsesverb, eller motsatt, noe som ofte er tilfellet.

Gjøre Cmp-taggene ikke-obligatoriske, kombinert med +Use/NG: da kan vi ikke skille mellom genitiv og nominativ, f.eks. eatnigiella vs. eadnegiella

Løsning:

+A+Attr+Der/vuota vs. +A+Der/vuota

Eksempel fra sme:

ráhkisvuohta
ráhkisvuohta	ráhkis+A+Der/vuota+N+Sg+Nom
ráhkisvuohta	ráhkisvuohta+N+Sg+Nom

ráhkesvuohta
ráhkesvuohta	ráhkesvuohta+N+Sg+Nom	0,000000
ráhkesvuohta	ráhkis+A+Attr+Der/vuota+N+Sg+Nom

Dette er den eneste derivasjonen vi har lagt til ekstra informasjon til venstre for +Der/. For MT er problemet samme som med Cmp/Sh-taggenn (se forrige sak)

Løsninger:

Avgrensing av derivasjoner

Sjå dette dokumentet (frå 23.4. 2020)

Smj: Har fjerna Der/Comp og Der/Superl fra leksikonene DIBME og AHTES. Der/Dimin er endret fra Der1 til Der2. (Har også lagt til ny Der/NomInstr)

Se ellers liste i dette dokumentet.

bálkkáhit
bálkkáhit	bálkáhit+Err/Orth+V+TV+Inf	0,000000
bálkkáhit	bálkáhit+Err/Orth+V+TV+Ind+Prs+Pl1	0,000000
bálkkáhit	bálkáhit+Err/Orth+V+TV+Ind+Prs+Pl3	0,000000
bálkkáhit	bálkáhit+Err/Orth+V+TV+Ind+Prt+Sg2	0,000000
bálkkáhit	bálká+N+Der/Car+A+Der/Comp+A+Attr	0,000000
bálkkáhit	bálká+N+Der/Car+A+Der/Comp+A+Sg+Nom	0,000000 OBS, denne skulle vært borte
bálkkáhit	bálkkáheapme+A+Der/Comp+A+Attr	0,000000
bálkkáhit	bálkkáheapme+A+Der/Comp+A+Sg+Nom	0,000000

náhkehit
náhkehit	nahkehit+Err/Orth-a-á+V+TV+Inf	0,000000
náhkehit	nahkehit+Err/Orth-a-á+V+TV+Ind+Prs+Pl1	0,000000
náhkehit	nahkehit+Err/Orth-a-á+V+TV+Ind+Prs+Pl3	0,000000
náhkehit	nahkehit+Err/Orth-a-á+V+TV+Ind+Prt+Sg2	0,000000
náhkehit	náhkki+N+Der/Car+A+Der/Comp+A+Attr	0,000000  OBS, denne skulle vært borte
náhkehit	náhkki+N+Der/Car+A+Der/Comp+A+Sg+Nom	0,000000

Eksempel på ekte infinitiv som blir analysert som Comp (Lene har forbetra dis, desse blir Inf i neste korpus)

    46	17142 "deattuhit" V
    59	14872 "vuoruhit" V
    68	13399 "evttohit" V
   103	8121 "veahkehit" V
   127	6240 "jođihit" V
   130	6111 "doaimmahit" V
   133	5973 "oahpahit" V
   151	5377 "fuolahit" V
   869	 363 "eavttuhit" V
   890	 348 "geasehit" V

TILTAK: