Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Diskusjonen startet på møte 19. mars 2015.

Morfologisk informasjon i korpusanalysen

Status i dag: mye informasjon blir fjerna

Vi vil ta vare på mer informasjon

Saker:

Spørsmål:

Fordeler med leksikalisering:

Alternativer:

  1. Bruke kompleks analyse istedenfor leksikalisering
  2. Legge til tagger om derivasjon til dagens analyse. I dag har vi en slik i sme: +NomAg
  3. Ta vare på kompleks analyse som underlesning
  4. Legge til definerte underlesninger i et skript, mellom FST og cg3

1. Bruke kompleks analyse istedenfor leksikalisering:

En både-og-løsning vil kunne kreve to disambigueringsfiler

2. Legge til tagger:

Vi har i dag dette for NomAg for å løse homonymi

vuovdi   = selger
vuovdi	vuovdi+N+NomAg+Sg+Nom  <= info i tagg til det leksikaliserte lemmaet
vuovdi	vuovdit+V+TV+Der/NomAg+N+Sg+Nom <= kompleks analyse

pga av homonymi med vuovdi+N = skog som har ulikt bøyningsparadigme

For derivasjonen Der/NomAct har vi det ikke

vuovdin	vuovdin+N+Sg+Nom  <== +NomAct ville være fordel for disambiguering av Acc vs Gen
vuovdin	vuovdit+V+TV+Der/NomAct+N+Sg+Nom

3. Ta vare på kompleks analyse som underlesning
Denne diskuterte vi ikke

4. Legge til definerte underlesninger i et skript, mellom FST og cg3

"<vuovdin>"
    "vuovdin" N NomAct Sg Nom
        "vuovdit" V TV

"<ealli>"
    "ealli" N NomAg Sg Nom Sem/Ani
        "eallit" V IV
$ echo čorgejeaddji | hfst-proc2 --xerox tools/preprocess/tokeniser-disamb-gt-desc.pmhfst | cg-conv -f
"<čorgejeaddji>"
	"čorgejeaddji" N NomAg Sem/Hum Sg Nom
	"čorgejeaddji" Der/NomAg N Sg Nom
		"čorget" V TV

Konsekvensar for ulike applikasjonar/komponentar:

Eksempler:

sme$ usme
borahahtti - (ordboka: spiselig A)
borahahtti	borrat+V+TV+Der/h+V+Der/ahtti+V+TV+PrsPrc
borahahtti	borrat+V+TV+Der/h+V+Der/ahtti+V+TV+Der/NomAg+N+Sg+Nom
borahahtti	borahit+V+TV+Der/ahtti+V+TV+PrsPrc
borahahtti	borahit+V+TV+Der/ahtti+V+TV+Der/NomAg+N+Sg+Nom
borahahtti	borahahtti+A+Attr
borahahtti	borahahtti+A+Sg+Nom

borahahtti
borahahtti	borrat+V+TV+Der/h+V+Der/ahtti+V+TV+PrsPrc
borahahtti	borrat+V+TV+Der/h+V+Der/ahtti+V+TV+Imprt+Du2
borahahtti	borrat+V+TV+Der/h+V+Der/ahtti+V+TV+Der/NomAg+N+Sg+Gen
borahahtti	borrat+V+TV+Der/h+V+Der/ahtti+V+TV+Der/NomAg+N+Sg+Acc
borahahtti	borrat+V+TV+Der/h+V+Der/ahtti+V+TV+Der/NomAg+N+Sg+Nom
borahahtti	borahit+V+TV+Der/ahtti+V+TV+PrsPrc
borahahtti	borahit+V+TV+Der/ahtti+V+TV+Imprt+Du2
borahahtti	borahit+V+TV+Der/ahtti+V+TV+Der/NomAg+N+Sg+Gen
borahahtti	borahit+V+TV+Der/ahtti+V+TV+Der/NomAg+N+Sg+Acc
borahahtti	borahit+V+TV+Der/ahtti+V+TV+Der/NomAg+N+Sg+Nom
borahahtti	borahahtti+A+Attr
borahahtti	borahahtti+A+Sg+Nom => A = PrsPrc 'borahit/borrat'
borahahtti	borahahtti+A+Sg+Gen
borahahtti	borahahtti+A+Sg+Acc

$ usmj
nuorttal	nuorttal+Adv +
nuorttal	nuorttal+Po
nuorttal	nuorttal+Pr

nuorttalappo	nuorttalabbo+A+Comp+Pl+Nom
nuorttalappo	nuorttalabbo+A+Comp+Sg+Gen

nuorttalappot	nuorttalabbo+A+Comp+Der/at+Adv
nuorttalappot	nuorttalappot+Adv
- subst->komp->adj->adv

$ usme

geahppaseappot  geahpas+A+Comp+Der/at+Adv
geahppaseappot  geahppaseappot+Adv  <== denne vinner i dis.cg3

Bz 1308:

Eksempler på ikke veldig produktive deriverte verb hvor derivasjonen ikke kommer fram i FST. Spørsmålet er om vi skal synliggjøre slik derivasjon.

Spesielt gjelder det verb på -lit (i parantes er mulig analyse som FST ikke gir idag):

Men også verb på -šit: