The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages
Diskusjonen startet på møte 19. mars 2015.
Status i dag: mye informasjon blir fjerna
Vi vil ta vare på mer informasjon
Saker:
Spørsmål:
Fordeler med leksikalisering:
Alternativer:
1. Bruke kompleks analyse istedenfor leksikalisering:
En både-og-løsning vil kunne kreve to disambigueringsfiler
2. Legge til tagger:
Vi har i dag dette for NomAg for å løse homonymi
vuovdi = selger
vuovdi vuovdi+N+NomAg+Sg+Nom <= info i tagg til det leksikaliserte lemmaet
vuovdi vuovdit+V+TV+Der/NomAg+N+Sg+Nom <= kompleks analyse
pga av homonymi med vuovdi+N = skog som har ulikt bøyningsparadigme
For derivasjonen Der/NomAct har vi det ikke
vuovdin vuovdin+N+Sg+Nom <== +NomAct ville være fordel for disambiguering av Acc vs Gen
vuovdin vuovdit+V+TV+Der/NomAct+N+Sg+Nom
3. Ta vare på kompleks analyse som underlesning
Denne diskuterte vi ikke
4. Legge til definerte underlesninger i et skript, mellom FST og cg3
"<vuovdin>"
"vuovdin" N NomAct Sg Nom
"vuovdit" V TV
"<ealli>"
"ealli" N NomAg Sg Nom Sem/Ani
"eallit" V IV
$ echo čorgejeaddji | hfst-proc2 --xerox tools/preprocess/tokeniser-disamb-gt-desc.pmhfst | cg-conv -f
"<čorgejeaddji>"
"čorgejeaddji" N NomAg Sem/Hum Sg Nom
"čorgejeaddji" Der/NomAg N Sg Nom
"čorget" V TV
Eksempler:
sme$ usme
borahahtti - (ordboka: spiselig A)
borahahtti borrat+V+TV+Der/h+V+Der/ahtti+V+TV+PrsPrc
borahahtti borrat+V+TV+Der/h+V+Der/ahtti+V+TV+Der/NomAg+N+Sg+Nom
borahahtti borahit+V+TV+Der/ahtti+V+TV+PrsPrc
borahahtti borahit+V+TV+Der/ahtti+V+TV+Der/NomAg+N+Sg+Nom
borahahtti borahahtti+A+Attr
borahahtti borahahtti+A+Sg+Nom
borahahtti
borahahtti borrat+V+TV+Der/h+V+Der/ahtti+V+TV+PrsPrc
borahahtti borrat+V+TV+Der/h+V+Der/ahtti+V+TV+Imprt+Du2
borahahtti borrat+V+TV+Der/h+V+Der/ahtti+V+TV+Der/NomAg+N+Sg+Gen
borahahtti borrat+V+TV+Der/h+V+Der/ahtti+V+TV+Der/NomAg+N+Sg+Acc
borahahtti borrat+V+TV+Der/h+V+Der/ahtti+V+TV+Der/NomAg+N+Sg+Nom
borahahtti borahit+V+TV+Der/ahtti+V+TV+PrsPrc
borahahtti borahit+V+TV+Der/ahtti+V+TV+Imprt+Du2
borahahtti borahit+V+TV+Der/ahtti+V+TV+Der/NomAg+N+Sg+Gen
borahahtti borahit+V+TV+Der/ahtti+V+TV+Der/NomAg+N+Sg+Acc
borahahtti borahit+V+TV+Der/ahtti+V+TV+Der/NomAg+N+Sg+Nom
borahahtti borahahtti+A+Attr
borahahtti borahahtti+A+Sg+Nom => A = PrsPrc 'borahit/borrat'
borahahtti borahahtti+A+Sg+Gen
borahahtti borahahtti+A+Sg+Acc
$ usmj
nuorttal nuorttal+Adv +
nuorttal nuorttal+Po
nuorttal nuorttal+Pr
nuorttalappo nuorttalabbo+A+Comp+Pl+Nom
nuorttalappo nuorttalabbo+A+Comp+Sg+Gen
nuorttalappot nuorttalabbo+A+Comp+Der/at+Adv
nuorttalappot nuorttalappot+Adv
- subst->komp->adj->adv
$ usme
geahppaseappot geahpas+A+Comp+Der/at+Adv
geahppaseappot geahppaseappot+Adv <== denne vinner i dis.cg3
Eksempler på ikke veldig produktive deriverte verb hvor derivasjonen ikke kommer fram i FST. Spørsmålet er om vi skal synliggjøre slik derivasjon.
Spesielt gjelder det verb på -lit (i parantes er mulig analyse som FST ikke gir idag):
Men også verb på -šit: