The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages
Kevin, Trond, Lene på Hangout
f.eks. manne mo movt goas gos
+Adv+Qst
Substitute regler for apertium, også for ext og hab:
SUBSTITUTE (a) (b) IF (0 (adv)); # “adv” finst ikkje på gt, berre i apertium, derfor køyrer denne berre for apertium
Nok med semtagging for andre adverbialer?
Nyttig liste [http://grammatikk.com/pdf/Setningsadverb.pdf]
vi går A til byen
vi går til byen B
A = ofte, ikke,
B = i dag, igjen,
A+B = snart
A = setningsadverbial
Vi er enige om:
https://jorgal.uit.no
TILTAK:
Overskriftsmarkering er ikkje inn i «driver»-skriptet, så du må legga på re-/deformatering sjølv:
$ echo '<h1>Gáhkku</h1> lea buorre'|apertium-deshtml -o
.[][<h1>]Gáhkku[]❡.[][<\/h1> ]lea buorre.[][
]
$ echo '<h1>Gáhkku</h1> lea buorre'|apertium-deshtml -o|apertium -f none -d . sme-nob-morph
^./.<sent>$[][<h1>]^Gáhkku/gáhkku<n><sem_food><sg><nom>/gáhkku<n><sg><nom>$[]^❡/❡<clb>$^./.<sent>$[][<\/h1> ]^lea/leat<vblex><iv><indic><pres><p3><sg>$ ^buorre/buorre<adj><sg><nom>$^./.<sent>$[][
]
$ echo '<h1>Gáhkku</h1> lea buorre'|apertium-deshtml -o|apertium -f none -d . sme-nob-syntax
^.<sent>$[][<h1>]^Gáhkku<n><sem_food><sg><nom><@HNOUN><MAP:2271:hnounNom><SELECT:2342>/¬Gáhkku<n><sg><nom><@HNOUN><MAP:2271:hnounNom><SELECT:2342>$[]^❡<clb>$^.<sent>$[][<\/h1> ]^leat<vblex><iv><indic><pres><p3><sg><@+FMAINV>$ ^buorre<adj><sg><nom><@←SPRED><MAP:1640:leftCop<spred>$^.<sent>$[][
]
1. ❡ har tom omsetjing i bidix, blir fjerna i biltrans+t1x
$ echo '<h1>Gáhkku</h1> lea buorre'|apertium-deshtml -o|apertium -f none -d . sme-nob | apertium-rehtml-noent
<h1>Kake</h1> det er bra
Vi skal leksikalisere alle akronym som fungerer som substantiv, fellesnamn.
(*En) NTB forteller at En ATV ligger i grøfta
Slik vil vi ha det i bidix:
Dagens output fra FST:
sme$ usmedis
ATV
ATV ATV+N+Sem/Veh+ACR+Sg+Nom <==== ATV "n"
ATV ATV+N+Sem/Veh+ACR+Sg+Gen
ATV ATV+N+Sem/Veh+ACR+Sg+Acc
ATV ATV+N+Prop+ACR+Sem/Org+Dyn+Sg+Nom
ATV ATV+N+Prop+ACR+Sem/Org+Dyn+Sg+Gen
ATV ATV+N+Prop+ACR+Sem/Org+Dyn+Sg+Acc
NTB
NTB NTB+N+Prop+ACR+Sem/Org+Dyn+Sg+Nom <===== NTB "np"
NTB NTB+N+Prop+ACR+Sem/Org+Dyn+Sg+Gen
NTB NTB+N+Prop+ACR+Sem/Org+Dyn+Sg+Acc
NTB NTB+N+ACR+Sg+Nom
NTB NTB+N+ACR+Sg+Gen
NTB NTB+N+ACR+Sg+Acc
For mykje ubestemt artikkel er verre enn manglande ubestemt artikkel.
Chunk-splitting
(ingen chunk som matcha heile substfrasen, kanskje eitt av orda var ukjend)
idiomatiske ting
Eksempler:
t4x sjekkar
<not><equal><clip pos="1" part="a_count"/><lit-tag v="unc"/></equal></not>
bidix har
<pardef n="unc__n" c="Add unc tag iff going from sme to nob (currently just used for ensuring indefiniteness in transfer).">
Vi har slike: boplasss huss (hus’s)