The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages
View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no
Tilstede: Kevin, Trond, Lene
apertium frå etter 26. mai skal gi mindre binærfiler av transfer. Der me før hadde t1x.bin på 15M, bør me no ha ca. 74K.
apertium-sme-nob$ which apertium-preprocess-transfer
/usr/local/bin/apertium-preprocess-transfer
apertium-sme-nob$ ls -lah $(which apertium-preprocess-transfer)
-rwxr-xr-x 1 root wheel 50K 18 mai 06:26 /usr/local/bin/apertium-preprocess-transfer
-rwxr-xr-x 1 root admin 19480 May 26 15:24 /usr/local/bin/apertium-preprocess-transfer
Om det er mulig å tilby oversetting av Sámi dieđalaš áigečála sine artikler som er i pdf-format, se bz 2378. Dvs om det er mulig å legge inn convert2xml i pipelinen når vi på forhånd vet formatet på pdf-en. Jeg regner med at det blir rein tekst, uten tabeller og figurer og formattering
t1x: caseprep på substantiv-chunks og på verb-chunks, ingen interaksjon mellom verb/substantiv her t2x interchunk: ein caseprep-variabel frå verbet kan overstyra den som er på substantivet (t2x kan sjå på to eller fleire chunks PR SUBST VERB osb.)
“caseprep-verb”
Viss verbet kjem etterpå treng vi caseprep i t2x, vi kan vise til chunking som vi har tilgang til i t2x.
I andre tilfelle løyser vi det i t1x.
Eksempel:
Alle setningene under her får sin pro i denne regelen i tx3: <rule comment=”REGLA: adv-FV.neg IV - out: pro 2 1
I denne regelen er ikke hovedverbet med i vurdering av hvilken pro som skal inn, og det er hovedverbet som har taggingen “pers” “impers” (vi trenger også en ekstra tagging av verb som alltid skal ha ‘det’, som værverb)
echo Ii lean arván. | apertium -d. sme-nob
Det hadde ikke regnet. <== værverb, bør ha en egen "detpers" tagg
H_n hadde ikke regnet.
echo Ii arván. | apertium -d. sme-nob
Det regnet ikke.
Ii lean borran. | apertium -d. sme-nob
Det hadde ikke spist. <== hovedverbet er "pers", vi ønsker 'h_n'
echo Ii lean guhton. | apertium -d. sme-nob
Det hadde ikke beitet. <== hovedverbet er "impers", vi ønsker 'den'
Endring /tillegg til taggen som i bidix i dag er “impers”. Vi endrar taggen til:
pers-pro (verb som får han/hun som subjekt)
agreem-pro (verb som får den/det)
incongr-pro = inkongruent = (verb som alltid får "det", dvs. værverb, jf. liste i t1x)
Kan vi løse problemet med riktig valg av pro nær finittverb, basert på hovudverb langt vekke, på annen måte enn å lage regler i t3x for alle varianter av slike setninger? Setningstypene er mange:
Hovedverbet kommer lenger ut i setninga så variabel vil ikke fungere, må matcha heile chunken.
For vêrverb må me anten laga ny bidix-tagg (detpers?) eller ta i bruk def-list weather-verbs i t1x.
echo Ii guhton. | apertium -d. sme-nob
Det beitet ikke. <== den
echo Ii arván. | apertium -d. sme-nob
Det regnet ikke. <== det
: er det fleire enn vêrverb som burde ha «det» som standard?
Der me må disambiguera mellom h_n og den, kan me gi tvetydig tagging av verbet, både impers og pers:
<e><p><l>šaddat<s n="vblex"/><s n="iv"/></l><r>bli<s n="vblex"/><s n="pers"/></r></p><par n="__verb"/></e>
<e><p><l>šaddat<s n="vblex"/><s n="iv"/></l><r>bli<s n="vblex"/><s n="impers"/></r></p><par n="__verb"/></e>
og så la lex-fila velja rett tagg:
SELECT:fallback ("bli"i) + (impers) (0 ("<šaddat>"i)) ;
<list-item v="jente"/>
<list-item v=".*jente"/> <== ikkje slik
Men slik:
<ends-with caseless="yes"><clip pos="2" side="tl" part="lemh"/><lit v="jente"/></ends-with>
<!ELEMENT ends-with (%value;,%value;)>
$ grep -e -with /usr/local/share/apertium/transfer.dtd
<!ENTITY % condition "(and|or|not|equal|begins-with|begins-with-list|ends-with|ends-with-list|contains-substring|in)">
<!ELEMENT begins-with (%value;,%value;)>
<!ATTLIST begins-with caseless (no|yes) #IMPLIED>
<!ELEMENT ends-with (%value;,%value;)>
<!ATTLIST ends-with caseless (no|yes) #IMPLIED>
<!ELEMENT begins-with-list (%value;,list)>
<!ATTLIST begins-with-list caseless (no|yes) #IMPLIED>
<!ELEMENT ends-with-list (%value;,list)>
<!ATTLIST ends-with-list caseless (no|yes) #IMPLIED>
Tests if the left part contains the right part at the beginning.
Both parts of the test may both be a clip (see below), a
literal string ('lit'), a literal tag ('lit-tag') or the value of
a variable ('var') defined in the def-vars section. When the attribute
'caseless' is set to 'yes', the comparison is made without attending
to the case.
-->
<!ELEMENT ends-with (%value;,%value;)>
<!ATTLIST ends-with caseless (no|yes) #IMPLIED>
<!--
Tests if the left part contains the right part at the end.
Both parts of the test may both be a clip (see below), a
literal string ('lit'), a literal tag ('lit-tag') or the value of
a variable ('var') defined in the def-vars section. When the attribute
'caseless' is set to 'yes', the comparison is made without attending
to the case.
-->
<!ELEMENT begins-with-list (%value;,list)>
<!ATTLIST begins-with-list caseless (no|yes) #IMPLIED>
Denne
<rule comment="CHUNK: pre_pre_pre_pre_nom">
finst ikkje for koordinasjonar – kan me få så lange chunks i koordinasjonar no?
Viss t1x kan laga pre_pre_pre_pre_nom, så kan t2x laga
* pre_pre_pre_pre_nom_conj_pre_pre_pre_pre_nom
* pre_pre_pre_pre_nom_conj_pre_pre_pre_nom
* pre_pre_pre_pre_nom_conj_pre_pre_nom
* pre_pre_pre_pre_nom_conj_pre_nom
* pre_pre_pre_pre_nom_conj_nom
* pre_pre_pre_nom_conj_pre_pre_pre_pre_nom
* pre_pre_nom_conj_pre_pre_pre_pre_nom
* pre_nom_conj_pre_pre_pre_pre_nom
* nom_conj_pre_pre_pre_pre_nom
Kor lange rekkjer kan t1x lage? Opprinneleg: 3 x pre + nom. No er det meir.
[https://sourceforge.net/p/apertium/tickets/97/] er lukka
Det fungerer:
tf4-hsl-m0024:apertium-sme-nob trond$ e Mun boakkun|apertium -d. sme-nob-interchunk1
apertium-interchunk: Rule 39 Prn<SN><p1><mf><sg><nom>{^jeg<prn><pers><p1><mf><sg><nom>$}
apertium-interchunk: Rule 35 verb<SV><indic><pres><p1><sg><pers><NC>{^gå<vblex><pres>$}
apertium-interchunk: Rule 43 sent<SENT>{^.<sent><clb>$}
^Prn<SN><p1><mf><sg><nom>{^jeg<prn><pers><p1><mf><sg><nom>$}$ ^verb<SV><indic><pres><p1><sg><pers><NC>{^gå<vblex><pres>$}$^lemq<lemq>{^# hjulbeint$}$^sent<SENT>{^.<sent><clb>$}$
[https://svn.code.sf.net/p/apertium/svn/nursery/apertium-sme-smn/dev/bidix-sanity.sh]
% Bissogealdinoaivi<np>:Soabbegealdinoaivi<np>:^Soabbegealdinoaivi/*Soabbegealdinoaivi$
% Buolláneatnanlássáš<np>:Puállâmeennâmláássáš<np>:^Puállâmeennâmláássáš/*Puállâmeennâmláássáš$
% reaisu<n>:reeisu<n>:^reeisu/reissu<n><sg><acc>/reissu<n><sg><gen>$ (==> vi hadde forventa <n><sg><nom>)
% oasálaš<n>:kuáskulâš<n>:^kuáskulâš/kuáskulâš<adj><attr>/kuáskulâš<adj><sg><nom>$
viss L1 har blabla så skal L2 ha det same
viss L1 <n><sg><nom> så skal L2 ha <n><GENUS><sg><indef>
<e r="RL" lm="hva" c="sme-nob"><i>hva</i><par n="neste__det"/></e>
frå -r78846 [http://sprunge.us/HXPM]
Strategiar:
pardef "bærbar/_datamaskin__n"
<e><p><l>nulpu<s n="n"/></l><r>rein<g><b/>uten<b/>horn</g><s n="n"/><s n="m"/></r></p></e>
<e><p><l>boaggut<s n="vblex"/><s n="tv"/></l><r>gå<g><b/>hjulbeint</g><s n="vblex"/><s n="pers"/></r></p><par n="__verb"/></e>
Strategiar:
echo Mus lea nulpu. | apertium -d. sme-nob
Jeg har #rein.
jj
e Mun boakkun|apertium -d. sme-nob
#Jeg går## hjulbeint
e Mun boakkun|apertium -d. -u sme-nob
Jeg går# hjulbeint = jorgal.uit.no
echo nulpu lea doppe. | apertium -d. sme-nob
#rein er der borte.
Andre moglege fora: forsking.no, Norsk Tidend.
Lene lager mappe i art/2017 og tar kontakt med Nordlys. Og sender epost om resultatet.