Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

sme-nob MT møte 31.5.17

Tilstede: Kevin, Trond, Lene

Saker:

  1. Kompilering og størrelse av sme-nob.t1x.bin
  2. Sámi dieđalaš áigečála som pdf
  3. caseprep : vi har to systemer
  4. om hvordan vi skal løse riktig valg av pro.
  5. ends-with og starts-with i test i regler t1x-fila
  6. t4x må kunna handtera alle kombinasjonar
  7. fungerer –trace på mac no? Ja.
  8. bidix-sanity for nob
  9. Fleirordsuttrykk, nob i bidix
  10. Kronikk i Nordlys

Kompilering og størrelse av sme-nob.t1x.bin

apertium frå etter 26. mai skal gi mindre binærfiler av transfer. Der me før hadde t1x.bin på 15M, bør me no ha ca. 74K.

apertium-sme-nob$ which apertium-preprocess-transfer
/usr/local/bin/apertium-preprocess-transfer
apertium-sme-nob$ ls -lah $(which apertium-preprocess-transfer)
-rwxr-xr-x  1 root  wheel    50K 18 mai 06:26 /usr/local/bin/apertium-preprocess-transfer

-rwxr-xr-x 1 root admin 19480 May 26 15:24 /usr/local/bin/apertium-preprocess-transfer

TILTAK::

Sámi dieđalaš áigečála som pdf

Om det er mulig å tilby oversetting av Sámi dieđalaš áigečála sine artikler som er i pdf-format, se bz 2378. Dvs om det er mulig å legge inn convert2xml i pipelinen når vi på forhånd vet formatet på pdf-en. Jeg regner med at det blir rein tekst, uten tabeller og figurer og formattering

TILTAK::

caseprep : vi har to systemer

t1x: caseprep på substantiv-chunks og på verb-chunks, ingen interaksjon mellom verb/substantiv her t2x interchunk: ein caseprep-variabel frå verbet kan overstyra den som er på substantivet (t2x kan sjå på to eller fleire chunks PR SUBST VERB osb.)

“caseprep-verb”

Viss verbet kjem etterpå treng vi caseprep i t2x, vi kan vise til chunking som vi har tilgang til i t2x.

I andre tilfelle løyser vi det i t1x.

om hvordan vi skal løse riktig valg av pro

Eksempel:

Alle setningene under her får sin pro i denne regelen i tx3: <rule comment=”REGLA: adv-FV.neg IV - out: pro 2 1

I denne regelen er ikke hovedverbet med i vurdering av hvilken pro som skal inn, og det er hovedverbet som har taggingen “pers” “impers” (vi trenger også en ekstra tagging av verb som alltid skal ha ‘det’, som værverb)

echo Ii lean arván. | apertium -d. sme-nob
Det hadde ikke regnet.  <== værverb, bør ha en egen "detpers" tagg
H_n hadde ikke regnet.

echo Ii arván. | apertium -d. sme-nob
Det regnet ikke.

Ii lean borran. | apertium -d. sme-nob
Det hadde ikke spist.  <== hovedverbet er "pers", vi ønsker 'h_n'
echo Ii lean guhton. | apertium -d. sme-nob
Det hadde ikke beitet. <== hovedverbet er "impers", vi ønsker 'den'

Endring /tillegg til taggen som i bidix i dag er “impers”. Vi endrar taggen til:

pers-pro  (verb som får  han/hun som subjekt)
agreem-pro   (verb som får  den/det)
incongr-pro = inkongruent =   (verb som alltid får   "det", dvs. værverb, jf. liste i t1x)

TILTAK:

Kan vi løse problemet med riktig valg av pro nær finittverb, basert på hovudverb langt vekke, på annen måte enn å lage regler i t3x for alle varianter av slike setninger? Setningstypene er mange:

Hovedverbet kommer lenger ut i setninga så variabel vil ikke fungere, må matcha heile chunken.

TILTAK:

For vêrverb må me anten laga ny bidix-tagg (detpers?) eller ta i bruk def-list weather-verbs i t1x.

echo Ii guhton. | apertium -d. sme-nob
Det beitet ikke.  <== den
echo Ii arván. | apertium -d. sme-nob
Det regnet ikke.  <== det
: er det fleire enn vêrverb som burde ha «det» som standard?

Der me må disambiguera mellom h_n og den, kan me gi tvetydig tagging av verbet, både impers og pers:

<e><p><l>šaddat<s n="vblex"/><s n="iv"/></l><r>bli<s n="vblex"/><s n="pers"/></r></p><par n="__verb"/></e>
<e><p><l>šaddat<s n="vblex"/><s n="iv"/></l><r>bli<s n="vblex"/><s n="impers"/></r></p><par n="__verb"/></e>

og så la lex-fila velja rett tagg:

SELECT:fallback ("bli"i) + (impers) (0 ("<šaddat>"i)) ;

ends-with og starts-with i test i regler t1x-fila

     <list-item v="jente"/>
          <list-item v=".*jente"/> <== ikkje slik


Men slik:

 <ends-with caseless="yes"><clip pos="2" side="tl" part="lemh"/><lit v="jente"/></ends-with>
<!ELEMENT ends-with (%value;,%value;)>


$ grep -e -with /usr/local/share/apertium/transfer.dtd
<!ENTITY % condition "(and|or|not|equal|begins-with|begins-with-list|ends-with|ends-with-list|contains-substring|in)">
<!ELEMENT begins-with (%value;,%value;)>
<!ATTLIST begins-with caseless (no|yes) #IMPLIED>
<!ELEMENT ends-with (%value;,%value;)>
<!ATTLIST ends-with caseless (no|yes) #IMPLIED>
<!ELEMENT begins-with-list (%value;,list)>
<!ATTLIST begins-with-list caseless (no|yes) #IMPLIED>
<!ELEMENT ends-with-list (%value;,list)>
<!ATTLIST ends-with-list caseless (no|yes) #IMPLIED>
      Tests if the left part contains the right part at the beginning.
      Both parts of the test may both be a clip (see below), a
      literal string ('lit'), a literal tag ('lit-tag') or the value of
      a variable ('var') defined in the def-vars section.  When the attribute
      'caseless' is set to 'yes', the comparison is made without attending
      to the case.
-->
<!ELEMENT ends-with (%value;,%value;)>
<!ATTLIST ends-with caseless (no|yes) #IMPLIED>
<!--
      Tests if the left part contains the right part at the end.
      Both parts of the test may both be a clip (see below), a
      literal string ('lit'), a literal tag ('lit-tag') or the value of
      a variable ('var') defined in the def-vars section.  When the attribute
      'caseless' is set to 'yes', the comparison is made without attending
      to the case.
-->
<!ELEMENT begins-with-list (%value;,list)>
<!ATTLIST begins-with-list caseless (no|yes) #IMPLIED>

t4x må kunna handtera alle kombinasjonar

Denne

  <rule comment="CHUNK: pre_pre_pre_pre_nom">

finst ikkje for koordinasjonar – kan me få så lange chunks i koordinasjonar no?

Viss t1x kan laga pre_pre_pre_pre_nom, så kan t2x laga

* pre_pre_pre_pre_nom_conj_pre_pre_pre_pre_nom
* pre_pre_pre_pre_nom_conj_pre_pre_pre_nom
* pre_pre_pre_pre_nom_conj_pre_pre_nom
* pre_pre_pre_pre_nom_conj_pre_nom
* pre_pre_pre_pre_nom_conj_nom
*     pre_pre_pre_nom_conj_pre_pre_pre_pre_nom
*         pre_pre_nom_conj_pre_pre_pre_pre_nom
*             pre_nom_conj_pre_pre_pre_pre_nom
*                 nom_conj_pre_pre_pre_pre_nom

Kor lange rekkjer kan t1x lage? Opprinneleg: 3 x pre + nom. No er det meir.

TILTAK:

fungerer –trace på mac no? Ja.

[https://sourceforge.net/p/apertium/tickets/97/] er lukka

Det fungerer:

tf4-hsl-m0024:apertium-sme-nob trond$ e Mun boakkun|apertium -d. sme-nob-interchunk1

apertium-interchunk: Rule 39 Prn<SN><p1><mf><sg><nom>{^jeg<prn><pers><p1><mf><sg><nom>$}

apertium-interchunk: Rule 35 verb<SV><indic><pres><p1><sg><pers><NC>{^gå<vblex><pres>$}

apertium-interchunk: Rule 43 sent<SENT>{^.<sent><clb>$}
^Prn<SN><p1><mf><sg><nom>{^jeg<prn><pers><p1><mf><sg><nom>$}$ ^verb<SV><indic><pres><p1><sg><pers><NC>{^gå<vblex><pres>$}$^lemq<lemq>{^# hjulbeint$}$^sent<SENT>{^.<sent><clb>$}$

bidix-sanity for nob

[https://svn.code.sf.net/p/apertium/svn/nursery/apertium-sme-smn/dev/bidix-sanity.sh]

%       Bissogealdinoaivi<np>:Soabbegealdinoaivi<np>:^Soabbegealdinoaivi/*Soabbegealdinoaivi$
%       Buolláneatnanlássáš<np>:Puállâmeennâmláássáš<np>:^Puállâmeennâmláássáš/*Puállâmeennâmláássáš$
%       reaisu<n>:reeisu<n>:^reeisu/reissu<n><sg><acc>/reissu<n><sg><gen>$ (==> vi hadde forventa <n><sg><nom>)
%       oasálaš<n>:kuáskulâš<n>:^kuáskulâš/kuáskulâš<adj><attr>/kuáskulâš<adj><sg><nom>$
viss L1 har blabla så skal L2 ha det same

viss L1 <n><sg><nom> så skal L2 ha <n><GENUS><sg><indef>

<e r="RL" lm="hva" c="sme-nob"><i>hva</i><par n="neste__det"/></e>

TILTAK:

Fleirordsuttrykk, nob i bidix

frå -r78846 [http://sprunge.us/HXPM]

Strategiar:

pardef "bærbar/_datamaskin__n"
<e><p><l>nulpu<s n="n"/></l><r>rein<g><b/>uten<b/>horn</g><s n="n"/><s n="m"/></r></p></e>
<e><p><l>boaggut<s n="vblex"/><s n="tv"/></l><r>gå<g><b/>hjulbeint</g><s n="vblex"/><s n="pers"/></r></p><par n="__verb"/></e>

Strategiar:

echo Mus lea nulpu. | apertium -d. sme-nob
Jeg har #rein.
jj
 e Mun boakkun|apertium -d. sme-nob
#Jeg går## hjulbeint

e Mun boakkun|apertium -d. -u sme-nob
Jeg går# hjulbeint = jorgal.uit.no

echo nulpu lea doppe. | apertium -d. sme-nob
#rein er der borte.

TILTAK:

Kronikk i Nordlys

Andre moglege fora: forsking.no, Norsk Tidend.

TILTAK:

Lene lager mappe i art/2017 og tar kontakt med Nordlys. Og sender epost om resultatet.