Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

MT smenob-møte 14.2.2017

Kevin, Trond, Lene

Saksliste

  1. @<ADVL til “for/til å”
  2. Merke overskrifter
  3. Behandlinga av eksistensialsetninger
  4. Bisetninger med om
  5. Kondisjonalis-regler

@<ADVL til “for/til å”

Det er laga regler for dette i t4x, de er foreløpig utkommenterte, men med i siste versjon av translation-test. Dette avhenger av tre ting:

  1. legge inn egen tagg for actio i t1x for å kunne skille mellom infinitiv og actio (vi ønsker bare “for å” for infinitiv)
  2. sikre at @<ADVL fungerer slik det skal i functions
  3. ha altenativene “for å” og “til å” i tx4 - dette er lemmabasert

Lene arbeider videre med dette: GJORT, klart for testing med korpus

Merke overskrifter

Vi legger allerede til et punktum til overskrifter, de burde bli merket slik at vi vi refere til merket i cg-regler

Kevin arbeider videre med dette

Behandlinga av eksistensialsetninger

Trond: gå gjennom translation test og leite etter “det” som ikkje fungerer

  1. “det” som ikkje skal vere
  2. manglande “det” som skal vere
  3. innsetting av pro (for mykje for lite)
  4. det-setningar med feil ordstilling

    Trond og Kevin arbeider videre sammen med regler

Dokumentasjon:

esubj og @<SUBJext

@<SUBJext blir nå lagt til i t1x til subjekter med

Dat čuohcá mánáid ja nuoraid árgabeaivái, earret eará sidjiide geain eai leat sámegiel oahpaheaddjit

Det rammer barn og ungdommenes hverdag, blant annet dem som de har ikke samiske lærere. => Det rammer barn og ungdommenes hverdag, blant annet dem som ikke har samiske lærere.

Dat čuohcá mánáid ja nuoraid árgabeaivái, earret eará sidjiide geat lávlot / leat ruovttus

Det rammer barn og ungdommenes hverdag, blant annet dem som er hjemme. Det rammer barn og ungdommenes hverdag, blant annet dem som synger

Doppe eai leat sámegiel oahpaheaddjit. Der borte ikke de er samiske lærere. => Der borte er det ikke samiske lærere.

Mus eai leat oahpaheaddjit. Jeg har ikke lærere.

Doppe mus eai leat sámegiel oahpaheaddjit. Der borte ikke jeg har samiske lærere.

Doppe mus eai leat sámegiel oahpaheaddjit. Der borte har jeg ikke samiske lærere.


"<Doppe>"
        "doppe" Adv Sem/Plc @ADVL>
"<eai>"
        "ii" V IV Neg Ind Pl3 @+FAUXV
"<leat>"
        "leat" V IV Ind Prs ConNeg @-FMAINV
"<sámegiel>"
        "sámegiel" A Sem/Dummytag Attr @>N
"<oahpaheaddjit>"
        "oahpaheaddji" N NomAg Sem/Hum Pl Nom <ext> @<SUBJext
"<.>"
        "." CLB

"<Mus>"
        "mun" Pron Pers Sg1 Loc <hab> @ADVL>
"<lea>"
        "leat" V IV Ind Prs Sg3 @+FMAINV
"<oahpaheaddji>"
        "oahpaheaddji" N NomAg Sem/Hum Sg Nom <ext> @<SUBJext IKKE @<SUBJext
"<.>"
        "." CLB

Jeg har en lærer      @<SUBJext
Der er det en lærer  @<SUBJext

apertium-interchunk1
Prn<SN><^Prn<SN><←hab→><p1><mf><sg><nom>{^jeg<prn><pers><p1><mf><sg><nom>$}$
 ^adv<SV><@+FAUXV><neg><indic><p3><sg><NC>{^ikke<adv>$}$
 ^verb<SV><@-FMAINV><indic><pres><impers><NC><esubj>{^ha<vblex><pres>$}$
 ^nom<SN><@←SUBJext><ind><m><sg><nom><pers>{^lærer<n><m><sg><3>$}$
 ^sent<SENT>{^..<sent><clb>$}$

SUBJext
      <choose>
        <when>
          <test><equal><var n="c_syn"/><lit v=""/></equal></test>
          <let><var n="c_syn"/><lit-tag v="@X"/></let>
        </when>
        <when>
          <test>
          <not><equal><clip pos="1" side="sl" part="ext"/><lit v=""/></equal></not>
          </test>
          <let><var n="c_syn"/><lit-tag v="@←SUBJext"/></let>
        </when>
      </choose>


 esubj
                <choose>
            <when>
              <test><in><clip pos="1" side="sl" part="lemh"/><list n="esubj-verbs"/></in></test>
              <let><var n="esubj"/><lit-tag v="esubj"/></let>
            </when>
            <otherwise>
              <let><var n="esubj"/><lit v=""/></let>
            </otherwise>
          </choose>

* Der det er lærer er

^prn<@SUBJ><p3><nt><sg><nom>{^prpers<prn><pers><p3><nt><sg><nom>$}$

chunker:
^vcop<SV><@+FMAINV><qst><indic><pres><p3><sg><impers><NC><esubj>{^være<vblex><pres>$}$

Jagis 2001 sárdnidii Norgga prinseassa Märtha Louise sámegillii, vaikko sus ii leat ii veaháge sámegielduogáš.
I 2001 prekte Norges prinsesse på Märtha Louises samisk, selv om hun ikke har det ikke #noe<adv> samiskbakgrunnen.
e Jagis 2001 sárdnidii Norgga prinseassa Märtha Louise sámegillii, vaikko doppe ii leat  sámegielduogáš.
I 2001 prekte Norges prinsesse Märtha Louise på samisk, selv om hun ikke har en samiskbakgrunn.

tf-hsl-m0016:apertium-sme-nob ttr000$ e Jagis 2001 sárdnidii Norgga prinseassa Märtha Louise sámegillii, vaikko doppe ii leat  sámegielduogáš.
I 2001 prekte Norges prinsesse Märtha Louise på samisk, selv om der borte ikke hun er en samiskbakgrunn.
=> ikks sett inn pro hvis ext
... selv om det der borte ikke er en mikrofon. = anna setn
... som der borte er en mikrofon = rel setn

echo Doppe ii leat oahpaheaddji. | apertium -d. sme-nob
Der borte ikke det er en lærer.  => Der borte er det ikke en lærer

vcop<SV><@-FMAINV><indic><pres><impers><NC><esubj>{^være<vblex><pres>$}$

### tx3:
    <def-cat n="lSUBJ">
      <cat-item tags="SN.@←SUBJ.*"/>
      <cat-item tags="SN.@←SUBJext.*"/>
    </def-cat>


med i følgende 3 regler:
PR ILL FV-esubj lSUBJ
sentenceborder FV lSUBJ
PR ILL FV-esubj lSUBJ

   <def-cat n="maybe-lSUBJ">  med i 12 regler
      <cat-item lemma="unknown" tags="unknown"/>
      <cat-item tags="SN.←hab→.*"/>           <!-- HAB or not here? -->
      <cat-item tags="SV.@←SUBJ.*"/>
      <cat-item tags="SN.@←SUBJ.*"/>
      <cat-item tags="SA.@←SUBJ.*"/>
      <!-- also @SUBJ→, for avoiding pro-insertion with @+FAUXV @SUBJ→ @-FMAINV -->
      <cat-item tags="SV.@SUBJ→.*"/>
      <cat-item tags="SN.@SUBJ→.*"/>
      <cat-item tags="SA.@SUBJ→.*"/>
      <cat-item tags="SN.@X.*"/>
    </def-cat>

med i følgende regler.
FV lemq maybe-lSUBJ
V2-trigger FV maybe-lSUBJ
PR V2-trigger FV maybe-lSUBJ
FV IV maybe-lSUBJ
V2-trigger FV IV maybe-lSUBJ
PR V2-trigger FV IV maybe-lSUBJ
PR.ADVLr SN.@P← FV IV maybe-←SUBJ
CS adv-FV.neg maybe-lSUBJ IV
CS adv-FV.neg maybe-lSUBJ ADVL IV

PR ILL FV-esubj adv-lADVL lSUBJ

   <def-cat n="maybe-lSUBJ">  med i 12 regler
      <cat-item lemma="unknown" tags="unknown"/>
      <cat-item tags="SN.←hab→.*"/>           <!-- HAB or not here? -->
      <cat-item tags="SV.@←SUBJ.*"/>
      <cat-item tags="SN.@←SUBJ.*"/>
      <cat-item tags="SA.@←SUBJ.*"/>
      <!-- also @SUBJ→, for avoiding pro-insertion with @+FAUXV @SUBJ→ @-FMAINV -->
      <cat-item tags="SV.@SUBJ→.*"/>
      <cat-item tags="SN.@SUBJ→.*"/>
      <cat-item tags="SA.@SUBJ→.*"/>
      <cat-item tags="SN.@X.*"/>
    </def-cat>

Alternative løsninger:

1
a. sette inn @<SUBJext både for hab og ikkje-hab
b. sette inn "det" ved @<SUBJext, når hab-variabelen er null

1b
a. sette inn @<SUBJext både for hab og ikkje-hab, <esubj> for leat/mannat/saddat
b. sette inn "det" ved @<SUBJext, når hab-variabelen er null OG verbet er tagga <esubj>

2
a. ikkje inn @<SUBJext  for hab, berre for ikkje-hab
b. sette inn "det" ved @<SUBJext (alltid)

3
Ikkje introdusere @<SUBJext i det heile tatt
men <ext>

4
noko slags tagging av verbet, basert både på høgrekontekst og venstre

Bisetninger med “om”

Lene arbeider videre med dette


                     Fund       n       v
mun jearan   boahtágo son dávjá
jeg   spør    om           han  ofte kommer

VP V-go subj ...
VP om subj V ...

mun in dieđe: boahtágo

mun in dieđe, boahtágo Harald
Jeg vet ikke, kommer Harald

legg til "om" i t4

Mii áigguimet iskat vuosttažettiin leago dán sáddaga obage vejolaš čađahit.
Vi skulle undersøke først  OM  er det denne sendinga ganske mulig gjennomføre.

Vi skulle undersøke først  OM det er mulig å gjennomføre denne sendinga.

Mii áigguimet iskat vuosttažettiin leago vejolaš oađđit.
Vi skulle undersøke først er  det mulig å sove.
=> Vi skulle undersøke først OM det er mulig å sove.
1. dette er ei leddsetning
2. om

 e Mii áigguimet iskat vuosttažettiin leago dávjá vejolaš oađđit.
Vi skulle undersøke først er det ofte mulig å sove.
Vi skulle undersøke først OM det ofte ER mulig å sove.

kondisjonalis-regler

Se på denne, her skulle vi ikke få to “kunne” i

Sáhtášii go son dat, jos livčče sámi mánáidgárdefálaldat buohkaide lasihit sámi giellageavaheddjiid?

#Prpers kunne Kunne montro det, hvis det kunne være et samisk barnehagetilbud for alle øke samiske språkbrukere?

    <def-list n="cond-NIL-verbs">
      <list-item v="berret"/>
      <list-item v="galgat"/>
      <list-item v="soaitit"/>
      <list-item v="veadjit"/>
      <list-item v="dáidit"/>
      <list-item v="máhttit"/>
      <list-item v="áigut"/>
      <list-item v="sáhttit"/>
    </def-list>

Lene arbeider videre med dette : GJORT