Language Technology at UiT The Arctic University of Norway

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Page Content

Møte 24.3.2017

Kevin, Trond, Lene på Hangout

Saker

  1. Adverbialer som innleder bisetninger og spørsmål
  2. Ny url
  3. Debugging med overskriftsmarkering
  4. Akronym
  5. Ubestemt artikkel
  6. genitiv-s

Adverbialer som innleder bisetninger og spørsmål

f.eks. manne mo movt goas gos

Første steg i lexc:

+Adv+Qst

Andre steg functions.cg3:

Tredje steg i functions.cg3:

Substitute regler for apertium, også for ext og hab:

SUBSTITUTE (a) (b) IF (0 (adv)); # “adv” finst ikkje på gt, berre i apertium, derfor køyrer denne berre for apertium

Diskusjon om andre adverbtyper, men ingen konklusjon foreløpig

Nok med semtagging for andre adverbialer?

Nyttig liste [http://grammatikk.com/pdf/Setningsadverb.pdf]

vi går A til byen
vi går    til byen B

A = ofte, ikke,
B = i dag, igjen,
A+B = snart


A = setningsadverbial

Ny url

Vi er enige om:

https://jorgal.uit.no

TILTAK:

Debugging med overskriftsmarkering

Overskriftsmarkering er ikkje inn i «driver»-skriptet, så du må legga på re-/deformatering sjølv:

$ echo '<h1>Gáhkku</h1> lea buorre'|apertium-deshtml -o
.[][<h1>]Gáhkku[]❡.[][<\/h1> ]lea buorre.[][
]
$ echo '<h1>Gáhkku</h1> lea buorre'|apertium-deshtml -o|apertium -f none -d . sme-nob-morph
^./.<sent>$[][<h1>]^Gáhkku/gáhkku<n><sem_food><sg><nom>/gáhkku<n><sg><nom>$[]^❡/❡<clb>$^./.<sent>$[][<\/h1> ]^lea/leat<vblex><iv><indic><pres><p3><sg>$ ^buorre/buorre<adj><sg><nom>$^./.<sent>$[][
]
$ echo '<h1>Gáhkku</h1> lea buorre'|apertium-deshtml -o|apertium -f none -d . sme-nob-syntax
^.<sent>$[][<h1>]^Gáhkku<n><sem_food><sg><nom><@HNOUN><MAP:2271:hnounNom><SELECT:2342>/¬Gáhkku<n><sg><nom><@HNOUN><MAP:2271:hnounNom><SELECT:2342>$[]^❡<clb>$^.<sent>$[][<\/h1> ]^leat<vblex><iv><indic><pres><p3><sg><@+FMAINV>$ ^buorre<adj><sg><nom><@←SPRED><MAP:1640:leftCop<spred>$^.<sent>$[][
]
1. ❡ har tom omsetjing i bidix, blir fjerna i biltrans+t1x
$ echo '<h1>Gáhkku</h1> lea buorre'|apertium-deshtml -o|apertium -f none -d . sme-nob | apertium-rehtml-noent
<h1>Kake</h1> det er bra

Akronym

Vi skal leksikalisere alle akronym som fungerer som substantiv, fellesnamn.

(*En) NTB forteller at En ATV ligger i grøfta

Slik vil vi ha det i bidix:

Dagens output fra FST:

sme$ usmedis
ATV
ATV        ATV+N+Sem/Veh+ACR+Sg+Nom  <==== ATV "n"
ATV        ATV+N+Sem/Veh+ACR+Sg+Gen
ATV        ATV+N+Sem/Veh+ACR+Sg+Acc
ATV        ATV+N+Prop+ACR+Sem/Org+Dyn+Sg+Nom
ATV        ATV+N+Prop+ACR+Sem/Org+Dyn+Sg+Gen
ATV        ATV+N+Prop+ACR+Sem/Org+Dyn+Sg+Acc

NTB
NTB        NTB+N+Prop+ACR+Sem/Org+Dyn+Sg+Nom  <===== NTB "np"
NTB        NTB+N+Prop+ACR+Sem/Org+Dyn+Sg+Gen
NTB        NTB+N+Prop+ACR+Sem/Org+Dyn+Sg+Acc
NTB        NTB+N+ACR+Sg+Nom
NTB        NTB+N+ACR+Sg+Gen
NTB        NTB+N+ACR+Sg+Acc

Tiltaksliste: Trond

  • ☐ fjern frå nob.dix
  • ☐ fjern +ACR frå langs/sme/…
  • ☐ fjern frå bidix

Ubestemt artikkel

For mykje ubestemt artikkel er verre enn manglande ubestemt artikkel.

Chunk-splitting

  • finnmarksløpet et hundeløp
  • Til Øst-Finnmark, Lebesbys og til Tana kommuner, er Grenselandet et AS i ferd med å finne på å bygge to vindmølleparker

(ingen chunk som matcha heile substfrasen, kanskje eitt av orda var ukjend)

mogleg workaround:

  • ☐ nytt krav om at det siste ordet me såg før me skriv ut artikkel ikkje var n/np/ukjend, t4x Kevin

unc-taggen (uncountable)

idiomatiske ting

  • han har en hensikt å starte (eller «hensikt» skal kanskje i neste kategori, default aldri)
  • utellbare, subst-spesifikke ting

Eksempler:

  • de har et håp om å
  • de forventer en sosial kompetanse
  • de har et ordforråd
  • I vindmølleparken, hvor de er kalt «En nord» og «Borealis»

mogleg løysing:

  • ☐ finn liste med subst som skal ha vs ikkje skal ha ubestemt artikkel frå korpus, legg inn bidix-tagg **Kevin**

t4x sjekkar

         <not><equal><clip pos="1" part="a_count"/><lit-tag v="unc"/></equal></not>

bidix har

        <pardef n="unc__n" c="Add unc tag iff going from sme to nob (currently just used for ensuring indefiniteness in transfer).">

genitiv-s

Vi har slike: boplasss huss (hus’s)

TILTAK

  • Dei skal i rett paradigme Trond