Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Møte 24.3.2017

Kevin, Trond, Lene på Hangout

Saker

  1. Adverbialer som innleder bisetninger og spørsmål
  2. Ny url
  3. Debugging med overskriftsmarkering
  4. Akronym
  5. Ubestemt artikkel
  6. genitiv-s

Adverbialer som innleder bisetninger og spørsmål

f.eks. manne mo movt goas gos

Første steg i lexc:

+Adv+Qst

Andre steg functions.cg3:

Tredje steg i functions.cg3:

Substitute regler for apertium, også for ext og hab:

SUBSTITUTE (a) (b) IF (0 (adv)); # “adv” finst ikkje på gt, berre i apertium, derfor køyrer denne berre for apertium

Diskusjon om andre adverbtyper, men ingen konklusjon foreløpig

Nok med semtagging for andre adverbialer?

Nyttig liste [http://grammatikk.com/pdf/Setningsadverb.pdf]

vi går A til byen
vi går    til byen B

A = ofte, ikke,
B = i dag, igjen,
A+B = snart


A = setningsadverbial

Ny url

Vi er enige om:

https://jorgal.uit.no

TILTAK:

Debugging med overskriftsmarkering

Overskriftsmarkering er ikkje inn i «driver»-skriptet, så du må legga på re-/deformatering sjølv:

$ echo '<h1>Gáhkku</h1> lea buorre'|apertium-deshtml -o
.[][<h1>]Gáhkku[]❡.[][<\/h1> ]lea buorre.[][
]
$ echo '<h1>Gáhkku</h1> lea buorre'|apertium-deshtml -o|apertium -f none -d . sme-nob-morph
^./.<sent>$[][<h1>]^Gáhkku/gáhkku<n><sem_food><sg><nom>/gáhkku<n><sg><nom>$[]^❡/❡<clb>$^./.<sent>$[][<\/h1> ]^lea/leat<vblex><iv><indic><pres><p3><sg>$ ^buorre/buorre<adj><sg><nom>$^./.<sent>$[][
]
$ echo '<h1>Gáhkku</h1> lea buorre'|apertium-deshtml -o|apertium -f none -d . sme-nob-syntax
^.<sent>$[][<h1>]^Gáhkku<n><sem_food><sg><nom><@HNOUN><MAP:2271:hnounNom><SELECT:2342>/¬Gáhkku<n><sg><nom><@HNOUN><MAP:2271:hnounNom><SELECT:2342>$[]^❡<clb>$^.<sent>$[][<\/h1> ]^leat<vblex><iv><indic><pres><p3><sg><@+FMAINV>$ ^buorre<adj><sg><nom><@←SPRED><MAP:1640:leftCop<spred>$^.<sent>$[][
]
1. ❡ har tom omsetjing i bidix, blir fjerna i biltrans+t1x
$ echo '<h1>Gáhkku</h1> lea buorre'|apertium-deshtml -o|apertium -f none -d . sme-nob | apertium-rehtml-noent
<h1>Kake</h1> det er bra

Akronym

Vi skal leksikalisere alle akronym som fungerer som substantiv, fellesnamn.

(*En) NTB forteller at En ATV ligger i grøfta

Slik vil vi ha det i bidix:

Dagens output fra FST:

sme$ usmedis
ATV
ATV        ATV+N+Sem/Veh+ACR+Sg+Nom  <==== ATV "n"
ATV        ATV+N+Sem/Veh+ACR+Sg+Gen
ATV        ATV+N+Sem/Veh+ACR+Sg+Acc
ATV        ATV+N+Prop+ACR+Sem/Org+Dyn+Sg+Nom
ATV        ATV+N+Prop+ACR+Sem/Org+Dyn+Sg+Gen
ATV        ATV+N+Prop+ACR+Sem/Org+Dyn+Sg+Acc

NTB
NTB        NTB+N+Prop+ACR+Sem/Org+Dyn+Sg+Nom  <===== NTB "np"
NTB        NTB+N+Prop+ACR+Sem/Org+Dyn+Sg+Gen
NTB        NTB+N+Prop+ACR+Sem/Org+Dyn+Sg+Acc
NTB        NTB+N+ACR+Sg+Nom
NTB        NTB+N+ACR+Sg+Gen
NTB        NTB+N+ACR+Sg+Acc

Tiltaksliste: Trond

  • ☐ fjern frå nob.dix
  • ☐ fjern +ACR frå langs/sme/…
  • ☐ fjern frå bidix

Ubestemt artikkel

For mykje ubestemt artikkel er verre enn manglande ubestemt artikkel.

Chunk-splitting

  • finnmarksløpet et hundeløp
  • Til Øst-Finnmark, Lebesbys og til Tana kommuner, er Grenselandet et AS i ferd med å finne på å bygge to vindmølleparker

(ingen chunk som matcha heile substfrasen, kanskje eitt av orda var ukjend)

mogleg workaround:

  • ☐ nytt krav om at det siste ordet me såg før me skriv ut artikkel ikkje var n/np/ukjend, t4x Kevin

unc-taggen (uncountable)

idiomatiske ting

  • han har en hensikt å starte (eller «hensikt» skal kanskje i neste kategori, default aldri)
  • utellbare, subst-spesifikke ting

Eksempler:

  • de har et håp om å
  • de forventer en sosial kompetanse
  • de har et ordforråd
  • I vindmølleparken, hvor de er kalt «En nord» og «Borealis»

mogleg løysing:

  • ☐ finn liste med subst som skal ha vs ikkje skal ha ubestemt artikkel frå korpus, legg inn bidix-tagg **Kevin**

t4x sjekkar

         <not><equal><clip pos="1" part="a_count"/><lit-tag v="unc"/></equal></not>

bidix har

        <pardef n="unc__n" c="Add unc tag iff going from sme to nob (currently just used for ensuring indefiniteness in transfer).">

genitiv-s

Vi har slike: boplasss huss (hus’s)

TILTAK

  • Dei skal i rett paradigme Trond