Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Møte 13. januar 2017

Hangouts: Kevin, Lene, Trond

Saker:

Lansering 26-27.1.17

Planlegge fram mot lansering

Forbedre html-løysing

Lokalisering

[https://gtweb.uit.no/jorgal] må bli lokalisert

(alle iso-kodene må bli språk)

Vi lagar ei lokaliseringsside under techdoc/mt/smenob/Lokalisering.jspwiki

Alle språknamna skal vere på: nob, sme, fin, sma, smn, smj, eng

For folk som vil lokalisera til lule/enare/sørsamisk osb.: http://wiki.apertium.org/wiki/Html-tools#Quick_and_easy

Om-sida skal endres (Lene, Trond):

https://raw.githubusercontent.com/goavki/apertium-html-tools/websiteTranslationGiellatekno/assets/strings/eng.json

"What_Is_Apertium": "<p>Apertium is a <b>free/open-source machine translation platform</b>, initially aimed at related-language pairs but expanded to deal with more divergent language pairs (such as English-Catalan). The platform provides</p> <ol> <li>a language-independent machine translation engine</li> <li>tools to manage the linguistic data necessary to build a machine translation system for a given language pair and</li> <li>linguistic data for a growing number of language pairs.</li> </ol> <p>Apertium welcomes new developers: if you think you can improve the engine or the tools, or develop linguistic data for us, do not hesitate to <a data-toggle='modal' data-target='#contactModal' data-text='Help_Improve' data-keyboard='true' data-dismiss='modal' style='cursor: pointer'>contact us</a>.</p>",

Grensesnitt

Skilnaden mellom kvit og grå (aktiv / ikkje-aktiv) er for liten. Kevin ser på det.

Planen no er:

Menyen slik: Nordsamisk oversett Norsk, finsk, enare- , lule-, sørsamisk

Menyane

Dagens meny:

Vi vil heller ha:

Logging

Ny url:

Omsetjing av nettsider

Er det forbetringspotensiale her?

Oppgåve for oss:

Omsetjing av dokument

Dette virkar ofte ikkje (systematiser dette)

Googlebarheit for sidene våre

Vi må

  1. ha meta-ord på omsetjingssidene
  2. lenkje til desse sidene frå:
    1. wikipedia?
    2. andre internsider, med passande lenkjetekst («oversetting samisk norsk»)

Linke til jorgal

Legg inn referanse til jorgal, på

Oppdatere planen

[/mt/smenob/NorthSaamiNorwegianMachineTranslation.html]

(Lene) gjør dette på grunnlag av dette møtereferatet

Lingvistikk

se apertium-sme-nob/translations-test.html

Dekningsgrad

Børre samle inn NRK-tekster fra nett (Trond)

Leksikal selection

Behandling av acr

Best:
NBR n acr til NRL n acr

Feil:
  <e lm="NRL"><par n="Nn"/><par n="Rr"/><par n="Ll"/><par n="PC__n"/></e>
Korrekt:
<e lm="NRL">       <i>NRL</i><par n="Wikipedia__np"/></e>

<e>NRL<n><acr> → NRL<np>
<e>NRL<n><acr> → NRL<n><acr> <!-- legg til i nob.dix -->
  <e lm="NRL"><i>NRL</i><par n="km__n"/></e>

tf-hsl-m0016:apertium-nob ttr000$ grep NRK apertium-nob.nob.dix
  <e lm="NRK"><par n="Nn"/><par n="Rr"/><par n="Kk"/><par n="PC__n"/></e>
<e lm="NRK">       <i>NRK</i><par n="Wikipedia__np"/></e>
<e lm="NRK Sápmi"> <i>NRK<b/>Sápmi</i><par n="Aasen__np"/></e>

<pardef n="km__n">
  <e>       <re>.?</re><p><l></l>          <r><s n="n"/><s n="acr"/></r></p></e>
</pardef>
<pardef n="km_no-cp__n" c="Note: gives form a dot iff lemma has a dot,
                     don't include a final dot in the individual entries">
  <e>       <re>.?</re><p><l></l>          <r><s n="n"/><s n="acr"/></r></p><par n="'s_case\Ø_no-cp"/></e>
</pardef>

  <e lm="km">            <i>km</i><par n="VM__n"/></e>

Adverb, ordrekkefølge

finne eksempler og sortere i typer

Dáppe ii leat nu ollu diet vierru.
Her ikke det er så mye denne skikken. #t3x?

Die lea hui dehálaš seammaláganvuohta. @>A
Der er det svært ei viktig likhet. # er ikkje dette chunking? større chunk i t1x

Dat ii leat nu ahte go mii dáppe ávvudat juovllaid,
Det er ikke slik at når vi feirer her julen,  (=> julen her) #t3x?

Er det kanskje ein slik skilnad:

Vi bør tagge adverbene forskjellig i sme-syntaksen,

Propernoun

Innsetting av pro

Defness

Innsetting av artikler

25% en pleiemedarbeiderstilling (en helgstilling) (ikkje en etter modifiserer)

Derivasjoner

Kevin legger inn NomAct og NomAg

Overskrifter

Vi må forbedre behandlinga av overskrifter