Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Giellatekno-møte 22.4. 2015

Ciprian, Lene, Trond

Saksliste

Korpus og Korp

Korp

Ciprian arbeider med

newsdata([
  {
    "h":{
      "en":"<p>The Korp interface has been updated to version 4.0. </p>",
      "sv":"<p>The Korp interface has been updated to version 4.0. </p>",
      "nb":"<p>Korp grensesnittet ble oppdatert til versjon 4.0. </p>",
      "fi":"<p>The Korp interface has been updated to version 4.0. </p>",
      "se":"<p>The Korp interface has been updated to version 4.0. </p>",
    },
    "t":{
      "en":"Korp interface updated ",
      "sv":"Korp interface updated ",
      "nb":"Korp grensesnittet oppdatert ",
      "fi":"Korp interface updated ",
      "se":"Korp interface updated ",
    },
    "d":"2015-04-20"
  },

Problem med lokalisering:

Viss du ikkje har like mange original:omsetjing i json-fila kjem ingenting på nett.

main/apps/korp/frontend/translations

locale-nb.json:    "show_diagram" : "Visa trenddiagram_xxx",
locale-nb.json:    "non_time_before" : "Saknar tidsuppmärkning: _xxx",
locale-nb.json:    "non_time_after" : " av valt material_xxx",

Tiltak: Forbetre omsetjing fortest mulig

Refere til Korp (SIKOR) bør oppdateres fortest mulig.

Her er infoboksen:

Dette må følges opp:

Undervisning på bachelorprogrammet språk-sinn-samfunn

Gillian R har tatt kontakt om å tilby et nytt bachelorprogram språk-sinn-samfunn med engelsk om undervisningsspråk

Vi gir allerede nå kurs i språkteknologi, men dette kan evt formaliseres i offisielle kurs. Vi ser det ikke som hensiktsmessig at engelsk er undervisningsspråk.

Aktuelle temaer for 10-sv-kurs i språkteknologi til bachelorgrad i språk-sinn-samfunn:

I tillegg har vi eit framlegg til språkteknologi for samisk, eit kurs med ei litt anna innretting enn bachelor i lingvistikk:

SAM-30xx

Oppsummering Ulan-Ude-reisa

Arrangør: Buryaad statlige universitet v/ Jargal Badagarov: [http://giellatekno.uit.no/conf/ulanude15/UlanUde.html]

Trond og Francis holdt kurs i FST for 15 personar for følgende språk:

Dessutan laga vi demoversjonar av stavekontrollar for bxr, khk, evn, xal. Merk at det er ein bug i Libreoffice-voikko for val av språk via ISO-kode, den er rapportert til Harri.

Oppfølging:

smenob/nobsme attributter

Merking godkjente oversettinger og samiske stedsnavn

Merking av namn

Dette skal vere dokumentert på sida vår for ordbøker.

Attributtene for src og norm legges på t-nivå.

Konklusjon:

  1. FAD som attributt blir flytta frå til
  2. Lista over opprinnelege ord frå FAD blir greppa ut og lagra som ei liste under heimesida til FAD-prosjektet
  3. Skilnaden ( alle - FAD ) kjem dermed fram av å diffe total lemmaliste og FAD-liste
  4. I tillegg legg vil comment="..."  som attributt for kommetarer i alle elementer der vi ser behov for det

Freqkvenssorterte lister for sme-tekster

Vi bør ha en deadline for denne? Cip har gjort det men ikkje lagt det på serveren

  1. Cip lagar skript på servaren
  2. … og gjev lenkje til Lene
  3. … og dermed til side / vidare