Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Giellateknomøte 5.11.14

Saker:

smenob/nobsme

På nett: Frå juni:

smenob: state-of-art:

tf-hsl-m0016:src ttr000$ cat *.xml|grep '<e '|cut -d"<" -f2-|sort|uniq -c|sort -nr
13112 fad
6373 vd
4344 nj
 520 sk
 153 gt_fad
  42 ps,sa
   6 gt
   5 no
   2 nou94
   2 mt
   2 kal
   1 ps
   1 other
Umerka:
<e> 11431

Tiltak

Namna i xml-katalogen i Geo

cat geo_smi.xml|grep '"sme"'|wc -l
    5922
cat nounProp_smenob.xml |grep '<l '|wc -l
     502

Mogleg måtar å hindre at namna blokkerer for andre ord:

  1. skilnad store/små bokstavar, og, viss vi ikkje liker det:
  2. kryss “også med eigennamn”

Metadata

Vi må oppdatere metadata, både for NDS og for webdict (?)

Vi må lenkje ordbøkene i mellom for same språk.

Tiltak

Paradigmepresentasjon i NDS

I paradigmegeneratoren eller i NDS? Vi prøver å få elevane til å bruke NDS i staden for paradigmegeneratoren.

Paradigmegeneratoren i cgi-bin

Vi legg arbeidet inn i NDS, og gjer relativt små endringar i cgi-bin-scriptet.

Tiltak for å gjere den betre:

Tiltak

Paradigmegeneratoren: Fjerde kulepunkt. Trond: Lag bug.

Samarbeid om Sameting og Giellagáldu om e-ordbøker

Sametinget skal satse på e-ordbøker, Giellagáldu normerer

Tiltak

Tidsplan

Common Crawl Foundation-workshop i Oslo

Börre dit? Trond tar det vidare.

CCF workshop in Oslo

sme til nyinfra ~ fst-testing via VD-pipeline

Paradigmetesting

Ciprian har skrive i e-post.

Plukk ut 20 ord med ulike taggar (Allegro, miniparadigme, v1, v2) og test dei.

Vi har testa Oahpa og analysen.

Lage yaml av gamle VD-oppsett, eitt ord frå kvart kontleksikon.

abbr.txt

Use/MT

Use/MT – skal fjernast overalt, men vere med i apertium-generator-fst-ar Ei anna sak er at den må bli merka for målspråk

Use/LexSub

5100 Err/Sub, 700 Use/LexSub

Vi ville endre denne til Err/LexSub i vår, jf møtereferat

Strengen Use/LexSub må bli fjerna for den normative analysatoren (Divvun). Det er altså ei Divvun-sak.

Konklusjon: For Gt sin del kan vi gå over til ny infra. Vi må flytte kildefilene for å ta vare på svn-historikken.

  1. Lag ein kopi av gammal infra, for referanse. Frys den.
  2. Flytt gammal til ny, med svn-historikk

Trond tar det opp med sjur.

Korp

Ciprian kan trykke på knappen. Vi ser om det er nye ting i dag.

Oppdatere korpus, og deretter Korp.

forrest - hjemmeside

Fra møte 8.10.14:

tabs

I dag:

Tab Går til
Hjem Home Heimesida
Språklæring oahpa.no
Divvun korrektur divvun.no
Ordbøker dicts.uit.no
Oversetting gtweb.uit.no/mt
Tekstkorpus gtweb.uit.no/korp
TechDoc Techdoc-sidene

Alternativ:

Ha Verkty for samiske språk (osb.) i tabbane der oppe

Nye tabbar:

Desse går då ut (dei er dekt av andre lenkjer)

Tiltak

Dei fire framsidene

Status for dei fire sidene:

Tiltak

Sjur/Trond-referat (4.11):

  1. kløyv gtuit-forrest i to likt Divvun
  2. bygg ut gtuit til å vera fleirspråkleg slik Divvun er det
  3. lag felles techdoc

Tidsplan: Denne/neste veke.

Bugzilla

Betre politikk for prioritering:

Flytte bz-diskusjon over til dokumentasjonen? I visse tilfelle bør vi gjere det.

Tiltak

Orienteringssaker

Sjur/trond-møte Enare

Møtereferata

main/techdoc/admin/giellatekno/ [/admin/meetings.html]

Terminologi

Utlysing

1.12. språkrådet

SDÁ

SDÁ-terminologi: Vaske ut akademisk tekst Vi vil ha SDÁ i Korp.

Lene kontaktar redaksjonskomitéen.

Neste möte

Om ei veke: Planar.