Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Page Content

S&T-møte 28.2.2017

Saksliste

gt/sme/

$ tree
.
├── script
│   ├── 500testCGrules.sh -- spør, framlegg: slett
│   ├── eckhard.sh -- slett
│   ├── syntestCGrules.sh -- erstatta med langs/sme/test/src/syntax/syntax_developertest.sh, framlegg: slett
│   ├── testCGrules.sh -- erstatta med ??, sjekk med Lene, framlegg: slett
│   ├── testadj.sh -- slett
│   ├── testnoun.sh -- slett
│   ├── testproper.sh -- slett
│   ├── testverb.sh -- slett
│   └── uniqCG.sh - Skript for å kjøre sum-cg.pl uten semtagger -- utdatert, oppdater sum-cg.pl
├── src
│   ├── Makefile
│   ├── Oldsme-dis.rle - kopi av urevidert sme.dis, før regelsamanslåing og flytting til nyinfra -- spør Lene
│   ├── README - slett
│   ├── dis-tag.txt - script for å slette V N Actor -- slett
│   ├── sme-olddis.rle = lager av utkommenterte reglar frå 2008 -- slett
│   ├── sme-tdis.rle = 5 reglar for tekstdisambiguering, irrelevant med ny vislcg3 -- slett
│   ├── tag-pos.regex = fjern alle taggar bortsett frå ordklasse -- slett
│   ├── tag-sme.regex = til samiske namn -- flytt
│   └── wordfeud.sh = trekkjer ut lemma -- flytt og generaliser
├── testing
│   ├── Makefile
│   ├── README
│   ├── codes
│   │   ├── default
│   │   │   ├── a-codes.txt
│   │   │   ├── n-codes.txt
│   │   │   ├── num-codes.txt
│   │   │   ├── prop-codes.txt
│   │   │   ├── pxnoun-codes.txt
│   │   │   └── v-codes.txt
│   │   ├── dict
│   │   │   ├── A-codes.txt
│   │   │   ├── G3-codes.txt
│   │   │   ├── N-codes.txt
│   │   │   ├── NomAg-codes.txt
│   │   │   ├── Npl-codes.txt
│   │   │   ├── Num-codes.txt
│   │   │   ├── Pron-codes.txt
│   │   │   ├── Prop-codes.txt
│   │   │   └── V-codes.txt
│   │   └── oahpa
│   │       ├── a-codes.txt
│   │       ├── n-codes.txt
│   │       ├── num-codes.txt
│   │       ├── prop-codes.txt
│   │       └── v-codes.txt
│   ├── gen-paradigms.pl
│   ├── gen-paradigms.sh
│   ├── hyphenation.txt
│   ├── ii+leat+clitics-test-sme.txt
│   ├── make-dictindex
│   ├── make-gen-dict
│   ├── paradigm2xml.pl
│   ├── parawlist.txt
│   ├── run_generation.sh
│   ├── sme-plxtestwords.txt
│   ├── sme-tests.yaml
│   ├── speller-testbed-sme.txt
│   └── wordlist.pl
└── working_files - slett
    ├── 00README.txt
    ├── all-lemmas-freq.txt
    ├── bound-nonhapax-compounds.txt
    ├── bound-nonrec-unrec-freqsorted.txt
    ├── bound-nonrec-unrec.txt
    ├── non-hapax-bound_ravttoluokta.txt
    ├── non-hapax-compounds-free-freq.txt
    ├── non-hapax-compounds-free-typos.txt
    ├── non-hapax-compounds-free.txt
    ├── non-hapax-free_vistesuodjalus.txt
    ├── non-hapax_lemma-freq.txt
    ├── non-hapax_lemma.txt
    ├── non-hapax_lemma_NVD-freq.txt
    └── non-hapax_lemma_NVD.txt

8 directories, 67 files

OmegaT

Trond har laga: $GTBIG/mt/omegat/, som inneheld 10 underkatalogar (fin-sme … sme-smn), dvs alle sme-smX-par, sme-nob, nob-sme, fin-smX.

Tanken er: Omsetjarar skal kunne sjekke ut desse katalogane (anonym svn) og få alle ressursar, dokumentasjon på [/mt/omegat/OmegaT.html]

$GTHOME/words/dicts/*/bin/all-*.lexc (evt. fjerna entryar med mellomrom)

Forbetringspotensiale i OmegaT

  1. lemmatisere L1
  2. generere L2 i same bøyingsform (evt. korresponderande form) som L1

Tiltak

Tokenizer i OmegaT

Vi kan bruke fst-ane våre som input til å lage LuceneNortSaamiTokenizer, etc. Finn vi då lemma, eller stamme?

Tiltak

FinUgReViTa

Divvun bør invitera dei til Tromsø. Bør koordinerast med andre ting og arr.

FAO og Grønland

Trond sin tur til Færøyane gjekk fint, takk til hjelp frå Sjur og Kevin.

Framlegg: Samkøyre opplæring for kal, fao, Sjur er invitert til Nuuk. Sjur ser på det.

MacDivvun

Nyskriving av MacVoikko. Inneheld bibliotek for automatisk installering og oppdatering av stavekontrollane.

  1. Programmeringa er gjort.
  2. Sjur kompilerer og sjekkar (sme, smj, sma, smn, sms)
  3. Vi legg det ut som beta og får fleire til å teste

Tidsplan: Vi prøver å få ein beta til neste veke.