S&T-møte 28.2.2017

Saksliste

gt/sme/
OmegaT
FinUgReViTa
fao
Grønland
MacDivvun

gt/sme/

$ tree
.
├── script
│   ├── 500testCGrules.sh -- spør, framlegg: slett
│   ├── eckhard.sh -- slett
│   ├── syntestCGrules.sh -- erstatta med langs/sme/test/src/syntax/syntax_developertest.sh, framlegg: slett
│   ├── testCGrules.sh -- erstatta med ??, sjekk med Lene, framlegg: slett
│   ├── testadj.sh -- slett
│   ├── testnoun.sh -- slett
│   ├── testproper.sh -- slett
│   ├── testverb.sh -- slett
│   └── uniqCG.sh - Skript for å kjøre sum-cg.pl uten semtagger -- utdatert, oppdater sum-cg.pl
├── src
│   ├── Makefile
│   ├── Oldsme-dis.rle - kopi av urevidert sme.dis, før regelsamanslåing og flytting til nyinfra -- spør Lene
│   ├── README - slett
│   ├── dis-tag.txt - script for å slette V N Actor -- slett
│   ├── sme-olddis.rle = lager av utkommenterte reglar frå 2008 -- slett
│   ├── sme-tdis.rle = 5 reglar for tekstdisambiguering, irrelevant med ny vislcg3 -- slett
│   ├── tag-pos.regex = fjern alle taggar bortsett frå ordklasse -- slett
│   ├── tag-sme.regex = til samiske namn -- flytt
│   └── wordfeud.sh = trekkjer ut lemma -- flytt og generaliser
├── testing
│   ├── Makefile
│   ├── README
│   ├── codes
│   │   ├── default
│   │   │   ├── a-codes.txt
│   │   │   ├── n-codes.txt
│   │   │   ├── num-codes.txt
│   │   │   ├── prop-codes.txt
│   │   │   ├── pxnoun-codes.txt
│   │   │   └── v-codes.txt
│   │   ├── dict
│   │   │   ├── A-codes.txt
│   │   │   ├── G3-codes.txt
│   │   │   ├── N-codes.txt
│   │   │   ├── NomAg-codes.txt
│   │   │   ├── Npl-codes.txt
│   │   │   ├── Num-codes.txt
│   │   │   ├── Pron-codes.txt
│   │   │   ├── Prop-codes.txt
│   │   │   └── V-codes.txt
│   │   └── oahpa
│   │       ├── a-codes.txt
│   │       ├── n-codes.txt
│   │       ├── num-codes.txt
│   │       ├── prop-codes.txt
│   │       └── v-codes.txt
│   ├── gen-paradigms.pl
│   ├── gen-paradigms.sh
│   ├── hyphenation.txt
│   ├── ii+leat+clitics-test-sme.txt
│   ├── make-dictindex
│   ├── make-gen-dict
│   ├── paradigm2xml.pl
│   ├── parawlist.txt
│   ├── run_generation.sh
│   ├── sme-plxtestwords.txt
│   ├── sme-tests.yaml
│   ├── speller-testbed-sme.txt
│   └── wordlist.pl
└── working_files - slett
    ├── 00README.txt
    ├── all-lemmas-freq.txt
    ├── bound-nonhapax-compounds.txt
    ├── bound-nonrec-unrec-freqsorted.txt
    ├── bound-nonrec-unrec.txt
    ├── non-hapax-bound_ravttoluokta.txt
    ├── non-hapax-compounds-free-freq.txt
    ├── non-hapax-compounds-free-typos.txt
    ├── non-hapax-compounds-free.txt
    ├── non-hapax-free_vistesuodjalus.txt
    ├── non-hapax_lemma-freq.txt
    ├── non-hapax_lemma.txt
    ├── non-hapax_lemma_NVD-freq.txt
    └── non-hapax_lemma_NVD.txt

8 directories, 67 files

OmegaT

Trond har laga: $GTBIG/mt/omegat/, som inneheld 10 underkatalogar (fin-sme … sme-smn), dvs alle sme-smX-par, sme-nob, nob-sme, fin-smX.

Tanken er: Omsetjarar skal kunne sjekke ut desse katalogane (anonym svn) og få alle ressursar, dokumentasjon på [/mt/omegat/OmegaT.html]

$GTHOME/words/dicts/*/bin/all-*.lexc (evt. fjerna entryar med mellomrom)

Forbetringspotensiale i OmegaT

lemmatisere L1
generere L2 i same bøyingsform (evt. korresponderande form) som L1

Tiltak

Trond legg til dict-lister i glossary, utan lukka ordklasser, og fjerner visse ordtypar
Ciprian legg til parallelltekst (som avtalt i tidlegare møte)
Sjur ser på sátni.org, og legg dei til som separate lister (vi ser på integrering etterpå)
Trond slettar irrelevante språk i segmenteringsfila

Tokenizer i OmegaT

Vi kan bruke fst-ane våre som input til å lage LuceneNortSaamiTokenizer, etc. Finn vi då lemma, eller stamme?

Tiltak

Sjur ser på lemmatisering (sjekk med Tino og Tomi når det gjeld Lucene-basert lemmatisering og hfst)

FinUgReViTa

Divvun bør invitera dei til Tromsø. Bør koordinerast med andre ting og arr.

FAO og Grønland

Trond sin tur til Færøyane gjekk fint, takk til hjelp frå Sjur og Kevin.

Framlegg: Samkøyre opplæring for kal, fao, Sjur er invitert til Nuuk. Sjur ser på det.

MacDivvun

Nyskriving av MacVoikko. Inneheld bibliotek for automatisk installering og oppdatering av stavekontrollane.

Programmeringa er gjort.
Sjur kompilerer og sjekkar (sme, smj, sma, smn, sms)
Vi legg det ut som beta og får fleire til å teste

Tidsplan: Vi prøver å få ein beta til neste veke.

Sitemap

Language Technology at UiT

Page Content