The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages
View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no
S&T-møte 28.2.2017
$ tree
.
├── script
│ ├── 500testCGrules.sh -- spør, framlegg: slett
│ ├── eckhard.sh -- slett
│ ├── syntestCGrules.sh -- erstatta med langs/sme/test/src/syntax/syntax_developertest.sh, framlegg: slett
│ ├── testCGrules.sh -- erstatta med ??, sjekk med Lene, framlegg: slett
│ ├── testadj.sh -- slett
│ ├── testnoun.sh -- slett
│ ├── testproper.sh -- slett
│ ├── testverb.sh -- slett
│ └── uniqCG.sh - Skript for å kjøre sum-cg.pl uten semtagger -- utdatert, oppdater sum-cg.pl
├── src
│ ├── Makefile
│ ├── Oldsme-dis.rle - kopi av urevidert sme.dis, før regelsamanslåing og flytting til nyinfra -- spør Lene
│ ├── README - slett
│ ├── dis-tag.txt - script for å slette V N Actor -- slett
│ ├── sme-olddis.rle = lager av utkommenterte reglar frå 2008 -- slett
│ ├── sme-tdis.rle = 5 reglar for tekstdisambiguering, irrelevant med ny vislcg3 -- slett
│ ├── tag-pos.regex = fjern alle taggar bortsett frå ordklasse -- slett
│ ├── tag-sme.regex = til samiske namn -- flytt
│ └── wordfeud.sh = trekkjer ut lemma -- flytt og generaliser
├── testing
│ ├── Makefile
│ ├── README
│ ├── codes
│ │ ├── default
│ │ │ ├── a-codes.txt
│ │ │ ├── n-codes.txt
│ │ │ ├── num-codes.txt
│ │ │ ├── prop-codes.txt
│ │ │ ├── pxnoun-codes.txt
│ │ │ └── v-codes.txt
│ │ ├── dict
│ │ │ ├── A-codes.txt
│ │ │ ├── G3-codes.txt
│ │ │ ├── N-codes.txt
│ │ │ ├── NomAg-codes.txt
│ │ │ ├── Npl-codes.txt
│ │ │ ├── Num-codes.txt
│ │ │ ├── Pron-codes.txt
│ │ │ ├── Prop-codes.txt
│ │ │ └── V-codes.txt
│ │ └── oahpa
│ │ ├── a-codes.txt
│ │ ├── n-codes.txt
│ │ ├── num-codes.txt
│ │ ├── prop-codes.txt
│ │ └── v-codes.txt
│ ├── gen-paradigms.pl
│ ├── gen-paradigms.sh
│ ├── hyphenation.txt
│ ├── ii+leat+clitics-test-sme.txt
│ ├── make-dictindex
│ ├── make-gen-dict
│ ├── paradigm2xml.pl
│ ├── parawlist.txt
│ ├── run_generation.sh
│ ├── sme-plxtestwords.txt
│ ├── sme-tests.yaml
│ ├── speller-testbed-sme.txt
│ └── wordlist.pl
└── working_files - slett
├── 00README.txt
├── all-lemmas-freq.txt
├── bound-nonhapax-compounds.txt
├── bound-nonrec-unrec-freqsorted.txt
├── bound-nonrec-unrec.txt
├── non-hapax-bound_ravttoluokta.txt
├── non-hapax-compounds-free-freq.txt
├── non-hapax-compounds-free-typos.txt
├── non-hapax-compounds-free.txt
├── non-hapax-free_vistesuodjalus.txt
├── non-hapax_lemma-freq.txt
├── non-hapax_lemma.txt
├── non-hapax_lemma_NVD-freq.txt
└── non-hapax_lemma_NVD.txt
8 directories, 67 files
Trond har laga: $GTBIG/mt/omegat/
, som inneheld 10 underkatalogar
(fin-sme … sme-smn), dvs alle sme-smX-par, sme-nob, nob-sme, fin-smX.
Tanken er: Omsetjarar skal kunne sjekke ut desse katalogane (anonym svn) og få alle ressursar, dokumentasjon på [/mt/omegat/OmegaT.html]
$GTHOME/words/dicts/*/bin/all-*.lexc
(evt. fjerna entryar med mellomrom)
Forbetringspotensiale i OmegaT
Tiltak
Vi kan bruke fst-ane våre som input til å lage LuceneNortSaamiTokenizer, etc. Finn vi då lemma, eller stamme?
Tiltak
Divvun bør invitera dei til Tromsø. Bør koordinerast med andre ting og arr.
Trond sin tur til Færøyane gjekk fint, takk til hjelp frå Sjur og Kevin.
Framlegg: Samkøyre opplæring for kal, fao, Sjur er invitert til Nuuk. Sjur ser på det.
Nyskriving av MacVoikko. Inneheld bibliotek for automatisk installering og oppdatering av stavekontrollane.
Tidsplan: Vi prøver å få ein beta til neste veke.