Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Giellateknomøte 14.9. 2016

Til stades: Ciprian, Lene, Marja-Liisa (på dei tre siste sakene), Tiina, Trond

Saker

Møterommet

Oahpa-veka

Lene tar kontakt med Reidun for å ordne overnatting for Ryan og Heli

Vi alle setter av tid for å forberede workshopen (Heimelekse: sjå på sida til workshopen)

[http://giellatekno.uit.no/ped/common/NotesForNewOahpaCode.html]

Ciprian er på seminar onsdag-fredag. Det bør settes av tid en kveld for å diskutere dokumentasjon av NDS: Trond, Ciprian og Ryan. Dokumentasjonen som finnes, må leses på forhånd. Ansvar: Trond (brev til Ryan)

Order rom til Oahpa-veka. TODO: Trond

Korpusarbeid og Korp

Saker som ikke er løst i Korp-grensesnittet vårt:

Testing av den nye preprocesseren og den gamle og deretter diffe: biggies/gt/sme/corp/sme-goldcorpus.txt

New preprocessor (standing in sme):

... | hfst-tokenize tools/preprocess/tokeniser-disamb-gt-desc.pmhfst | ...
... | preprocess --abbr=tools/preprocess/abbr.txt

Postprocessing

hfst-lookup --with-some-cg-output-flag sme.hfst | ...

Trond discusses this with Sjur:

  1. check gold corpus
  2. check analysis on
  3. Missing lists for sme, sma, smj

Nye tekstar

[http://www.riista.fi]

Clarino

Vi diskuterte dette. Trond og Ciprian følgjer opp.

Brasil

Trond skriv ein kort presentasjon av Giellatekno og Divvun

Rutine for janmleg køyring av MT-oversettinger

Compiling: Compile sme, smX, apertium-sme-smX.

giella-core/scripts
sh make-sme-smn.sh
sh make-sme-smj.sh
sh make-sme-sma.sh

wercheck_mt-otpt.py (wer FALSE)

python wercheck_mt-otpt.py -d tmx_data/
python check_mt-otpt.py -d pseudo_tmx_data/

Run them every night, put them in an apertium directory, with link from the MT pages

apertium-sme-smj$ cat tmx_data/* | wc -l
   10564
apertium-sme-sma$ cat tmx_data/* | wc -l
   11499
apertium-sme-smn$ cat tmx_data/* | wc -l
    7630
apertium-sme-smn$ cat fi.samediggi/* | wc -l
  113841

We will have to do that in a way that

Finding unused texts and parallel texts

Trond and Ciprian to look at the technical issue with storage, and Ciprian implement afterwards

MT-møtet i Helsingfors

Trond orienterte om …. i Helsinki 12. sept.

Ressursar til MT-prosjektet

Trond tar med innspel til møte med instituttet.

Neste møte

onsdag 28. sept. 2016 (Lene vil sannsynligvis være bortreist 29-30.9)