The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages
Giellateknomøte 14.9. 2016
Til stades: Ciprian, Lene, Marja-Liisa (på dei tre siste sakene), Tiina, Trond
Lene tar kontakt med Reidun for å ordne overnatting for Ryan og Heli
Vi alle setter av tid for å forberede workshopen (Heimelekse: sjå på sida til workshopen)
[http://giellatekno.uit.no/ped/common/NotesForNewOahpaCode.html]
Ciprian er på seminar onsdag-fredag. Det bør settes av tid en kveld for å diskutere dokumentasjon av NDS: Trond, Ciprian og Ryan. Dokumentasjonen som finnes, må leses på forhånd. Ansvar: Trond (brev til Ryan)
Order rom til Oahpa-veka. TODO: Trond
Saker som ikke er løst i Korp-grensesnittet vårt:
Testing av den nye preprocesseren og den gamle og deretter diffe: biggies/gt/sme/corp/sme-goldcorpus.txt
New preprocessor (standing in sme):
... | hfst-tokenize tools/preprocess/tokeniser-disamb-gt-desc.pmhfst | ...
... | preprocess --abbr=tools/preprocess/abbr.txt
Postprocessing
hfst-lookup --with-some-cg-output-flag sme.hfst | ...
Trond discusses this with Sjur:
[http://www.riista.fi]
Vi diskuterte dette. Trond og Ciprian følgjer opp.
Trond skriv ein kort presentasjon av Giellatekno og Divvun
Compiling: Compile sme, smX, apertium-sme-smX.
giella-core/scripts
sh make-sme-smn.sh
sh make-sme-smj.sh
sh make-sme-sma.sh
wercheck_mt-otpt.py (wer FALSE)
python wercheck_mt-otpt.py -d tmx_data/
python check_mt-otpt.py -d pseudo_tmx_data/
Run them every night, put them in an apertium directory, with link from the MT pages
apertium-sme-smj$ cat tmx_data/* | wc -l
10564
apertium-sme-sma$ cat tmx_data/* | wc -l
11499
apertium-sme-smn$ cat tmx_data/* | wc -l
7630
apertium-sme-smn$ cat fi.samediggi/* | wc -l
113841
We will have to do that in a way that
Finding unused texts and parallel texts
Trond and Ciprian to look at the technical issue with storage, and Ciprian implement afterwards
Trond orienterte om …. i Helsinki 12. sept.
Trond tar med innspel til møte med instituttet.
onsdag 28. sept. 2016 (Lene vil sannsynligvis være bortreist 29-30.9)