Giellateknomøte 14.9. 2016
Til stades: Ciprian, Lene, Marja-Liisa (på dei tre siste sakene), Tiina, Trond
Saker
- Møterommet
- Oahpa-veka
- Korpusarbeid og Korp
- Rutine for janmleg køyring av analyser
- Clarino
- MT-møtet i Helsingfors
- Brasil
- Ressursar til MT-prosjektet
- Andre saker
Møterommet
- Førebels liste nesten i orden.
- Manglar: Skøyteledning til prosjektør (Trond spør FL)
- Kyrre og besøk til Handelshøgskolen el.l. (Trond)
- Tidspunkt: Ikkje under ume-førelesinga, ikkje neste veke.
Oahpa-veka
Lene tar kontakt med Reidun for å ordne overnatting for Ryan og Heli
Vi alle setter av tid for å forberede workshopen (Heimelekse: sjå på sida til workshopen)
[http://giellatekno.uit.no/ped/common/NotesForNewOahpaCode.html]
Ciprian er på seminar onsdag-fredag. Det bør settes av tid en kveld for å diskutere dokumentasjon av NDS: Trond, Ciprian og Ryan. Dokumentasjonen som finnes, må leses på forhånd. Ansvar: Trond (brev til Ryan)
Order rom til Oahpa-veka. TODO: Trond
Korpusarbeid og Korp
Saker som ikke er løst i Korp-grensesnittet vårt:
- lemmasøk (for extended search)
- lemgram (som gir brukeren muligheta til å velge lemma etter å ha skrevet inn en ordform)
- søk på syntaktiske tagger (for extended search)
- forbedring av grensesnittet, hvis mulig?
- brukerdokumentasjon: legge inn eksempel på relevante søk
Testing av den nye preprocesseren og den gamle og deretter diffe: biggies/gt/sme/corp/sme-goldcorpus.txt
New preprocessor (standing in sme):
... | hfst-tokenize tools/preprocess/tokeniser-disamb-gt-desc.pmhfst | ...
... | preprocess --abbr=tools/preprocess/abbr.txt
Postprocessing
hfst-lookup --with-some-cg-output-flag sme.hfst | ...
Trond discusses this with Sjur:
- check gold corpus
- check analysis on
- Missing lists for sme, sma, smj
Nye tekstar
[http://www.riista.fi]
Clarino
Vi diskuterte dette. Trond og Ciprian følgjer opp.
Brasil
Trond skriv ein kort presentasjon av Giellatekno og Divvun
Rutine for janmleg køyring av MT-oversettinger
Compiling: Compile sme, smX, apertium-sme-smX.
giella-core/scripts
sh make-sme-smn.sh
sh make-sme-smj.sh
sh make-sme-sma.sh
wercheck_mt-otpt.py (wer FALSE)
python wercheck_mt-otpt.py -d tmx_data/
python check_mt-otpt.py -d pseudo_tmx_data/
Run them every night, put them in an apertium directory, with link from the MT pages
- Put them in the svn - where?
- which svn: apertium or gt?
apertium-sme-smj$ cat tmx_data/* | wc -l
10564
apertium-sme-sma$ cat tmx_data/* | wc -l
11499
apertium-sme-smn$ cat tmx_data/* | wc -l
7630
apertium-sme-smn$ cat fi.samediggi/* | wc -l
113841
We will have to do that in a way that
- makes the text accessible to the linguists
- without spending too
Finding unused texts and parallel texts
- [http://www.riista.fi] (Finnish - North Saami - Swedish)
- Programs for political parties (offer the tool to the parties)
- Also consider a party programs’ corpus
- Textbooks for schools
Trond and Ciprian to look at the technical issue with storage, and Ciprian implement afterwards
MT-møtet i Helsingfors
Trond orienterte om …. i Helsinki 12. sept.
Ressursar til MT-prosjektet
- Diskutere med Laura om tidsdisponering
- Korpusarbeid
- Andre prosjekt
- Lingvistar, Petter*
- Francis, Kevin
Trond tar med innspel til møte med instituttet.
Neste møte
onsdag 28. sept. 2016 (Lene vil sannsynligvis være bortreist 29-30.9)