Giellateknomøte 26.9.2018
Tilstede: Ciprian, Chiara, Trond, Lene
Saker
- Korpusprosessering
- Sammensetninger i nds
- Seminarer i haust
- SVN-servar
Korpusprosessering
Viss vi har bestemt at vi skal ha xfst inn sjekkar vi missing list, taggar,
Samanlikning hfst - xfst er til
- for debugging av hfst
- for å forbetre korpusanalyse (no av xfst, seinare hfst)
- for å forbetre hfst-prosessering
Samanligning xfst - førre xfst som regresjonstesting
- for å sikre at det er like bra analyse som siste Korp-køyring
- Døme: fkv manglar eit filter som dei andre språka har
Ranking av språk for seminaret
Alle dei samiske språka. Andre språk er ikkje så relevant for Oulu.
Problem med url
Dette er ikkje berre pipelineproblem, jf. bz 1234.
Prosessering av taggar
For korpusprosessering til neste Korp: Semtaggane blir brukt i analysen, men ikkje sett inn i Korp. Ciprian fjernar dei med andre ord i steget frå analyse til Korp.
Err/Lex og Err/Orth – vi fjernar dei også i Korp.
NB! Nye taggar skal ikkje berre i root.lexc, men også i filterfilene.
LIA
- Filtrere bort taggar som ikkje går til analyse
- cip jobbar
- Korleis vise derivasjon
- Korleis vise samansette ord Tekstlab: Vi kan ha eit eige felt, bytte, ta vare på strengen, og vise info om info/derivasjon der. Alle ord får eit slikt ekstra felt.
I staden for å ha eit ekstrafelt for andre, har eg ein separator (unik) i eit eksisterande felt. For samansette ord kan vi ha /for ABC: C som lemma, deretter separator og info (BA). Dermed blir informasjonen ikkje kasta bort.
Viss vi søker på “skuvla” får vi opp ikkjesamansette ord med “skuvla” som sisteord.
MT i LIA; I og med at dei lenkjer til online-MT i grensesnittet, treng vi ikkje omsetje som del av pipeline.
Trond ser på dette neste veke.
Sammensetninger i nds
Vi diskuterte šibitbussevuoddji og miessemánnofeasta
miessemánnofeasta
miessemánnu - mai
feasta - fest
-----------------
miessi - reinkalv
mánnu - måned
feasta - fest
Seminarer i haust
- CG i november
- Lyd Helsinki i desember
- Maskinlæring i desember (Måns)
SVN-servar
Ciprian tar kontakt med IT om gtsvn (vi har ein plan)