Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Giellateknomøte 26.9.2018

Tilstede: Ciprian, Chiara, Trond, Lene

Saker

Korpusprosessering

Viss vi har bestemt at vi skal ha xfst inn sjekkar vi missing list, taggar,

Samanlikning hfst - xfst er til

Samanligning xfst - førre xfst som regresjonstesting

Ranking av språk for seminaret

Alle dei samiske språka. Andre språk er ikkje så relevant for Oulu.

Problem med url

Dette er ikkje berre pipelineproblem, jf. bz 1234.

Prosessering av taggar

For korpusprosessering til neste Korp: Semtaggane blir brukt i analysen, men ikkje sett inn i Korp. Ciprian fjernar dei med andre ord i steget frå analyse til Korp.

Err/Lex og Err/Orth – vi fjernar dei også i Korp.

NB! Nye taggar skal ikkje berre i root.lexc, men også i filterfilene.

LIA

  1. Filtrere bort taggar som ikkje går til analyse
    1. cip jobbar
  2. Korleis vise derivasjon
  3. Korleis vise samansette ord Tekstlab: Vi kan ha eit eige felt, bytte, ta vare på strengen, og vise info om info/derivasjon der. Alle ord får eit slikt ekstra felt.

I staden for å ha eit ekstrafelt for andre, har eg ein separator (unik) i eit eksisterande felt. For samansette ord kan vi ha /for ABC: C som lemma, deretter separator og info (BA). Dermed blir informasjonen ikkje kasta bort.

Viss vi søker på “skuvla” får vi opp ikkjesamansette ord med “skuvla” som sisteord.

MT i LIA; I og med at dei lenkjer til online-MT i grensesnittet, treng vi ikkje omsetje som del av pipeline.

Trond ser på dette neste veke.

Sammensetninger i nds

Vi diskuterte šibitbussevuoddji og miessemánnofeasta

miessemánnofeasta
	miessemánnu - mai
	feasta - fest
	-----------------
	miessi - reinkalv
	mánnu - måned
	feasta - fest

Seminarer i haust

SVN-servar

Ciprian tar kontakt med IT om gtsvn (vi har ein plan)