Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

“Måndagsmøte”

Saksliste:

Endringane i transducer-kompileringa

Jf. svn-log r54783, r54785. Viktig: M4 er ute, og vi bruker fst-manipulering i staden. Save-fila byggjer på save-hyph. Grenser er synlege i twoltrans. Stavekontrollen (hunspell, plx) bruker også same transducer.

Som ein del av desse endringane har >7 vorte endra til [[>] for å unngå at >70 blir analysert som >0. I tillegg er desse symbola no koda systematisk for både venstre og høgre side (slik at vi har morfologiske skiljeteikn for både prefigerande og suffigerande morfologi).

%<+PUNCT+LEFT:%[%<%]   # ;
%>+PUNCT+RIGHT:%[%>%]   # ;

Hunspell + tex-hyph til 1. april

M4-arbeidet vart gjort pga. fristen for å få hunspell ferdig til april. Sjur og Børre arbeider med hunspell.

plx: Kva med å halvere den plx-fila som blir generert med 1 verb, 1 substantiv, 1 adjektiv, 1 propernoun?

korpus, tmx og FAD

TILTAK

hfst, cg og talesyntese

diskusjonen med Tino

lookup2cg

Sjur: Er avhengig av ein perl-fri pipeline for talesyntese (ferdig i 2012), og vil ikkje gå inn på eit prosjekt med å flikke på lookup2cg.

Trond: Viss vi kan få ein fst-basert postprosessor på beina snart kan dette vere ein veg å gå.

TILTAK

hfst-proc - GSoC med Apertium?

Francis vil ha hfst-proc som GSoC-prosjekt. Det er overlapp med prosjektet vårt, men det er viktige skilnader.

Input, default (vi går ut i frå at PrfPrc er korrekt lesing):

"<doapmalan>"
	 "doapmat" V PrfPrc
		"doapmat" Der/l
			"doapmat" V IV
	 "doapmat" V Actio Nom
		"doapmat" Der/l
			"doapmat" V IV

Forslag til nytt input-format (til CG) (“//” er ikkje endeleg symbol, berre eit eksempel):

"<doapmalan>"
	 "doapmat" V IV // Der/l // V PrfPrc
	 "doapmat" V IV // Der/l // V Actio Nom

Output (i begge tilfelle):

"<doapmalan>"
	 "doapmat" V PrfPrc
		"doapmat" Der/l
			"doapmat" V IV

TILTAK

NB/Mo

Børre skal ha møte med Johanne på fredag. Trond prata med Freddy, dei pratar på nytt når han har lese e-posten frå Trond.

Bugzilla

Trond og Sjur tar opp dei ulike bugane med respektive ansvarlege.

Samisk på smarttelefonar og interaktive lesebrett

Få samisk til å fungera på iPhone og andre smarttelefonar. Dette er viktig for FAD.

Dette er ei politisk sak (få Apple, og evt. Google, til å inkludere samisk). Men først må dei samiske løysingane bli utarbeidde.

Hash i lemma

I dag er dei for human eyes only. Vi diskuterer om vi vil ha det eller ikkje, i neste veke.

Prioriteringar framover

  1. Hunspell/orddelling (Avvir) 1.4.
  2. Bugzilla (jf. tidsfristene)
  3. Pre- og postprosessering
  4. FAD/korpus: 12.3. og 31.3.