Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Page Content

Saksliste Sjur og Trond 4.11.14.

Saker:

Nyinfra for sme

Vi vil ha - kva står att? Taggen +Use/NA er no fjerna frå lexc. Den eine staden der han var i bruk er han endra til +Use/MT (på linje med sma), med innhaldet fjern i andre fst-ar enn apertium-generering. Dermed er han ikkje noko hinder for flyttinga.

Lokaliserte taggar:

src/analyser-nob-desc.xfst
src/analyser-nob-norm.xfst

Konverteringa er definert i src/tagsets/nob.regex. I tillegg må ein be om at fst-en blir bygd, ved å leggja til liner som dette i Makefile.am:

if WANT_MORPHOLOGY
GT_ANALYSERS_XFST+= analyser-nob-desc.xfst \
					analyser-nob-norm.xfst
endif # WANT_MORPHOLOGY

if WANT_GENERATION
GT_GENERATORS_XFST+=generator-nob-desc.xfst \
					generator-nob-norm.xfst
endif # WANT_GENERATION

NB! Språkkoden i fst-namnet og i tagsetfila må vera den same.

Namnet -nob- refererer dermed til språket på (dei lokaliserte) taggane, ikkje til språket i automaten. (dvs -nob- istf. -gt-)

Konklusjon: er vi klare til å flytta? Vi manglar svart frå Ciprian. Funkar ny infra for dict-genereringa? Når svaret på dette spørsmålet er ja er vi klare til å flytta.

Ciprian har problem med vislcg3, Sjur legg inn støtte for å slå av syntakskompilering, deretter kan Ciprian byggja og testa morfologiane slik han vil utan vislcg3-interferens.

Forrest

Korleis går det?

  1. kløyv gtuit-forrest i to likt Divvun
  2. bygg ut gtuit til å vera fleirspråkleg slik Divvun er det
  3. lag felles techdoc

Tidsplan: Denne/neste veke.

Korpusinnsamling

jf. siste referat om romanar/oversyn. Vidare oppfylging etter Uppsala.

Bugzilla

Betre politikk for prioritering:

bug 1363, derivasjonar, hash og twol-reglar

Trond skriv ein meir konkret kommentar.

hfst

Kjappare no? Lookup er mykje kjappare i 3.8.1 enn i 3.8.0. Ingen andre endringar.

Oppsummering av tts-betatestinga

På ein skala frå 1 til 5 (best), vart røystene vurdert slik:

MOS-samandrag:
                     Divvun/UiT:  Acapela:
MOS norsk kvinnestemme:     3,71     3,71
MOS samisk kvinnestemme:    3,68     3,68
MOS norsk mannsstemme:      3,76     3,76
MOS samisk mannsstemme:     3,61     3,62

Andre ting:

cg-taggar og apertium (russisk)

Vi vil ikkje ha manuelle endringar, vi vil ha automatisk konvertering.

Frå IRC/#hfst:

[09:59am] spectre: TinoDidriksen, would it be hard to write a program or option
		  for vislcg3 that reads a grammar file and outputs a list of
		  tags/symbols and sets ?
[10:04am] TinoDidriksen: spectre, that'd be trivial...
[10:07am] spectre: and how about a program that rewrites them ?
[10:07am] spectre: e.g. we'd like to make the CGs work with >1 tagset
[10:08am] spectre: the first step is to get rid of inline sets
[10:08am] TinoDidriksen: Just include the separate tagsets.
[10:09am] spectre: ugh
[10:09am] spectre: that's hideous
[10:09am] spectre: sjnomos, --^
[10:09am] TinoDidriksen: Have 2+ parent grammars that include the tagset and
		  independent rules. That's how you'd do it in XML as well.
[10:09am] spectre: in the FSTs we have relabelling scripts
[10:10am] TinoDidriksen: That's an option.
[10:11am] spectre: i have an awful python script for relabelling the sámi CG
[10:11am] spectre: but it just lowercases everything with some mangling
[10:11am] TinoDidriksen: I just don't understand why you put this into the
		  FSTs or CGs. Why isnt this a filter program in the chain?
[10:11am] spectre: tagsets are shitty
[10:11am] spectre: filter programs don't work
[10:13am] TinoDidriksen: If you can relabel them mechanically, I don't see how
		  a filter is impossible.
[10:13am] spectre: you can't relabel them fully automatically
[10:14am] spectre: there are always holes
[10:15am] TinoDidriksen: Are the conversions 1:1? That'd be easy to add to CG.
[10:15am] spectre: many:many
[10:17am] TinoDidriksen: Hm. Well, I will make CG-3 dump single tags. How do
		  you want sets dumped? Their whole definition, or just names, or what?
[10:18am] spectre: whole definition

Konklusjon: Vi vil ha russisk fungerande både i nyinfra og i Apertium, og fungerande, språkuavhengig tagkonvertering for CG.

Genererte tagsetfiler blir ikkje ignorerte. Trond ser på set-svn-ignores-langs.sh for å retta på dette.

Det gjeld:

?       sme/tools/mt/apertium/tagsets/apertium.relabel
?       sme/tools/mt/apertium/tagsets/apertiumtags.txt

Filer som:

?       src/morphology/stems/smi-propernouns.lexc
?       src/morphology/stems/smi-sme-propernouns.lexc

er gamle og skal slettast.