The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages
View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no
Saksliste Sjur og Trond 4.11.14.
Saker:
Vi vil ha - kva står att?
Taggen +Use/NA
er no fjerna frå lexc. Den eine staden der han var i
bruk er han endra til +Use/MT
(på linje med sma), med innhaldet
fjern i andre fst-ar enn apertium-generering.
Dermed er han ikkje noko hinder for flyttinga.
Lokaliserte taggar:
src/analyser-nob-desc.xfst
src/analyser-nob-norm.xfst
Konverteringa er definert i src/tagsets/nob.regex
.
I tillegg må ein be om at
fst-en blir bygd, ved å leggja til liner som dette i Makefile.am
:
if WANT_MORPHOLOGY
GT_ANALYSERS_XFST+= analyser-nob-desc.xfst \
analyser-nob-norm.xfst
endif # WANT_MORPHOLOGY
if WANT_GENERATION
GT_GENERATORS_XFST+=generator-nob-desc.xfst \
generator-nob-norm.xfst
endif # WANT_GENERATION
NB! Språkkoden i fst-namnet og i tagsetfila må vera den same.
Namnet -nob- refererer dermed til språket på (dei lokaliserte) taggane, ikkje til språket i automaten. (dvs -nob- istf. -gt-)
Konklusjon: er vi klare til å flytta? Vi manglar svart frå Ciprian. Funkar ny infra for dict-genereringa? Når svaret på dette spørsmålet er ja er vi klare til å flytta.
Ciprian har problem med vislcg3, Sjur legg inn støtte for å slå av syntakskompilering, deretter kan Ciprian byggja og testa morfologiane slik han vil utan vislcg3-interferens.
Korleis går det?
Tidsplan: Denne/neste veke.
jf. siste referat om romanar/oversyn. Vidare oppfylging etter Uppsala.
Betre politikk for prioritering:
bug 1363, derivasjonar, hash og twol-reglar
Trond skriv ein meir konkret kommentar.
Kjappare no? Lookup er mykje kjappare i 3.8.1 enn i 3.8.0. Ingen andre endringar.
På ein skala frå 1 til 5 (best), vart røystene vurdert slik:
MOS-samandrag:
Divvun/UiT: Acapela:
MOS norsk kvinnestemme: 3,71 3,71
MOS samisk kvinnestemme: 3,68 3,68
MOS norsk mannsstemme: 3,76 3,76
MOS samisk mannsstemme: 3,61 3,62
Andre ting:
Vi vil ikkje ha manuelle endringar, vi vil ha automatisk konvertering.
Frå IRC/#hfst:
[09:59am] spectre: TinoDidriksen, would it be hard to write a program or option
for vislcg3 that reads a grammar file and outputs a list of
tags/symbols and sets ?
[10:04am] TinoDidriksen: spectre, that'd be trivial...
[10:07am] spectre: and how about a program that rewrites them ?
[10:07am] spectre: e.g. we'd like to make the CGs work with >1 tagset
[10:08am] spectre: the first step is to get rid of inline sets
[10:08am] TinoDidriksen: Just include the separate tagsets.
[10:09am] spectre: ugh
[10:09am] spectre: that's hideous
[10:09am] spectre: sjnomos, --^
[10:09am] TinoDidriksen: Have 2+ parent grammars that include the tagset and
independent rules. That's how you'd do it in XML as well.
[10:09am] spectre: in the FSTs we have relabelling scripts
[10:10am] TinoDidriksen: That's an option.
[10:11am] spectre: i have an awful python script for relabelling the sámi CG
[10:11am] spectre: but it just lowercases everything with some mangling
[10:11am] TinoDidriksen: I just don't understand why you put this into the
FSTs or CGs. Why isnt this a filter program in the chain?
[10:11am] spectre: tagsets are shitty
[10:11am] spectre: filter programs don't work
[10:13am] TinoDidriksen: If you can relabel them mechanically, I don't see how
a filter is impossible.
[10:13am] spectre: you can't relabel them fully automatically
[10:14am] spectre: there are always holes
[10:15am] TinoDidriksen: Are the conversions 1:1? That'd be easy to add to CG.
[10:15am] spectre: many:many
[10:17am] TinoDidriksen: Hm. Well, I will make CG-3 dump single tags. How do
you want sets dumped? Their whole definition, or just names, or what?
[10:18am] spectre: whole definition
Konklusjon: Vi vil ha russisk fungerande både i nyinfra og i Apertium, og fungerande, språkuavhengig tagkonvertering for CG.
Genererte tagsetfiler blir ikkje ignorerte.
Trond ser på set-svn-ignores-langs.sh
for å retta på dette.
Det gjeld:
? sme/tools/mt/apertium/tagsets/apertium.relabel
? sme/tools/mt/apertium/tagsets/apertiumtags.txt
Filer som:
? src/morphology/stems/smi-propernouns.lexc
? src/morphology/stems/smi-sme-propernouns.lexc
er gamle og skal slettast.