Sjur og Trond-møte 15.9. 2017
Saksliste
- Grammatikkontroll-dokumentasjon
- TTS
- Möterommet
- Korpusinnsamling- og möte
- Neste divvunveke
- Bz
Grammatikkontroll-dokumentasjon
- installer divvun-gramcheck via github (problem, berre delvis løyst i lag
med Kevin):
git pull && scripts/get-pugixml-and-build && sudo make instal - konfigurer med linja i grammarchecker.cg3
- kompiler
- korleis installere cg-mode i emacs og teste den
Prosjektdokumentasjon i techdoc/proof/gramcheck/, jf nettsida:
[https://giellalt.uit.no/proof/gramcheck/GrammarCheckerDocumentation.html].
Trond legg inn notatar her langs vegen, Sjur dokumenterer når støvet har lagt seg.
Vi vil generalisere det grafiske testgrensesnittet til fleire språk.
TTS
TTS på sidene våre
- vi vil ha TTS på sidene våre (jf. MT på giellatekno.uit.no)
- TTS-lim-inn-tekst (BÁ har skrivekurs) - finst på Acapella sine sider, men:
- berre den eine røysta tilgjengeleg
- kan ikkje regulera lesefart
- vi må sjølv kunna demonstrera vårt eige produkt
- Framover: TTS i NDS og TTS i icall (vi er ikkje der enno)
Installering
- det var problematisk med installering på studentmaskiner (lyktest ikkje sjølv med Thomas og Børre)
Trond skriv e-post til BÁ og Sjur.
Android og iPhone
Kan inkludera stemmene våre i appar, kan ikkje brukast i Siri osb. Det er mogleg at Android er meir open enn iOS, og at det er mogleg å få stemmane inn i heile systemet. Det må undersøkjast. Jf. ordboksapp frå oss.
Møterommet
Korleis kan vi få saka vidare?
- Sjur reinteiknar notatane våre + forklaringar
- Trond tar det vidare på universitetet
Sjur har eit utkast om 14 dagar.
Korpusinnsamling og -møte
Liste over ting å følgje opp:
- tråling (Børre) + også forhandle om å få .doc i staden for .pdf
- pdf-henting (Giellatekno)
- Sametinget og kontraktar
- konvertering (oppfølgjingsmøte om aktuelle problem)
- parallellisering
- språkattkjenning
- Vi treng å evaluere (ny) programvare,
- Alternativ til text_cat: jf. lysark frå Dublin + Jauhiainen x2
- Trond diskuterer dette med Ciprian
Trond diskuterer med Gt, Sjur med Divvun, vi tar møte over nettet med relevante personar for dei problemstillingane der vi må snakke saman (konvertering (.xsl), innsamling av .doc)
Neste divvunveke
- Første veka i oktober (2.10.-6.10)
- Neste divvunveke ssv. 44 eller 45.
- Trond diskuterer med ungararane om Divvun-evaluering, om FinUgReVita-folket kan kome hit.
Bz
Vi følgjer opp dei opne Bz-ane. Sjur har ofte skrive test og sei i frå. Det bør vi.
Andre saker
Eenaresamisk stavekontrolltesting
Det er tre alternativ for modularisert testing av stavekontrollen med det grafiske testoppsettet i devtools. Her kjem ei drøfting:
multiple byggekatalogar
smn/src
smn/src/devtools/
smn/bygg/stavekontroll/ (a) <--- den vanlege
smn/bygg/stavekontroll-modifisert/ (b) <-- ein variant ... ad lib
smn/bygg/stavekontroll-modifisert_med_dato/ (c) <-- ein variant ... ad lib
smn/bygg/mt (ikkje poeng her) lik kjelde, ulik config
Skilnaden ligg ikkje i konfigureringa, men i kjeldefilene.
I dette tilfellet:
- tools/speller/fstbased/desktop/hfst(a)
- tools/speller/fstbased/desktop/hfst(b) (t.d. utan framleggstilpasnin)
Denne passar best der skilnaden er i config-oppsettet, og ikkje der skilnaden er i kjeldefilene.
Multiple smn-katalogar
Sjekke ut fleire smn-katalogar:
- smn_a
- smn_b
Dette kan ikkje sjekke inn ulike kjeldefiler (dei vil overstyre kvarandre), men er enklare enn neste variant.
Ulike greiner
i $HOME:
svn co http://gtsvn.uit.no/langtech/branches/langs/smn branches/langs/smn_a
Denne er best der skilnaden er i kjeldefilene, her kan eg ha fleire parallelle kjeldefiler, og vil sjekka inn dei endringane ein gjer.
Trond prøver seg fram.
Munchs skrik
Jf. [http://giellatekno.uit.no/bugzilla/show_bug.cgi?id=2401]
Denne har vorte liggande.
Trond har 3 framlegg (jf. buggen), Sjur kjem med eit fjerde, og skriv i Bz.
Kompilering av sme
Dette er ei feilmelding, som har vore der ein del dagar
Resten av møtereferatet er debugging av ein feil, som vi fann, så det er eigentleg berre å slutte å lese her.
HINTRSCT generator-raw-gt-desc.tmp1.hfst
/usr/local/bin/hfst-compose-intersect: warning:
Found output multi-char symbols ("any") in
transducer in file <stdin> which are not found on the
input tapes of transducers in file phonology/sme-phon.rev.hfst.
Den liknar på tilsvarande feil i Apertium.
Her er det ein reell feil.
Spörmsål:
- Har vi det berre for sme (svar: vi har den ikkje i sma)
- Har vi noko symptom ut over feilmeldinga?
- Har vi ei tilsvarande feilmelding for xfst?
- Får brukarar med eldre hfst-kompilator same feil?
- Korleis ser symbolet “any” ut?
- Kva gjev kommandoen “print symbols”
hfst:
arc symbols actually seen in transducer:
...
£, §, ©, «, «7, , ®, °, ±, ², ³, ´, ¶, ·, ¹, », »7, ¼, ½, ¾, ¿, Á, Ä, Å, Æ, Ç, É, Í, Ò, Ó, Ö, Ø, Ü, Þ, à, á, â, ã, ä, å, æ, ç, è, é, ê, ë, í, î, ï, ð, ñ, ò, ó, ô, õ, ö, ø, ù, ú, û, ü, ý, Č, č, Đ, đ, ł, Ŋ, ŋ, ō, Š, š, Ŧ, ŧ, Ž, ž, ́, ̈, ̌, ·, ‐, ‒, –, —, ―, ‘, ’, “, ”, „, •, …, ‹, ›, €, √, ≈, ◊, ●, ❡, 😱
root.lexc 14.9.:
tf-hsl-m0016:sme ttr000$ grep any src/morphology/root.lexc
### (at your option) any later version. The GNU General Public License
## be used alone, but can appear in any position
## If unmarked, any position goes.
## # any untagged word is pronounced with SME orthographic conventions
xfst 14.9. og 15.9.:
- -rw-r–r– 1 ttr000 1907360568 4147443 14 sep 13:09 src/analyser-gt-desc.xfst (ingen any i sigma)
- -rw-r–r– 1 ttr000 1907360568 4209186 15 sep 12:20 src/analyser-gt-desc.xfst (any i sigm)
14.9.
Sigma: A Á B C Č D Ď E F G H I J K L M N O P Q R S Š T U V W X Y Z Ž a
á b c č d e f g h i j k l m n ń ñ o p q r s š t u v w x y z ž
" " ! %" # $ "%" & ' ( ) * + +A +ABBR +ACR +Acc +Actio +Adv
15.9.
xfst[1]: print sigma
Sigma: A Á B C Č D Ď E F G H I J K L M N O P Q R S Š T U V W X Y Z Ž a
any á b c č d e f g h i j k l m n ń ñ o p q r s š t u v w x y z
Med tidsvindauget på plass (23 timar) fann Sjur feilen, og den skuldige (seg sjølv :-) ):
Modified: trunk/langs/sme/src/morphology/root.lexc
===================================================================
--- trunk/langs/sme/src/morphology/root.lexc 2017-09-14 14:57:10 UTC (rev 157050)
+++ trunk/langs/sme/src/morphology/root.lexc 2017-09-14 16:59:44 UTC (rev 157051)
@@ -326,6 +326,8 @@
+Cmp/Hyph !!≈ * **@CODE@** - on dynamic compounds that have a hyphen
+Cmp/NoHyph !!≈ * **@CODE@** - On compounds that COULD have had a hyphen (and usually have), but doesn't
+Cmp/SoftHyph !!≈ * **@CODE@** - Tags compounds containing SOFT HYPHENS (U+00AD)
+ +Cmp/Cit !!≈ * **@CODE@** - Tags citation compounds, which can in principle
+ cover any word. Requires a hyphen.