The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages
Sjur og Trond-møte 15.9. 2017
git pull && scripts/get-pugixml-and-build && sudo make instal
Prosjektdokumentasjon i techdoc/proof/gramcheck/
, jf nettsida:
[https://giellalt.uit.no/proof/gramcheck/GrammarCheckerDocumentation.html].
Trond legg inn notatar her langs vegen, Sjur dokumenterer når støvet har lagt seg.
Vi vil generalisere det grafiske testgrensesnittet til fleire språk.
Trond skriv e-post til BÁ og Sjur.
Kan inkludera stemmene våre i appar, kan ikkje brukast i Siri osb. Det er mogleg at Android er meir open enn iOS, og at det er mogleg å få stemmane inn i heile systemet. Det må undersøkjast. Jf. ordboksapp frå oss.
Korleis kan vi få saka vidare?
Sjur har eit utkast om 14 dagar.
Liste over ting å følgje opp:
Trond diskuterer med Gt, Sjur med Divvun, vi tar møte over nettet med relevante personar for dei problemstillingane der vi må snakke saman (konvertering (.xsl), innsamling av .doc)
Vi følgjer opp dei opne Bz-ane. Sjur har ofte skrive test og sei i frå. Det bør vi.
Det er tre alternativ for modularisert testing av stavekontrollen med det grafiske testoppsettet i devtools. Her kjem ei drøfting:
smn/src
smn/src/devtools/
smn/bygg/stavekontroll/ (a) <--- den vanlege
smn/bygg/stavekontroll-modifisert/ (b) <-- ein variant ... ad lib
smn/bygg/stavekontroll-modifisert_med_dato/ (c) <-- ein variant ... ad lib
smn/bygg/mt (ikkje poeng her) lik kjelde, ulik config
Skilnaden ligg ikkje i konfigureringa, men i kjeldefilene.
I dette tilfellet:
Denne passar best der skilnaden er i config-oppsettet, og ikkje der skilnaden er i kjeldefilene.
Sjekke ut fleire smn-katalogar:
Dette kan ikkje sjekke inn ulike kjeldefiler (dei vil overstyre kvarandre), men er enklare enn neste variant.
i $HOME:
svn co http://gtsvn.uit.no/langtech/branches/langs/smn branches/langs/smn_a
Denne er best der skilnaden er i kjeldefilene, her kan eg ha fleire parallelle kjeldefiler, og vil sjekka inn dei endringane ein gjer.
Trond prøver seg fram.
Jf. [http://giellatekno.uit.no/bugzilla/show_bug.cgi?id=2401]
Denne har vorte liggande.
Trond har 3 framlegg (jf. buggen), Sjur kjem med eit fjerde, og skriv i Bz.
Dette er ei feilmelding, som har vore der ein del dagar
Resten av møtereferatet er debugging av ein feil, som vi fann, så det er eigentleg berre å slutte å lese her.
HINTRSCT generator-raw-gt-desc.tmp1.hfst
/usr/local/bin/hfst-compose-intersect: warning:
Found output multi-char symbols ("any") in
transducer in file <stdin> which are not found on the
input tapes of transducers in file phonology/sme-phon.rev.hfst.
Den liknar på tilsvarande feil i Apertium.
Her er det ein reell feil.
Spörmsål:
hfst:
arc symbols actually seen in transducer:
...
£, §, ©, «, «7, , ®, °, ±, ², ³, ´, ¶, ·, ¹, », »7, ¼, ½, ¾, ¿, Á, Ä, Å, Æ, Ç, É, Í, Ò, Ó, Ö, Ø, Ü, Þ, à, á, â, ã, ä, å, æ, ç, è, é, ê, ë, í, î, ï, ð, ñ, ò, ó, ô, õ, ö, ø, ù, ú, û, ü, ý, Č, č, Đ, đ, ł, Ŋ, ŋ, ō, Š, š, Ŧ, ŧ, Ž, ž, ́, ̈, ̌, ·, ‐, ‒, –, —, ―, ‘, ’, “, ”, „, •, …, ‹, ›, €, √, ≈, ◊, ●, ❡, 😱
root.lexc 14.9.:
tf-hsl-m0016:sme ttr000$ grep any src/morphology/root.lexc
### (at your option) any later version. The GNU General Public License
## be used alone, but can appear in any position
## If unmarked, any position goes.
## # any untagged word is pronounced with SME orthographic conventions
xfst 14.9. og 15.9.:
14.9.
Sigma: A Á B C Č D Ď E F G H I J K L M N O P Q R S Š T U V W X Y Z Ž a
á b c č d e f g h i j k l m n ń ñ o p q r s š t u v w x y z ž
" " ! %" # $ "%" & ' ( ) * + +A +ABBR +ACR +Acc +Actio +Adv
15.9.
xfst[1]: print sigma
Sigma: A Á B C Č D Ď E F G H I J K L M N O P Q R S Š T U V W X Y Z Ž a
any á b c č d e f g h i j k l m n ń ñ o p q r s š t u v w x y z
Med tidsvindauget på plass (23 timar) fann Sjur feilen, og den skuldige (seg sjølv :-) ):
Modified: trunk/langs/sme/src/morphology/root.lexc
===================================================================
--- trunk/langs/sme/src/morphology/root.lexc 2017-09-14 14:57:10 UTC (rev 157050)
+++ trunk/langs/sme/src/morphology/root.lexc 2017-09-14 16:59:44 UTC (rev 157051)
@@ -326,6 +326,8 @@
+Cmp/Hyph !!≈ * **@CODE@** - on dynamic compounds that have a hyphen
+Cmp/NoHyph !!≈ * **@CODE@** - On compounds that COULD have had a hyphen (and usually have), but doesn't
+Cmp/SoftHyph !!≈ * **@CODE@** - Tags compounds containing SOFT HYPHENS (U+00AD)
+ +Cmp/Cit !!≈ * **@CODE@** - Tags citation compounds, which can in principle
+ cover any word. Requires a hyphen.