Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Sjur og Trond-møte 15.9. 2017

Saksliste

Grammatikkontroll-dokumentasjon

Prosjektdokumentasjon i techdoc/proof/gramcheck/, jf nettsida: [https://giellalt.uit.no/proof/gramcheck/GrammarCheckerDocumentation.html].

Trond legg inn notatar her langs vegen, Sjur dokumenterer når støvet har lagt seg.

Vi vil generalisere det grafiske testgrensesnittet til fleire språk.

TTS

TTS på sidene våre

Installering

Trond skriv e-post til BÁ og Sjur.

Android og iPhone

Kan inkludera stemmene våre i appar, kan ikkje brukast i Siri osb. Det er mogleg at Android er meir open enn iOS, og at det er mogleg å få stemmane inn i heile systemet. Det må undersøkjast. Jf. ordboksapp frå oss.

Møterommet

Korleis kan vi få saka vidare?

  1. Sjur reinteiknar notatane våre + forklaringar
  2. Trond tar det vidare på universitetet

Sjur har eit utkast om 14 dagar.

Korpusinnsamling og -møte

Liste over ting å følgje opp:

Trond diskuterer med Gt, Sjur med Divvun, vi tar møte over nettet med relevante personar for dei problemstillingane der vi må snakke saman (konvertering (.xsl), innsamling av .doc)

Neste divvunveke

Bz

Vi følgjer opp dei opne Bz-ane. Sjur har ofte skrive test og sei i frå. Det bør vi.

Andre saker

Eenaresamisk stavekontrolltesting

Det er tre alternativ for modularisert testing av stavekontrollen med det grafiske testoppsettet i devtools. Her kjem ei drøfting:

multiple byggekatalogar

smn/src
smn/src/devtools/
smn/bygg/stavekontroll/  (a) <--- den vanlege
smn/bygg/stavekontroll-modifisert/ (b) <-- ein variant ... ad lib
smn/bygg/stavekontroll-modifisert_med_dato/ (c) <-- ein variant ... ad lib
smn/bygg/mt (ikkje poeng her) lik kjelde, ulik config

Skilnaden ligg ikkje i konfigureringa, men i kjeldefilene.

I dette tilfellet:

Denne passar best der skilnaden er i config-oppsettet, og ikkje der skilnaden er i kjeldefilene.

Multiple smn-katalogar

Sjekke ut fleire smn-katalogar:

Dette kan ikkje sjekke inn ulike kjeldefiler (dei vil overstyre kvarandre), men er enklare enn neste variant.

Ulike greiner

i $HOME:

svn co http://gtsvn.uit.no/langtech/branches/langs/smn branches/langs/smn_a

Denne er best der skilnaden er i kjeldefilene, her kan eg ha fleire parallelle kjeldefiler, og vil sjekka inn dei endringane ein gjer.

Trond prøver seg fram.

Munchs skrik

Jf. [http://giellatekno.uit.no/bugzilla/show_bug.cgi?id=2401]

Denne har vorte liggande.

Trond har 3 framlegg (jf. buggen), Sjur kjem med eit fjerde, og skriv i Bz.

Kompilering av sme

Dette er ei feilmelding, som har vore der ein del dagar

Resten av møtereferatet er debugging av ein feil, som vi fann, så det er eigentleg berre å slutte å lese her.

  HINTRSCT generator-raw-gt-desc.tmp1.hfst
/usr/local/bin/hfst-compose-intersect: warning:
Found output multi-char symbols ("any") in
transducer in file <stdin> which are not found on the
input tapes of transducers in file phonology/sme-phon.rev.hfst.

Den liknar på tilsvarande feil i Apertium.

Her er det ein reell feil.

Spörmsål:

hfst:

arc symbols actually seen in transducer:
...
£, §, ©, «, «7, ­, ®, °, ±, ², ³, ´, ¶, ·, ¹, », »7, ¼, ½, ¾, ¿, Á, Ä, Å, Æ, Ç, É, Í, Ò, Ó, Ö, Ø, Ü, Þ, à, á, â, ã, ä, å, æ, ç, è, é, ê, ë, í, î, ï, ð, ñ, ò, ó, ô, õ, ö, ø, ù, ú, û, ü, ý, Č, č, Đ, đ, ł, Ŋ, ŋ, ō, Š, š, Ŧ, ŧ, Ž, ž, ́, ̈, ̌, ·, ‐, ‒, –, —, ―, ‘, ’, “, ”, „, •, …, ‹, ›, €, √, ≈, ◊, ●, ❡, 😱

root.lexc 14.9.:

tf-hsl-m0016:sme ttr000$ grep any src/morphology/root.lexc
###  (at your option) any later version. The GNU General Public License
##                      be used alone, but can appear in any position
##  If unmarked, any position goes.
##  # any untagged word is pronounced with SME orthographic conventions

xfst 14.9. og 15.9.:

14.9.

Sigma: A Á B C Č D Ď E F G H I J K L M N O P Q R S Š T U V W X Y Z Ž a
       á b c č d e f g h i j k l m n ń ñ o p q r s š t u v w x y z ž
       " " ! %" # $ "%" & ' ( ) * + +A +ABBR +ACR +Acc +Actio +Adv

15.9.

xfst[1]: print sigma
Sigma: A Á B C Č D Ď E F G H I J K L M N O P Q R S Š T U V W X Y Z Ž a
       any á b c č d e f g h i j k l m n ń ñ o p q r s š t u v w x y z

Med tidsvindauget på plass (23 timar) fann Sjur feilen, og den skuldige (seg sjølv :-) ):

Modified: trunk/langs/sme/src/morphology/root.lexc
===================================================================
--- trunk/langs/sme/src/morphology/root.lexc	2017-09-14 14:57:10 UTC (rev 157050)
+++ trunk/langs/sme/src/morphology/root.lexc	2017-09-14 16:59:44 UTC (rev 157051)
@@ -326,6 +326,8 @@
 +Cmp/Hyph     !!≈ * **@CODE@** - on dynamic compounds that have a hyphen
 +Cmp/NoHyph   !!≈ * **@CODE@** - On compounds that COULD have had a hyphen (and usually have), but doesn't
 +Cmp/SoftHyph !!≈ * **@CODE@** - Tags compounds containing SOFT HYPHENS (U+00AD)
+ +Cmp/Cit      !!≈ * **@CODE@** - Tags citation compounds, which can in principle
+                                  cover any word. Requires a hyphen.