The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages
Saker:
Språkkodar i LexC (kan leggjast til med regulære uttrykk både mot lemma, stamme og fortsetjingsleksikon). Dette kan gjeva denne prosesseringa:
^ ved namn istf # - problematisk ved TTS, fordi # gjev sekundærtrykk, ^ gjev
ikkje - vi hadde hatt bruk for # no :(
Tilbake til ordgrense eller ei ny prosodigrense? Vi held på #
, og tolkar han
som anten ordgrense (vanlegvis) eller prosodigrense (triggar ny fot,
sekundærtrykk, osb.)
Døme:
Avias:Avi^as BERN-plc ;
Engebregtsen:Enge^bregtsen LONDON-sur ;
Friijacampen:Friija^campen LONDON-org ;
Avstand frå ^ til slutten av stammen:
tf-hsl-m0016:stems ttr000$ cat smi-propernouns.lexc|grep '\^. '|wc -l
135
tf-hsl-m0016:stems ttr000$ cat smi-propernouns.lexc|grep '\^.. '|wc -l
1332
tf-hsl-m0016:stems ttr000$ cat smi-propernouns.lexc|grep '\^... '|wc -l
2631
tf-hsl-m0016:stems ttr000$ cat smi-propernouns.lexc|grep '\^.... '|wc -l
1781
tf-hsl-m0016:stems ttr000$ cat smi-propernouns.lexc|grep '\^..... '|wc -l
4235
gjev t.d.:
Brattli+Err/Sub:Bratt^li NYSTØ-sur ;
Breidli+Err/Sub:Breid^li NYSTØ-plc ;
Elvarli+Err/Sub:Elvar^li NYSTØ-plc ;
Fløyrli+Err/Sub:Fløyr^li NYSTØ-plc ;
Haapiainen:Haapi^ai C-FI-NEN-sur ;
Herttuainen:Herttu^ai C-FI-NEN-sur ;
Høllesli+Err/Sub:Hølles^li NYSTØ-plc ;
Jakobsli+Err/Sub:Jakobs^li NYSTØ-plc ;
Jauhiainen:Jauhi^ai C-FI-NEN-sur ;
Kaipiainen:Kaipi^ai C-FI-NEN-plc ;
Kakriainen:Kakri^ai C-FI-NEN-sur ;
Kalliainen:Kalli^ai C-FI-NEN-sur ;
Kallioinen:Kalli^oi C-FI-NEN-sur ;
Tagg for lånespråk ved proper (og andre ord):
forslag: +OLang/LANG
styrer uttale ved TTS (sidan uttalen ofte fylgjer långjevarspråket (meir eller mindre))
vislcg3 kompilerer på stallo, på trond/bin
metode for lenkjesjekking?
sme-site.fst - utan sem-taggar