The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages
Sjur og Trond 2.9. 2013
Diskusjon om dette.
Prinsipp: gtshared berre dei som er delt.
Ergo språk-spesifikke ting bort derfrå.
Sjur vil diskutere dette meir, vi tar det opp seinare.
Trond orienterte om status quo. Børre må sjå på dette.
Sjur orienterte kort, meir seinare.
Ein del av resultatet med å vise fram
Zakaris skal sjå på lisensspørsmålet.
Fullformliste med restriksjonar i lisensen, som vi evt kan leve med.
S&T ser på om vi kan få til noko til NoDaLiDa på Island med dette.
Sjur har sjekka inn ei fullformsliste x 3
og gjort det om til ein fst.
Ta isl-taggane, konverter til våre taggar, opne for samansetjing frå nom og gen, og køyr fao-dis på toppen, for å sjå kva vi får ut av det.
Berre ein katalog, men vil bli tilgjengeleg som liste av fullform + grammatisk ord.
Det er også eit lisensspørsmål.
Her er det opne ressursar.
Ny medarbeidar, Sandra, i halv stilling, skal arbeide med Kintel.
Tre veker til å få orden på det såkalla fonetiske leksikonet, dvs. ipa-konverteringa vår brukt på leksikonet.
Møte med Berit-Anne og Thomas.
Prosjektet byrjar 1.10., då skal BÁ til Stockholm i ei veke.
Ei veke før det skal acapella ha ei liste over minst 400 000 ordformtrippel (lemma+analyse : ortografi : ipa).
Det er ein del feil.
Vi har ingen mekanismar for å handsame lånord.
Ein del
lemma+Ort/ort:ortstamme CONTLEX; lemma+Ort/fon:fonstamme{#IPA#} CONTLEX;
Om to veker
perlscriptet fungerer ikkje
spell-out av variabel $hyphenate = “$preprocess | $utilitydir/lookup $fstflags $hyph_fst | $commondir/”;
Problemet er:
som gjev ingenting ut.
Docu in the perlscript:
1. Perls script for cleaning the hyphenator output.
1. - reads one cohort at the time
1. - compares the hyphenated word to the orignal, disregarding ^ and #:
1. -- deletes forms that do not correspond to the input string
1. - uniques the final set
1. - removes all but the readings with the least word boundaries
1. and prints what is left (it should normally be only one form)
1. $Id: 25426 2009-04-21 09:48:21Z boerre $
~$ll /opt/smi/common/bin/ -rwxr-xr-x 1 root root 1830 sep 22 2012 /opt/smi/common/bin/
r8377 | saara | 2006-10-02 14:26:57 +0300 (Mon, 02 Oct 2006) | 3 lines
Improved the script to read one cohort at the time, remove irrelevant word
boundary marks, rate the compounds and unique the result.
r8264 | sjur | 2006-09-26 12:34:16 +0300 (Tue, 26 Sep 2006) | 2 lines
Added checking of split results.
r8259 | sjur | 2006-09-26 09:37:45 +0300 (Tue, 26 Sep 2006) | 2 lines
Added hyphenation filter script.
For Børre