Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Sjur og Trond 2.9. 2013

Saker

filter

Korleis fungerer gtshared

Diskusjon om dette.

Prinsipp: gtshared berre dei som er delt.

Ergo språk-spesifikke ting bort derfrå.

Sletting av sem-taggar overalt

Sjur vil diskutere dette meir, vi tar det opp seinare.

victorio

Trond orienterte om status quo. Børre må sjå på dette.

Island

Sjur orienterte kort, meir seinare.

Ein del av resultatet med å vise fram

fao

Zakaris skal sjå på lisensspørsmålet.

isl

Fullformliste med restriksjonar i lisensen, som vi evt kan leve med.

S&T ser på om vi kan få til noko til NoDaLiDa på Island med dette.

fst

Sjur har sjekka inn ei fullformsliste x 3

  1. opne
  2. lukka med bøying
  3. lukka utan bøying

og gjort det om til ein fst.

Stunt:

Ta isl-taggane, konverter til våre taggar, opne for samansetjing frå nom og gen, og køyr fao-dis på toppen, for å sjå kva vi får ut av det.

dan

Berre ein katalog, men vil bli tilgjengeleg som liste av fullform + grammatisk ord.

Det er også eit lisensspørsmål.

swe

Her er det opne ressursar.

Kintel

Ny medarbeidar, Sandra, i halv stilling, skal arbeide med Kintel.

TTS

Tre veker til å få orden på det såkalla fonetiske leksikonet, dvs. ipa-konverteringa vår brukt på leksikonet.

Møte med Berit-Anne og Thomas.

Prosjektet byrjar 1.10., då skal BÁ til Stockholm i ei veke.

Ei veke før det skal acapella ha ei liste over minst 400 000 ordformtrippel (lemma+analyse : ortografi : ipa).

Det er ein del feil.

Vi har ingen mekanismar for å handsame lånord.

Ein del

Unntak

lemma+Ort/ort:ortstamme CONTLEX; lemma+Ort/fon:fonstamme{#IPA#} CONTLEX;

Akronym:

Termseminar

Om to veker

Orddeling

perlscriptet fungerer ikkje

spell-out av variabel $hyphenate = “$preprocess | $utilitydir/lookup $fstflags $hyph_fst | $commondir/hyph-filter.pl”;

Problemet er: $commondir/hyph-filter.pl" som gjev ingenting ut.

Docu in the perlscript:

1. hyph-filter.pl
1. Perls script for cleaning the hyphenator output.
1. - reads one cohort at the time
1. - compares the hyphenated word to the orignal, disregarding ^ and #:
1. -- deletes forms that do not correspond to the input string
1. - uniques the final set
1. - removes all but the readings with the least word boundaries
1. and prints what is left (it should normally be only one form)
#
1. $Id: hyph-filter.pl 25426 2009-04-21 09:48:21Z boerre $

~$ll /opt/smi/common/bin/hyph-filter.pl -rwxr-xr-x 1 root root 1830 sep 22 2012 /opt/smi/common/bin/hyph-filter.pl

------------------------------------------------------------------------
r8377 | saara | 2006-10-02 14:26:57 +0300 (Mon, 02 Oct 2006) | 3 lines

Improved the script to read one cohort at the time, remove irrelevant word
boundary marks, rate the compounds and unique the result.

------------------------------------------------------------------------
r8264 | sjur | 2006-09-26 12:34:16 +0300 (Tue, 26 Sep 2006) | 2 lines

Added checking of split results.

------------------------------------------------------------------------
r8259 | sjur | 2006-09-26 09:37:45 +0300 (Tue, 26 Sep 2006) | 2 lines

Added hyphenation filter script.

For Børre