Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Møte 24.10 2011.

Sjur, Trond

Saksliste

Orienteringssaker

Røros.

sma-oahpa

Røros-lanseringa.

Kjempebra konferanse, 70 deltakarar, dei fleste presentasjonane på sma, heldt tida, mange gode presentasjonar. Sissel presenterte sma-Oahpa, deretter Lene og Trond om dei andre verktya våre: paradigmegenerator, stavekontroll, ordbok (både på nett og avnettes).

sma-ordbok

Mac-versjonen ferdig, men ikkje Stardict-versjonen - det som står att er formattering av visse delara av miniparadigma (som er StarDict-spesifikk).

Internskolering, sma

Hovudsaker:

Komi

fst

Prosedyre for leksikonarbeid

  1. We copy the kt/kom/src/working-files to words/dicts/komfin and komeng, evt. komfineng
  2. We strip the translations (perhaps save one word) from the working-files, and get a lexc-encoded-as-xml.
  3. We add words from kvru/ to the stripped files
  4. We remove contlex-information from the komfineng dict files
  5. We keep the lexc.xml and dict.xml in synch in the same way as we do for our Sami dictionaries. The computer prints a daily/weakly/svnversion-ly report on discrepancies between the two.

Ting å vere merksam på:

Arbeidet blir dokumentert her

Jaska

EAMT: MT-prosjekt

Uklår situasjon.

Syktyvkar: Språkteknologisk senter

Oppstart november.

Tastaturprosjektet

Framskritt på kildinsamisk wikipedia. Kjøpe Mac-ar til testing? Windows-versjon?

Barentsprosjektet

Neste steg er møte med STR. Trond: 8, 14, 15, 23, 24, 25, 30 er ute.

Korpus

Mykje er sjekka inn i prestable. Ca 1 mill ord på kvart av NOB og SME.

firpmá: digraphar blir ikkje løyste opp.

ccat -r sme/ | grep fi | wc -l

Neste:

  1. fiks fi
  2. framleis manuell inspeksjon - fi og struktur i lovtekstar
  3. NB! Sametingsprotokollane
  4. test parallellføringa

sma-terminologi (Elgå)

Elgå vil ha terminologien sin synleg <=> i nobsma-webdict. + Divvun, andre ordbøker.

Jf. Bugzilla.

eXist-kurs

Xquery vs. xslt

Konvertering frå xml til lexc vil ha enklare kode med Xquery.

Tyskland, 1. & 2. desember (ev. 30 nov for grunnintro)

Stavekontroll

  1. Nederland
    1. 64-bits
    2. uovervaka installering (allereie fiksa, kjem med neste versjon)
    3. Orddeling
  2. plx-konvertering
    1. plx-konverteringstesting
    2. plx-buggar
  3. hfst
    1. Voikko: hfst ikkje bra nok enno (for treg, mykje RAM)
    2. bruk + bugzilla
    3. Lage installeringspakke – etter at problemet med fart er ordna i Hfrs

Grafisk statistikk

Dei viktigaste tala frå stavekontrolltestinga opp som grafar.

Sametingsnytt (budsjett 2012)

  1. risten 2 er i budsjettet. Der bør vi bruke eXist.
  2. Talesyntese. jf. phon-sma.xfst

Sjur - neste reise til Tromsø

7-11 eller 14-18 november.