Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Giellatekno-møte 26.04.2018

Tilstede: Trond, Ciprian, Chiara, Lene

Saksliste

Ciprians reise

Ciprian presenterte artikkel som blir fagfellevurdert og publisert.

Bonus: Muligens får vi et verktøy til visualisering av flerspråklige ordbøker.

Søknad til NFR

Søknaden blei sendt i går innen tidsfristen. Samarbeid mellom SA og UiT, søknadssum 6 mill. Tittelen: The role of MT in Saami literacy.

private/trunk/plan/admin/applications/nfr_2018/

Konteaksta

Alt er implementert lokalt, men last opp fil er enda ikke implementert på nettet. google-konto for Konteaksta er oppretta.

Hva skal vi gjøre med filer som lastes opp? Folk bestemmer om vi sletter fil eller hvis det blir tilgjengelig til dem.

Språkgjenkjenning, problem med textcat. Chiara snakkar med Børre.

Lene har testa, det er problem med noen tekstar. Ser på dette med Chiara.

Pipeline bug med preprocess. Vi bruker xfst på nettet no, men jobber med hfst-pipeline lokalt. Trond skal forbedre abbr-preprosesseringa for hfst, dvs. klassifisering av abbr som har punktum og ikke, og begge.

Møte med lærere på NTVGS tirsdag 22. mai kl. 12-15.30 (Chiara og Lene)

FST + CG pipeline (sent-proc.sh, men også ellers)

Input til CG skjer i dag i prinsippet på tre måtar:

  1. perl xfst perl
  2. perl hfst perl
  3. hfst hfst hfst

Det vi vil ha over heile linja er (3), dvs:

./configure --with-hfst --enable-tokenisers

hfst-tokenize --giella-cg --weight-classes=1 tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst|vislcg3 -g src/syntax/disambiguator.cg3

Sjå hfst-tokenize --help for eit oversyn over alternativ.

Planer framover (kort sikt)

ML er i Tromsø neste uke, vi skal gjøre ferdig en artikkel om smn speller.

Arbeide med tokenisering i hfst-pipeline.

Små driftsmidler

Lene Og Trond lager søknader. 2 søknader (lønnstrinn 35 koster ca. 41 000 per månedsverk på budsjettet)

  1. sørsamisk syntaktisk analyse
  2. evt. korpusarbeid:
    1. parallellisering av tekster
    2. flere tekster, visse domene (f.eks. nob-sme samiske tall forteller)

Oppdatering av korp

Fire kriteria å vurdere

  1. enspråklige tekster
  2. flere parallelltekster, særlig for nye språkpar (i dag: nob-sme, nob-sma, fin-smn).
    1. Kandidat: fin-sme skal vere med på neste
  3. forbedre metadata
  4. forbedre preprosessering

Konvertering pdf til xml: Problemet er bindestrekar på slutten av linja i pdf-dokumentet.

(note: ordformsøk fin-smn går bra, men ikkje lemmasøk)

Statens kartverk

Vi har fått inn lister fra SK, vi må diskutere hvilken database vi ønsker.

Ciprian tar kontakt med SK for å avklare en del informasjon i listene.

Deretter ser vi på det, og inviterer evt nokon frå SK til diskusjon.

LIA - prioriteres

Ciprian og Lene arbeider med dette.

Reisepenger

Folk på timelønn

Juni:

Ferie