Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Møte Sjur og Trond 4.8.2014

Saker

Fst-basert preprocessor

… med hfst-pmatch.

Frå Mike:

> Jeg jobber fremdeles med å få frem en fin output fra hfst-pmatch verktøyet.
> Det har enda vært litt mer problemer med selve hfst-pmatch2fst verktøyet slik
> at det ikke fungerte som det skal. Sam hadde endret noe slik at jeg ikke fikk
> kompilere enkle pmatch regler til binær hfst format som f.eks.:
>
> Define UnknownWord Alpha+ EndTag(UnknownWord) ;
> Define SamiWord @bin"analyser-gt-desc.hfst" EndTag(SamiWord) ;
> Define Word LC(Deliminator) [SamiWord ]( UnknownWord) RC(Deliminator) ;
>
> Dessuten har jeg bedt Sam en gang til og ba ham om å dokumentere mulighetene
> med pmatch regler. Nå er hfst-pmatch2fst fremdeles ikke dokumentert og jeg
> vet ikke hva slags syntaks jeg kan bruke for skrive pmatch regler for å nå
> det som ønskes.
>
> Det samme gjelder for selve hfst-pmatch.cc koden, som er dårlig dokumentert
> og mye kode. Jeg vet hva som må gjøres, og vet hvor det omtrent skal gjøres,
> men jeg sliter enda mye med hvordan det skal gjøres på en hfst-aktig måte.
> Ting som hfst-alfabet og hvordan en transducer traverseres til å finne
> matches forstår jeg ikke enda. Jeg har bedt Sam til å forklare.

Sjur pratar med Krister og Sam om i kor stor grad hfst-pmatch kan nyttast som tokeniser.

Den gamle preprosessoren

1. my $quotations = quotemeta("«»‹›“”„‘’‚´`'\""); # original
my   $quotations = quotemeta("«»‹›“”„‘’‚`'\"");  # Skolt Sami fix without ...
                                                 # ... ACUTE ACCENT as delimiter

Men allikevel får vi nytt ord foran ACUTE ACCENT:

echo "a´a" | preprocess
a
´a

Trond og Ciprian ser på dette.

Liten fyrstebokstav ved namn i smj

$ usmj
oslo
oslo	Oslo+N+Prop+Plc+Pl+Nom

$ usme
oslo
oslo	oslo	+?

$ husmj
oslo
oslo	oslo+?	inf

$ husme
oslo
oslo	oslo+?	inf

Dette er med andre ord xfst vs. hfst-xfst, dessverre.

Det kan vere ulikt oppsett av flagg som gjer det. Ein framgangsmåte kan vere å kopiere mest mogleg av sma/sme-oppsettet til smj.

Sjur pratar med Tomi, Trond fylgjer opp.

inituppercase-testing

Trond har laga kyrillisk dummy-fil for inituppercase.regex for alle kyrilliske språk. Dermed går testinga (make check) gjennom også for morfologi.

est-nob-est

Teiknsettsproblema er no ordna. Ingen har gjort noko med xml-formatteringa i sumarferien.

Arbeid framover:

Smi-propernouns

Vi vil endra strukturen slik at alle genererte filer blir lagt i ein separat katalog src/morphology/generated/ slik at vi ikkje blandar kjeldefiler med genererte filer.

Sjur gjer dette.

sme-L2

Gamalt referat: Vi lagar parallelle filer tilsvarande oahpa i sma. Det er:

  1. Nye makefiler
  2. Nye kjeldefiler, merka -L2. Trond sjekkar inn kopiar av eksisterande filer, Lene får så sjekke inn ekte L2-filer etterpå
  3. Merk at sme-phon.twolc får nytt namn: sme-phon-L1.twolc, og at L2-fila blir heitande sme-phon-L2.twolc. Den eine av dei blir kopiert over i sme-phon.twolc, som ikkje er ei kjeldefil lenger.
  4. ny verdi for overføringsscriptet gammal-til-ny, til sme-phon-L1.twolc

Trond sjekkar inn og Sjur sjekkar. Vi skriv dokumentasjon.

Dette er delvis feil, det vi vil ha er:

Implementering:

Bugzilla

141 buggar er opne. Vi bør ha ein ny dugnad, etter at Sandra er inne i rutinane.

Ein Bugzilla-dugnadsdag over to dagar: 20.-21.8. På desse to dagane sett vi av omtrent eit dagsverk til å sjå på Bugzilla.

Zulu

Trond har vorte invitert til Pretoria. Før siste halve november eller etter nyttår?

Trond skriv til Pretoria og høyrer meir om innhaldet ved besøket, kva dei vil ha osb.

FAD-sma/smj

Trond: Sjå etter folk og parallelltekst. Morsmål ikkje eit krav.

Clarino-registrering

Vi skal/bør registrera ressursane våre. Bergen har spurt om (meta)data.

Kamera på møterommet

Vi tar eit møte med Kyrre Soleng via Lync el. tilsvarande. Forslag til tidspunkt: tysdag 19.8. eller fredag 22.8 kl 10. Sjur kontaktar Kyrre.

Stavekontroll

Lansering/oppdatering i haust:

PLX

Oppdateringar for smj og sma. Krev at PLX-konverteringa er flytta over i ny infra, flyttinga er undervegs.

HFST

Fleire ting må gjerast/på plass:

  1. debugga hfst-ospell
  2. Sjur må laga LO 3.6.-utgåve med hfst-støtte for Mac (krav frå Voikko-utvikl.)
  3. Voikko må få LO 4.1.-utgåve med hfst-støtte for Windows
  4. alle OS må få LO 4.2+ med hfst-støtte
  5. identifisera kva for LO-versjon som fekk støtte for kvart språk, legg til i configure.ac

Funksjonalitet/portabilitet for alle språk

$LANG.oxt er ein realitet for LibreOffice 4.1, men ikkje eldre og nyare versjonar.

Språk som fungerer med LO 4.1 (ABC i språkmenyen):

Forslagsmekanismen fungerer ikkje stabilt, LO heng (og ev. heile maskina!) når ein ber om forslag.

Fungerer ikkje:

Antti-møta

Trond

Oppsummering:

cree-pr først når LO-speller fungerer

suuri kuva
	periaatteet
	cc
junker

lippulaiva
	10 demoa
	niille, jotka nappaavat

canada first
total: 50 + 50 + 50 mill, niin, että Canada on maailman ykkønen?
	Meidän hakemus: 5+5+5 millioona per projekti

Sjur

Hausten