The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages
Saker
Frå Mike:
> Jeg jobber fremdeles med å få frem en fin output fra hfst-pmatch verktøyet.
> Det har enda vært litt mer problemer med selve hfst-pmatch2fst verktøyet slik
> at det ikke fungerte som det skal. Sam hadde endret noe slik at jeg ikke fikk
> kompilere enkle pmatch regler til binær hfst format som f.eks.:
>
> Define UnknownWord Alpha+ EndTag(UnknownWord) ;
> Define SamiWord @bin"analyser-gt-desc.hfst" EndTag(SamiWord) ;
> Define Word LC(Deliminator) [SamiWord ]( UnknownWord) RC(Deliminator) ;
>
> Dessuten har jeg bedt Sam en gang til og ba ham om å dokumentere mulighetene
> med pmatch regler. Nå er hfst-pmatch2fst fremdeles ikke dokumentert og jeg
> vet ikke hva slags syntaks jeg kan bruke for skrive pmatch regler for å nå
> det som ønskes.
>
> Det samme gjelder for selve hfst-pmatch.cc koden, som er dårlig dokumentert
> og mye kode. Jeg vet hva som må gjøres, og vet hvor det omtrent skal gjøres,
> men jeg sliter enda mye med hvordan det skal gjøres på en hfst-aktig måte.
> Ting som hfst-alfabet og hvordan en transducer traverseres til å finne
> matches forstår jeg ikke enda. Jeg har bedt Sam til å forklare.
Sjur pratar med Krister og Sam om i kor stor grad hfst-pmatch
kan nyttast
som tokeniser.
1. my $quotations = quotemeta("«»‹›“”„‘’‚´`'\""); # original
my $quotations = quotemeta("«»‹›“”„‘’‚`'\""); # Skolt Sami fix without ...
# ... ACUTE ACCENT as delimiter
Men allikevel får vi nytt ord foran ACUTE ACCENT:
echo "a´a" | preprocess
a
´a
Trond og Ciprian ser på dette.
$ usmj
oslo
oslo Oslo+N+Prop+Plc+Pl+Nom
$ usme
oslo
oslo oslo +?
$ husmj
oslo
oslo oslo+? inf
$ husme
oslo
oslo oslo+? inf
Dette er med andre ord xfst vs. hfst-xfst, dessverre.
Det kan vere ulikt oppsett av flagg som gjer det. Ein framgangsmåte kan vere å kopiere mest mogleg av sma/sme-oppsettet til smj.
Sjur pratar med Tomi, Trond fylgjer opp.
Trond har laga kyrillisk dummy-fil for inituppercase.regex for alle kyrilliske
språk. Dermed går testinga (make check
) gjennom også for morfologi.
Teiknsettsproblema er no ordna. Ingen har gjort noko med xml-formatteringa i sumarferien.
Arbeid framover:
Vi vil endra strukturen slik at alle genererte filer blir lagt i ein separat
katalog src/morphology/generated/
slik at vi ikkje blandar kjeldefiler
med genererte filer.
Sjur gjer dette.
Gamalt referat:
Vi lagar parallelle filer tilsvarande oahpa
i sma
. Det er:
Trond sjekkar inn og Sjur sjekkar. Vi skriv dokumentasjon.
Dette er delvis feil, det vi vil ha er:
Implementering:
141 buggar er opne. Vi bør ha ein ny dugnad, etter at Sandra er inne i rutinane.
Ein Bugzilla-dugnadsdag over to dagar: 20.-21.8. På desse to dagane sett vi av omtrent eit dagsverk til å sjå på Bugzilla.
Trond har vorte invitert til Pretoria. Før siste halve november eller etter nyttår?
Trond skriv til Pretoria og høyrer meir om innhaldet ved besøket, kva dei vil ha osb.
Trond: Sjå etter folk og parallelltekst. Morsmål ikkje eit krav.
Vi skal/bør registrera ressursane våre. Bergen har spurt om (meta)data.
Vi tar eit møte med Kyrre Soleng via Lync el. tilsvarande. Forslag til tidspunkt: tysdag 19.8. eller fredag 22.8 kl 10. Sjur kontaktar Kyrre.
Lansering/oppdatering i haust:
Oppdateringar for smj og sma. Krev at PLX-konverteringa er flytta over i ny infra, flyttinga er undervegs.
Fleire ting må gjerast/på plass:
$LANG.oxt er ein realitet for LibreOffice 4.1, men ikkje eldre og nyare versjonar.
$GTLANG/tools/spellcheckers/fstbased/hfst/
divvun.no/static_files/oxts/
fi_LO-voikko-3.6-32b-win.oxt
= språk_oxtnamn-LOminversjon-bittheit_OSSpråk som fungerer med LO 4.1 (ABC i språkmenyen):
Forslagsmekanismen fungerer ikkje stabilt, LO heng (og ev. heile maskina!) når ein ber om forslag.
Fungerer ikkje:
Oppsummering:
cree-pr først når LO-speller fungerer
suuri kuva
periaatteet
cc
junker
lippulaiva
10 demoa
niille, jotka nappaavat
canada first
total: 50 + 50 + 50 mill, niin, että Canada on maailman ykkønen?
Meidän hakemus: 5+5+5 millioona per projekti