The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages
Tilstede: Trond, Chiara, Ciprian, Lene
Cip har arbeidd mykje: Køyrd siste POS-analyse, tatt omsyn til det som kom fram i Kautokeino
To buggar:
Resultaten av bug (2) er at det er uleseleg output frå elan. Lene ser på bug (2), Ciprian på bug (1).
Strengar til debugging: Sjå nederst i dette dokumentet
Når dette er i orden har vi rett og slett ein fungerande analyse. Ciprian sender deretter eit analysert elan-korpus til Oslo (med forklaringar), seinast på fredag. Forklaringa går inn på derivasjon, samansetjing, og interaksjonen mellom dei to.
Lene har laga ei liste over ting å sjå på (Bz), det er saker til Sjur, Børre, Trond, oss alle. Deretter skal vi køyre på nytt.
1) Det er en del tagger som ikke bør være med (Dial, Area), bl.a. lager de i noen tilfeller mange lesninger som ikke blir disambiguert. Lene kan legge inn de filtrene som fjerner dem for disamb-analysatoren, og så kan man reversere dette seinere, hvis man vil.
Tiltak: Lene legger inn filtrene for å fjerne disse taggene, inntil videre.
må testes (Trond)
sms er ikke boks, må lages regler i src/Makefile.am, men den kompilerer ikke, se BZ 2517. Trond får den til å kompilere, men det tar mange timar. Problem: smi-propernouns
Tiltak:
3) Se BZ 2513 om manglende Ex/V for smj og sma. Denne bør løses før kjøring til Korp, fordi smj og sma har et annet mønster enn sme, det blir to PoS tagger i samme streng (selv om begge er V i dette tilfellet)
Desse ser grei ut.
4) Jeg viser til BZ 2516. Hvis det er slik som jeg antyder i den siste buggmeldinga, så berører dette den syntaktiske analysen for alle språkene våre, dvs at oppdateringer og rettinger fra 2018 ikke er med. Så dette må vi se på før kjøring av ny analyse. Jeg ber spesielt Sjur kommentere denne BZ, fordi jeg har begrenset med kunnskap om oppsettet på Stallo, og jeg er ikke i stand til å gjøre rettinger i skriptet så lenge det ikke er snakk om å bytte en analysator, men det er det ikke snakk om her.
5) Jeg viser til BZ 2512 om +Dyn taggen. Slik som den er nå, så ødelegger den analysen. Skal dette løses i arbeidet med språkfelles numeral og abbr filer?
8) BZ 2508 gjelder XSFT, men den gale analysen er ikke med i grep-korpus etter disambiguering,, og gjelder dermed ikke analysen for Korp denne gangen.
echo Aarborten-almetjh | hfst-lookup -q src/analyser-gt-desc.hfstol | cut -f1,2 | lookup2cg|vislcg3 -g src/syntax/disambiguator.cg3
"<Aarborten-almetjh>"
"Aarborten-#almetje" N <sma> Pl Nom
(Denne lista + kommentarane er kopiert frå Sjur&Trond-møtet 1.10.)
Sev Pri Assign Reportr Comp Summary Comment&Action
2517 cri P2 Jack Lene Morpholo xfst sms does not compile: doesn't find ProperNoun-smi- - easy, should be done imm -> P1
2516 enh P5 Børre Lene Corpus a smn analysen inneholder <smn> tagger - Trond + Sjur ser på dette
2513 enh P5 Sjur Lene Continua V+Ex/IV+Der/PassS+V+ - major, requires time -> P3
2512 maj P2 Thomas Lene Continua Analyse for dynamiske sammensetninger bokstav + tall - ikkje berre Thomas, alle må sjå på dette --> møte
2511 enh P5 Sjur Lene Analysis tegn som ikke blir gjenkjent som missing - private use, irrelevant
2510 enh P5 Lene Lene Tags Ha acronymer som er propernouns i smi-propernouns - krev diskusjon -> møte
2509 maj P2 Børre Lene Corpus a HFST-korpusanalysen klarer ikke URLer - berre på Linux ser det ut til (Stallo, hjå Børre), melding sendt til hfst
2508 nor P5 Ciprian Sjur lookup2c lookup2cg forvrenger sma-lemma - er det noko å prioritera? Sjå på det, evt WONTFIX?
2507 nor P5 Sjur Sjur Analysis Handteringa av tvetydig setningsinndeling og abbr - jobbar med saka
2506 nor P4 Thomas Lene Continua Skrivefeil som blir godtatt som Px-substantiver - ventar på at Thomas blir frisk
Tiltak
Tidsplan for ny køyring av innhald til Korp
Denne saka gjeld Korp-seminaret i Stockholm
Vi svarer henne positivt til søknad og ser kva som skjer.
Ingen ting akkurat no.
Skriptet har no HFST i XFST-pipeline, og det gir dårlig output.
Bør endres til riktig HFST-pipeline og XFST-pipeline. Sjå oppdatert sent-proc.sh. Ciprian ser på dette.
Vi må sikre at hfst-tokenize er godt dokumentert på ein stad.
hfst-tokenize –help er ikkje nok:
Tiltak:
"<dege>"
"ge" Pcle <W:0.0000000000> "<ge>" <sme>
"de" Adv <W:0.0000000000> "<de>"
echo dege |hfst-tokenize --giella-cg --weight-classes=1 ~/main/langs/sme/tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst| vislcg3 -g ~/main/langs/sme/src/syntax/disambiguator.cg3 |vislcg3 -g ~/main/giella-shared/smi/src/syntax/korp.cg3
"<dege>"
"ge" Pcle <W:0.0000000000> "<ge>" @PCLE
"de" Adv <W:0.0000000000> "<de>"
:\n
"<dege>"
"ge" Pcle <W:0.0000000000> "<ge>" <sme>
"de" Adv <W:0.0000000000> "<de>"
:\n
tf-hsl-m0016:sme ttr000$ echo dege |hfst-tokenize --giella-cg --weight-classes=1 ~/main/langs/sme/tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst| vislcg3 -g ~/main/langs/sme/src/syntax/disambiguator.cg3 |vislcg3 -g ~/main/giella-shared/smi/src/syntax/korp.cg3
"<dege>"
"ge" Pcle <W:0.0000000000> "<ge>" @PCLE
"de" Adv <W:0.0000000000> "<de>"
:\n
tf-hsl-m0016:sme ttr000$ echo biilage |hfst-tokenize --giella-cg --weight-classes=1 ~/main/langs/sme/tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst| vislcg3 -g ~/main/langs/sme/src/syntax/disambiguator.cg3 |vislcg3 -g ~/main/giella-shared/smi/src/syntax/korp.cg3
"<biilage>"
"ge" Pcle <W:0.0000000000> "<ge>" @PCLE
"biila" N Sem/Veh Sg Nom <W:0.0000000000> "<biila>"
tf-hsl-m0016:sme ttr000$ echo Trondge |hfst-tokenize --giella-cg --weight-classes=1 ~/main/langs/sme/tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst| vislcg3 -g ~/main/langs/sme/src/syntax/disambiguator.cg3 |vislcg3 -g ~/main/giella-shared/smi/src/syntax/korp.cg3
"<Trondge>"
"Trond" N Prop Sem/Mal Sg Nom Foc/Pos-ge <W:0.0000000000> @HNOUN
:\n
echo dege| hfst-tokenize --giella-cg tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst |vislcg3 -g tools/tokenisers/mwe-dis.cg3 | cg-mwesplit | vislcg3 -g src/syntax/disambiguator.cg3
"<de>"
"de" Adv <W:0.0000000000> <sme>
"<ge>"
"ge" Pcle <W:0.0000000000> <sme>
:\n
echo biilage| hfst-tokenize --giella-cg tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst |vislcg3 -g tools/tokenisers/mwe-dis.cg3 | cg-mwesplit | vislcg3 -g src/syntax/disambiguator.cg3
"<biilage>"
"biila" N Sem/Veh Sg Nom Foc/Pos-ge <W:0.0000000000> <sme>
:\n
echo Trondge| hfst-tokenize --giella-cg tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst |vislcg3 -g tools/tokenisers/mwe-dis.cg3 | cg-mwesplit | vislcg3 -g src/syntax/disambiguator.cg3
"<Trondge>"
"Trond" N Prop Sem/Mal Sg Nom Foc/Pos-ge <W:0.0000000000> <sme>
"Trond" N Prop Sem/Mal Sg Gen Foc/Pos-ge <W:0.0000000000> <sme>
:\n