Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Giellateknomøte 3. oktober 2018

Tilstede: Trond, Chiara, Ciprian, Lene

Saksliste

ELAN

Cip har arbeidd mykje: Køyrd siste POS-analyse, tatt omsyn til det som kom fram i Kautokeino

To buggar:

  1. hfst-kolon-saka: Når det blir delt eit token utan mellomrom
  2. +Foc/Pos-ge blir analysert som compound etter de , og etter substantiv, men som suffiks etter propernoun.

Resultaten av bug (2) er at det er uleseleg output frå elan. Lene ser på bug (2), Ciprian på bug (1).

Strengar til debugging: Sjå nederst i dette dokumentet

Når dette er i orden har vi rett og slett ein fungerande analyse. Ciprian sender deretter eit analysert elan-korpus til Oslo (med forklaringar), seinast på fredag. Forklaringa går inn på derivasjon, samansetjing, og interaksjonen mellom dei to.

Korp (Uleåborg)

Lene har laga ei liste over ting å sjå på (Bz), det er saker til Sjur, Børre, Trond, oss alle. Deretter skal vi køyre på nytt.

Tagger

1) Det er en del tagger som ikke bør være med (Dial, Area), bl.a. lager de i noen tilfeller mange lesninger som ikke blir disambiguert. Lene kan legge inn de filtrene som fjerner dem for disamb-analysatoren, og så kan man reversere dette seinere, hvis man vil.

Tiltak: Lene legger inn filtrene for å fjerne disse taggene, inntil videre.

fkv

må testes (Trond)

sms

sms er ikke boks, må lages regler i src/Makefile.am, men den kompilerer ikke, se BZ 2517. Trond får den til å kompilere, men det tar mange timar. Problem: smi-propernouns

Tiltak:

Ex/-saka

3) Se BZ 2513 om manglende Ex/V for smj og sma. Denne bør løses før kjøring til Korp, fordi smj og sma har et annet mønster enn sme, det blir to PoS tagger i samme streng (selv om begge er V i dette tilfellet)

smn, sma, sme, smj

Desse ser grei ut.

Oppdatering av functions.cg3 via korp.cg3

4) Jeg viser til BZ 2516. Hvis det er slik som jeg antyder i den siste buggmeldinga, så berører dette den syntaktiske analysen for alle språkene våre, dvs at oppdateringer og rettinger fra 2018 ikke er med. Så dette må vi se på før kjøring av ny analyse. Jeg ber spesielt Sjur kommentere denne BZ, fordi jeg har begrenset med kunnskap om oppsettet på Stallo, og jeg er ikke i stand til å gjøre rettinger i skriptet så lenge det ikke er snakk om å bytte en analysator, men det er det ikke snakk om her.

Dyn

5) Jeg viser til BZ 2512 om +Dyn taggen. Slik som den er nå, så ødelegger den analysen. Skal dette løses i arbeidet med språkfelles numeral og abbr filer?

lemmaforvrenging i lookup2cg

8) BZ 2508 gjelder XSFT, men den gale analysen er ikke med i grep-korpus etter disambiguering,, og gjelder dermed ikke analysen for Korp denne gangen.

echo Aarborten-almetjh | hfst-lookup -q src/analyser-gt-desc.hfstol | cut -f1,2 | lookup2cg|vislcg3 -g src/syntax/disambiguator.cg3
"<Aarborten-almetjh>"
	"Aarborten-#almetje" N <sma> Pl Nom

Oversyn over Bz-meldingane

(Denne lista + kommentarane er kopiert frå Sjur&Trond-møtet 1.10.)

      Sev  Pri Assign  Reportr Comp      Summary                                                  Comment&Action
2517  cri  P2  Jack    Lene    Morpholo  xfst sms does not compile: doesn't find ProperNoun-smi-  - easy, should be done imm -> P1
2516  enh  P5  Børre   Lene    Corpus a  smn analysen inneholder <smn> tagger                     - Trond + Sjur ser på dette
2513  enh  P5  Sjur    Lene    Continua  V+Ex/IV+Der/PassS+V+                                     - major, requires time -> P3
2512  maj  P2  Thomas  Lene    Continua  Analyse for dynamiske sammensetninger bokstav + tall     - ikkje berre Thomas, alle må sjå på dette --> møte
2511  enh  P5  Sjur    Lene    Analysis  tegn som ikke blir gjenkjent som missing                 - private use, irrelevant
2510  enh  P5  Lene    Lene    Tags      Ha acronymer som er propernouns i smi-propernouns        - krev diskusjon -> møte
2509  maj  P2  Børre   Lene    Corpus a  HFST-korpusanalysen klarer ikke URLer                    - berre på Linux ser det ut til (Stallo, hjå Børre), melding sendt til hfst
2508  nor  P5  Ciprian Sjur    lookup2c  lookup2cg forvrenger sma-lemma                           - er det noko å prioritera? Sjå på det, evt WONTFIX?
2507  nor  P5  Sjur    Sjur    Analysis  Handteringa av tvetydig setningsinndeling og abbr        - jobbar med saka
2506  nor  P4  Thomas  Lene    Continua  Skrivefeil som blir godtatt som Px-substantiver          - ventar på at Thomas blir frisk

Vår korp-workshop i Uleåborg

skilnad mellom korp og korp_2018

Tiltak, tidsplan

Tiltak

Tidsplan for ny køyring av innhald til Korp

Korp (Stockholm)

Denne saka gjeld Korp-seminaret i Stockholm

Ciprians presentasjon

Våre ønsker:

Tiltak

Samarbeid med HU Berlin (epost - cip)

Vi svarer henne positivt til søknad og ser kva som skjer.

NDS

Ingen ting akkurat no.

spansk

Tiltak:

sent-proc.sh

Skriptet har no HFST i XFST-pipeline, og det gir dårlig output.

Bør endres til riktig HFST-pipeline og XFST-pipeline. Sjå oppdatert sent-proc.sh. Ciprian ser på dette.

hfst-tokenize

Vi må sikre at hfst-tokenize er godt dokumentert på ein stad.

hfst-tokenize –help er ikkje nok:

Tiltak:

Output til debugging

"<dege>"
	"ge" Pcle <W:0.0000000000> "<ge>" <sme>
		"de" Adv <W:0.0000000000> "<de>"

echo dege |hfst-tokenize --giella-cg --weight-classes=1 ~/main/langs/sme/tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst| vislcg3 -g ~/main/langs/sme/src/syntax/disambiguator.cg3 |vislcg3 -g  ~/main/giella-shared/smi/src/syntax/korp.cg3
"<dege>"
	"ge" Pcle <W:0.0000000000> "<ge>" @PCLE
		"de" Adv <W:0.0000000000> "<de>"
:\n

"<dege>"
	"ge" Pcle <W:0.0000000000> "<ge>" <sme>
		"de" Adv <W:0.0000000000> "<de>"
:\n

tf-hsl-m0016:sme ttr000$ echo dege |hfst-tokenize --giella-cg --weight-classes=1 ~/main/langs/sme/tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst| vislcg3 -g ~/main/langs/sme/src/syntax/disambiguator.cg3 |vislcg3 -g  ~/main/giella-shared/smi/src/syntax/korp.cg3
"<dege>"
	"ge" Pcle <W:0.0000000000> "<ge>" @PCLE
		"de" Adv <W:0.0000000000> "<de>"
:\n

tf-hsl-m0016:sme ttr000$ echo biilage |hfst-tokenize --giella-cg --weight-classes=1 ~/main/langs/sme/tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst| vislcg3 -g ~/main/langs/sme/src/syntax/disambiguator.cg3 |vislcg3 -g  ~/main/giella-shared/smi/src/syntax/korp.cg3
"<biilage>"
	"ge" Pcle <W:0.0000000000> "<ge>" @PCLE
		"biila" N Sem/Veh Sg Nom <W:0.0000000000> "<biila>"


tf-hsl-m0016:sme ttr000$ echo Trondge |hfst-tokenize --giella-cg --weight-classes=1 ~/main/langs/sme/tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst| vislcg3 -g ~/main/langs/sme/src/syntax/disambiguator.cg3 |vislcg3 -g  ~/main/giella-shared/smi/src/syntax/korp.cg3
"<Trondge>"
	"Trond" N Prop Sem/Mal Sg Nom Foc/Pos-ge <W:0.0000000000> @HNOUN
:\n

echo dege| hfst-tokenize --giella-cg tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst |vislcg3 -g tools/tokenisers/mwe-dis.cg3 | cg-mwesplit | vislcg3 -g src/syntax/disambiguator.cg3
"<de>"
	"de" Adv <W:0.0000000000> <sme>
"<ge>"
	"ge" Pcle <W:0.0000000000> <sme>
:\n

echo biilage| hfst-tokenize --giella-cg tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst |vislcg3 -g tools/tokenisers/mwe-dis.cg3 | cg-mwesplit | vislcg3 -g src/syntax/disambiguator.cg3
"<biilage>"
	"biila" N Sem/Veh Sg Nom Foc/Pos-ge <W:0.0000000000> <sme>
:\n

echo Trondge| hfst-tokenize --giella-cg tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst |vislcg3 -g tools/tokenisers/mwe-dis.cg3 | cg-mwesplit | vislcg3 -g src/syntax/disambiguator.cg3
"<Trondge>"
	"Trond" N Prop Sem/Mal Sg Nom Foc/Pos-ge <W:0.0000000000> <sme>
	"Trond" N Prop Sem/Mal Sg Gen Foc/Pos-ge <W:0.0000000000> <sme>
:\n