Sjur- og Trondmøte 1.10.2018
Saksliste
- preprosessering, segmentering
- Irrelevante taggar i disam-analysatorane
- Bugzilla
preprosessering, segmentering
Vi arbeider med hfst-pipeline, ser på diskusjonen og Bz.
Linda ser på dette i dagane som kjem. Vi ser alle på gullkorpus
Vi vil ta hfst-proc i bruk i cgi-bin og i smedis (Trond)
- abbr – sjur driv med omorg av sme
- sma – her har sjur laga nytt mønster slik vi vil ha det.
Arbeidet med LIA og Korp held fram (Ciprian, innspel frå alle).
Tentativ klassifisering av setningsgrenseidentifisering:
Abbr-transitivitet:
- transitiv = må vere same setning
- intransitiv = kan vere same setning, men må ikkje
Tentativ rettesnor:
Korrekt tekst:
- Foran namn med stor bokstav: Transitiviteten avgjer
- Foran anna ord med stor bokstav: Alltid setningsgrense
- Foran liten bokstav: Aldri setningsgrense
- Foran (arabiske) tal: Transitiviteten avgjer
Grammatikkontroll:
- Foran liten bokstav: Transitiviteten avgjer
- Foran stor bokstav: Transitiviteten avgjer???
- Foran namn med stor bokstav: Transitiviteten avgjer
- Foran arabiske tal: Transitiviteten avgjer
Irrelevante taggar i disamb-analysatorane
Lene har fjerna irrelevante taggar for samiske språk, Trond ser på andre språk.
Bugzilla
Buggar opna i september
Sev Pri Assign Reportr Comp Summary Comment&Action
2517 cri P2 Jack Lene Morpholo xfst sms does not compile: doesn't find ProperNoun-smi- - easy, should be done imm -> P1
2516 enh P5 Børre Lene Corpus a smn analysen inneholder <smn> tagger - Trond + Sjur ser på dette
2513 enh P5 Sjur Lene Continua V+Ex/IV+Der/PassS+V+ - major, requires time -> P3
2512 maj P2 Thomas Lene Continua Analyse for dynamiske sammensetninger bokstav + tall - ikkje berre Thomas, alle må sjå på dette --> møte
2511 enh P5 Sjur Lene Analysis tegn som ikke blir gjenkjent som missing - private use, irrelevant
2510 enh P5 Lene Lene Tags Ha acronymer som er propernouns i smi-propernouns - krev diskusjon -> møte
2509 maj P2 Børre Lene Corpus a HFST-korpusanalysen klarer ikke URLer - berre på Linux ser det ut til (Stallo, hjå Børre), melding sendt til hfst
2508 nor P5 Ciprian Sjur lookup2c lookup2cg forvrenger sma-lemma - er det noko å prioritera? Sjå på det, evt WONTFIX?
2507 nor P5 Sjur Sjur Analysis Handteringa av tvetydig setningsinndeling og abbr - jobbar med saka
2506 nor P4 Thomas Lene Continua Skrivefeil som blir godtatt som Px-substantiver - ventar på at Thomas blir frisk
Ny prioritering? Sjå merknader over, i merknadsfeltet til høgre.