Korpusmøte 12.3. 2014
Til stades:
Børre, Ciprian, Lene, Trond, Sjur
Tema:
- Lagring av samiske data
- nob
Lagring av samiske data
Møte om vår hverdagsrutine med korpus-konvertering hver dag. Det går ikke an å ta vare på alt data som vi generere.
Det er for lite plass, vi tar vare på data vi ikkje treng.
Noverande modell:
Spare mykje, for mykje (ikkje plass itl alt).
Ny modell for konvertering, analyse og lagring:
- konvertering on demand
- data som kan bli endra og som krev ny konvertering:
- nye metadata
- nye konverteringsrutiner
- nye korpusfiler
- Modell for analyse on demand
- data som kan bli endra og som krev ny analyse:
- nye fst-ar
- nye cg3-filer
-
Ny modell for nær-lagring - versjonar av kontinuerleg konvertering og analyse for Korp m.m.:
- spar konvertert materiale i svn? Utsett til seinare
- Undersøke svn og alternativ - kva gjer andre for å handtera versjonar av korpusdata?
- Spar siste n (av analysert), n=5
- Spar eldre referanseanalyser (1 eks 1 mnd gammal)
- Meir diskplass og minneplass?
- spar konvertert materiale i svn? Utsett til seinare
Referansekorpus for å evaluere analysatoren (fjern-lagring):
- kva betyr det?
- Ein tekst stor nok og balansert nok til å vere interessant,
som vi køyrer analysatorane våre mot med jamne mellomrom,
for å måle fram- og attendegang.
- stort nok = 5M
- balansert = frå alle dei 5 delkatalogane
- interessant = udefinert / avhengig av den som spør
- berre analyser - eitt fast konvertert materiale
- Ein tekst stor nok og balansert nok til å vere interessant,
som vi køyrer analysatorane våre mot med jamne mellomrom,
for å måle fram- og attendegang.
- Korleis kan vi definera referansepunkt?
- subjektivt - vi synest det ser bra ut
- objektivt - kvar N-te månad, eller kvar 10000 svn-versjon
- etter spesifikke aktivitetar
rene nob-data.
Laura og Hanne (UiO) om nob-data for noe projekt.
Cip har lokalt alle korpora som man kan nedlaste fra Språkbanken. Han har gjort en del job med rensing, xml-formatering, etc.
Det er minst tre plass som trenges nob-dataen i store mengden og så godt som mulig (minst) pos-tagget.
- Cips phd: jeg vil gjerne se lit på partikkelverber in nob
- GT/Divvun: alltid i sammenhang med smX-nob/nob-smX (se, td, frekvenslister)
- Laura/Hanne sin projekt.
Problem:
- Problem: vi trenger mer plass!
- Problem: Vi må ha en mulighet for å dele dataen med annet folk, ikke bare oss imellom (I just wanted to use the one and only postposition in nob).