Lagring av samiske data

Møte om vår hverdagsrutine med korpus-konvertering hver dag. Det går ikke an å ta vare på alt data som vi generere.

Det er for lite plass, vi tar vare på data vi ikkje treng.

Noverande modell:

Spare mykje, for mykje (ikkje plass itl alt).

konvertering on demand
data som kan bli endra og som krev ny konvertering:
- nye metadata
- nye konverteringsrutiner
- nye korpusfiler
Modell for analyse on demand
data som kan bli endra og som krev ny analyse:
- nye fst-ar
- nye cg3-filer
Ny modell for nær-lagring - versjonar av kontinuerleg konvertering og analyse for Korp m.m.:
- spar konvertert materiale i svn? Utsett til seinare
  - Undersøke svn og alternativ - kva gjer andre for å handtera versjonar av korpusdata?
- Spar siste n (av analysert), n=5
- Spar eldre referanseanalyser (1 eks 1 mnd gammal)
- Meir diskplass og minneplass?

Referansekorpus for å evaluere analysatoren (fjern-lagring):

kva betyr det?
- Ein tekst stor nok og balansert nok til å vere interessant, som vi køyrer analysatorane våre mot med jamne mellomrom, for å måle fram- og attendegang.
  - stort nok = 5M
  - balansert = frå alle dei 5 delkatalogane
  - interessant = udefinert / avhengig av den som spør
- berre analyser - eitt fast konvertert materiale
Korleis kan vi definera referansepunkt?
- subjektivt - vi synest det ser bra ut
- objektivt - kvar N-te månad, eller kvar 10000 svn-versjon
- etter spesifikke aktivitetar

Laura og Hanne (UiO) om nob-data for noe projekt.

Cip har lokalt alle korpora som man kan nedlaste fra Språkbanken. Han har gjort en del job med rensing, xml-formatering, etc.

Det er minst tre plass som trenges nob-dataen i store mengden og så godt som mulig (minst) pos-tagget.

Problem:

Problem: vi trenger mer plass!
Problem: Vi må ha en mulighet for å dele dataen med annet folk, ikke bare oss imellom (I just wanted to use the one and only postposition in nob).

Sitemap