The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages
Korpusmøte 12.3. 2014
Til stades:
Børre, Ciprian, Lene, Trond, Sjur
Tema:
Møte om vår hverdagsrutine med korpus-konvertering hver dag. Det går ikke an å ta vare på alt data som vi generere.
Det er for lite plass, vi tar vare på data vi ikkje treng.
Spare mykje, for mykje (ikkje plass itl alt).
Ny modell for nær-lagring - versjonar av kontinuerleg konvertering og analyse for Korp m.m.:
Referansekorpus for å evaluere analysatoren (fjern-lagring):
Laura og Hanne (UiO) om nob-data for noe projekt.
Cip har lokalt alle korpora som man kan nedlaste fra Språkbanken. Han har gjort en del job med rensing, xml-formatering, etc.
Det er minst tre plass som trenges nob-dataen i store mengden og så godt som mulig (minst) pos-tagget.
Problem: