Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Giellateknomöte 28.1. Til stede: Trond, Chiara

Saker

Korp og marisk

OCR-lesing

Problemet med mellomrom ligg i convert2xml, dvs. i pdftotext. Vi diskuterer med Børre, og ser også på spalte-spørsmålet.

Referansefil:

orig/mhr/news/proletar_kultur_verch/proletar_kul_tur_verch_1936_1-2.pdf

Spørsmålet om mellomrom som uthenving kjem etterpå.

Vi diskuterer konvertering med Børre. Trond diskuterer med Jeremy om kven som kan arbeide med å redigere xsl-filer.

Analyse

Problemet med tekst etter : har Chiara allereie ordna.

Trond har lagt til alle (!) uanalyserte teikn i symbols.lexc. Trond ser på om nokre av dei kan fjernast (i lag med Sjur).

Logger

Sjå oversikt i dokumentet GTHOME/art/2020/digitools/loggoversikt.txt

NDS

user_log

Fra starten: søk True/False treff lang1 lang2

Fra 2016-01 har vi også dato og ip adresse: søk True/False treff lang1 lang2 yyyy-mm-ddThh:mm:ss IP-adresse

access.NDS_NAVN.log:

Vi har alt fra starten bortsett for sanit og baakoeh (fra mars 2019)

OAHPA

Vi har log i mysql

Cgi-bin

Det finnes ingen logg på serveren (har også prøvde å lete i dokumentasjonen men fant ingenting)

NGINX log (som kan da brukes på forskjellige måter)

default oppsett: blir ‘rotated’ hver 10 dager og da blir dem slettet

Mulig strategi: endre på logrotate lagre all logger før de blir slettet på serveren + lagre dem (månedelig?) i svn kanskje via skript og en svn-bruker (eller jeg) på serveren?

Prinsipp:

EuroPython konferanse

2020 konferanse (se 2019 [sessions|https://ep2019.europython.eu/events/sessions/] og pyData )

git

Sjur vil prioritere dette.