Language Technology at UiT The Arctic University of Norway

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Page Content

Lingvistmøte

Til stades: Inga, Maja, Sjur, Thomas

Saker:

Rutinar kring ny infra

Ideell arbeidsgang:

  1. rediger
  2. make check
  3. tilbake til 1 til alt er ok
  4. sjekk inn

Testdata skal vera direkte i koden (jf twolc-fila) - Sjur lagar tilsvarande rutinar for lexc.

Almenne rutinar

Referansekorpus

Vi vil ha eit referansekorpus for kvart språk. Det skal brukast til å sjekka at at analysene held seg stabile trass i endringar i koden. Har vi eitt for nordsamisk? Ja, her: $GTBIG/gt/sme/corp/testkorpus.txt.

Innhald i ref-korpuset bør vera:

Mål med data i referansekorpuset: Vi vil ha størst mogleg variasjon og breidde i fonotaks, morfologi og syntaks, slik at vi testar alle delar av dei grammatiske modellane våre.

Data skal liggja her:

$GTHOME/newinfra/langs/$GTLANG/test/data/ref-korpus.txt

twol-testing

Det finst ferdige testpar i twol-filene:

### €# dåeried%>%^DISIMPem
### €0 dåer0ed00em

### $# dåeried%>%^DISIMPem
### $0 dåeried00em

make check vil veldig snart testa desse para, og dermed heile tida gje oss tilbakemelding om alt er ok i twol-reglane.

lemma-testing

No i sma, snart i smj - i dag?

LexC-kodingsstandard

Her er nokre kodingsideal for LexC-koden vår:

Vi innfører “code reviews” - kodesjekk - av kvarandre, for å auka sjansane for å finna feil, og for å hjelpa kvarandre med å skriva ein meir vedlikehaldsvenleg kode.

Oppsummering

Vi definerer kva analysene skal vera fyrst, og jobbar oss fram til at vi får det.