Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Page Content

Møte Sjur og Trond 30.6.2014

Saker

preprosessor

Trond og Sjur laga ein svært enkel preprosessor for sme, som eit døme. Kan fungera som grunnlag for vidare arbeid?

liten fyrstebokstav ved namn i smj

[http://giellatekno.uit.no/bugzilla/show_bug.cgi?id=1874]

Fann andre feil: Sem-taggar utan +Sem/-prefix. -> Børre (via Bugzilla).

  1. smj, men ikkje sme, analysererer oslo som namn
  2. smj, men ikkje sme, genererer både oslo og Oslo av Oslo+N+Prop+Sg+Nom (sme gjev berre gjev Oslo).
  3. begge er testa i ny infra

est-nob-est-ordboka

No korrekt versjon, skal konverterast til xml. Etter nærmare inspeksjon er det framleis teiknsettsfeil. Trond fylgjer opp.

Trond lagar abstrakt (pseudokode-)utkast til konverteringa. Sjur eller andre lagar perlfil.

Smi-propernouns

Dvs:

Vi vil endra strukturen slik at alle genererte filer blir lagt i ein separat katalog src/morphology/generated/ slik at vi ikkje blandar kjeldefiler med genererte filer.

sme-L2 etc

Vi lagar parallelle filer tilsvarande oahpa i sma. Det er:

  1. Nye makefiler
  2. Nye kjeldefiler, merka -L2. Trond sjekkar inn kopiar av eksisterande filer, Lene får så sjekke inn ekte L2-filer etterpå
  3. Merk at sme-phon.twolc får nytt namn: sme-phon-L1.twolc, og at L2-fila blir heitande sme-phon-L2.twolc. Den eine av dei blir kopiert over i sme-phon.twolc, som ikkje er ei kjeldefil lenger.
  4. ny verdi for overføringsscriptet gammal-til-ny, til sme-phon-L1.twolc

Trond sjekkar inn og Sjur sjekkar. Vi skriv dokumentasjon.

Ferie