Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Giellateknomøte 21.11.2018

Til stades Chiara, Ciprian, Lene, Trond

Saker:

Oppsummering konferansar

NLP4CALL

Lene har vore her tidlegare, dei har det ein gang i året. No var Lene og Chiara der med artikkel og poster.

Presentasjonen av posteren gjekk fint, mange såg på Konteaksta.

Sjölve konferansen var interessant relevant feedback om retting av språk: Logg in på Googledoc og få viss type hjelp

Fokus var automatisk retting og karaktersetting av studentoppgåver.

Alle artiklane ligg på nett.

Workshop: Adriane Boyd, som skreiv ein del av koden på Konteaksta, som Chiara deretter kan kontakte.

Vi vil ha postarane (denne og tidlegare) på veggen.

Gjenbruk av data – på Nasjonalbiblioteket

Lene og Börre var der. Interessant møte.

Samling for finsk- og kvensklærarar.

Trond føredrag: Utfordrende bokstaver og språklyder

Uleåborg (anna enn Korp)

Vi oppsummerte.

Oppsummering Korp (Workshop og SIKOR og Korp)

Vi oppsummerte.

Vidare arbeid med Korp

Oppdatering av rettleiing

Oppdatere Korp-side for brukarar:

Ting som kom opp under workshopen

lenkje til [http://gtsvn.uit.no/freecorpus/orig]: dette er nå gjort

kor mange treff per side er borte

Det fungerte for versjon 5.

(i) infoknappen til høgre på utvida søk er borte

Det fungerte for versjon 5.

På (i)-lista manglar infinitte verbformer (og også andre former)

Ciprian kjem med ei ny liste som vi kan oppdatere.

Korfor har vi “ikkje regex” som valg under søk?

Dette betyr ikkje “fråver av regex” eller “tolk bokstavleg.” Derimot betyr det “negasjonen av den regexen du har skrive” Grunnen til det har kanskje med negasjonsoperatoren for parallellkorpus å gjere?

Det er opent kva som er funksjonen til dette. Ciprian undersøker, og vi forbetrar dokumentasjonen eller fjernar.

Scrambling av setningane

Det har vi ikkje.

Last ned resultatet i form xy

Dette er ikkje implementert.

Jussi vil ha 10000 per side som opsjon

Det skal han få (av Ciprian).

Advarsel for cookies

Dette er ikkje implementert, men det er krav om det. Dette kan vi evt. få hjelp med frå IT-avdelinga. Jf. også http vs. https.

Tiltak:

Chiara tar http vs. https opp med IT-avdelinga.

Ting å arbeide med framover

Oppdatering til versjon 7

Chiara og Ciprian gjer det.

Tekstattributt for debugging

Vi legg til attributta Wordcount og Sentencecount for å sjå kor mange ord og setningar ei fil har. Dette for debugging.

Desse minimale filene kan ha problem med dependensrelasjonar. Det skal vi rydde opp i på grammatikksida.

Arbeid med korpuset i seg sjølv.

Attendemelding frå oppdateringa

Ciprian skriv ein rapport om erfaringar frå oppdateringa, og vi tar opp det. Dette gjeld ulike aspekt ved korpusprosesseringa.

Servarar

Vi tar ein gjennomgang.

Overordna

Vi har fått purringar om servar-flytting.

Dependensar

satni.org er oppdatert Dei andre servarane er nye.

Oahpa-versjonar i bruk:

[http://giellatekno.uit.no/ped/common/logextraction.html]

Vurdering av kva som er i bruk og ikkje (sjå Oahpa-punktet nedanfor)

Gamle servarar:

Nye servarar

[http://giellatekno.uit.no/ped/common/GtlabRestart.html]

Flytting

Oahpa

  1. Chiara legg ut ei side med melding om kontaktinformasjon til
    1. alle gtlab-lenkjene på panic-sida
    2. alle gtweb-lenkjene på panic-sida
  2. Trond får passord og ser på loggen til Oahpa-instansane
  3. Chiara og Ciprian sendar ordna liste med oahpa-instansar
  4. Lene og Trond vurderer kva vi gjer med dei.
  5. Chiara og Ciprian flyttar.

Dette i løpet av november.

Diaspora-fst-ar

Vi satsar på Jaska sine dagar og inviterer Josh også. Viss Josh ikkje kan vurderer vi etter jul.

Eventuelt

Tospråklig tmx-filer fra ordbokmateriale

Vi bør lage tospråklige tmx-filer fra ordboksmaterialet, eksempelsetningene med oversettinger. Lage pipeline for dette: Ciprian.