Giellateknomøte 21.11.2018
Til stades Chiara, Ciprian, Lene, Trond
Saker:
- Oppsummering konferanser
- NLP4CALL
- Gjenbruk av data
- Samling for finsk- og kvensklærarar
- Uleåborg (anna enn Korp)
- Oppsummering Korp (Workshop og SIKOR og Korp)
- Vidare arbeid med Korp
- Servarar
- Diaspora-fst-ar
- Eventuelt
Oppsummering konferansar
NLP4CALL
Lene har vore her tidlegare, dei har det ein gang i året. No var Lene og Chiara der med artikkel og poster.
Presentasjonen av posteren gjekk fint, mange såg på Konteaksta.
Sjölve konferansen var interessant relevant feedback om retting av språk: Logg in på Googledoc og få viss type hjelp
Fokus var automatisk retting og karaktersetting av studentoppgåver.
Alle artiklane ligg på nett.
Workshop: Adriane Boyd, som skreiv ein del av koden på Konteaksta, som Chiara deretter kan kontakte.
- Keynote 1: Jill Berstein. Enkel språkteknologi (ordliste, regex)
- Keynote 2: Innfallsvinkel det europeiske rammeverket A1-C2 for
språkferdigheit.
- Bruk av dette rammeverket for å evaluere ikkje berre L2, men også L1.
Vi vil ha postarane (denne og tidlegare) på veggen.
Gjenbruk av data – på Nasjonalbiblioteket
Lene og Börre var der. Interessant møte.
Samling for finsk- og kvensklærarar.
Trond føredrag: Utfordrende bokstaver og språklyder
Uleåborg (anna enn Korp)
Vi oppsummerte.
Oppsummering Korp (Workshop og SIKOR og Korp)
Vi oppsummerte.
Vidare arbeid med Korp
Oppdatering av rettleiing
Oppdatere Korp-side for brukarar:
- Skrive: For dei andre språka er ikkje analysen like god.
- Forbetre cqp-sida
- Sjå meir på dokumentasjon for nybyrjarar
- Korpuslingvistikk fr dummies: Referere til litteratur om korpuslingvistikk?
Ting som kom opp under workshopen
lenkje til [http://gtsvn.uit.no/freecorpus/orig]: dette er nå gjort
kor mange treff per side er borte
Det fungerte for versjon 5.
(i) infoknappen til høgre på utvida søk er borte
Det fungerte for versjon 5.
På (i)-lista manglar infinitte verbformer (og også andre former)
Ciprian kjem med ei ny liste som vi kan oppdatere.
Korfor har vi “ikkje regex” som valg under søk?
Dette betyr ikkje “fråver av regex” eller “tolk bokstavleg.” Derimot betyr det “negasjonen av den regexen du har skrive” Grunnen til det har kanskje med negasjonsoperatoren for parallellkorpus å gjere?
Det er opent kva som er funksjonen til dette. Ciprian undersøker, og vi forbetrar dokumentasjonen eller fjernar.
Scrambling av setningane
Det har vi ikkje.
Last ned resultatet i form xy
Dette er ikkje implementert.
Jussi vil ha 10000 per side som opsjon
Det skal han få (av Ciprian).
Advarsel for cookies
Dette er ikkje implementert, men det er krav om det. Dette kan vi evt. få hjelp med frå IT-avdelinga. Jf. også http vs. https.
Tiltak:
Chiara tar http vs. https opp med IT-avdelinga.
Ting å arbeide med framover
Oppdatering til versjon 7
Chiara og Ciprian gjer det.
Tekstattributt for debugging
Vi legg til attributta Wordcount og Sentencecount
for å sjå kor mange ord og setningar ei fil har.
Dette for debugging.
Desse minimale filene kan ha problem med dependensrelasjonar. Det skal vi rydde opp i på grammatikksida.
Arbeid med korpuset i seg sjølv.
- Fjerne marginale filer (f.eks. høgare terskel for sme enn for andre språk)
- Arbeide med metadata.
Attendemelding frå oppdateringa
Ciprian skriv ein rapport om erfaringar frå oppdateringa, og vi tar opp det. Dette gjeld ulike aspekt ved korpusprosesseringa.
Servarar
Vi tar ein gjennomgang.
Overordna
Vi har fått purringar om servar-flytting.
Dependensar
satni.org er oppdatert Dei andre servarane er nye.
Oahpa-versjonar i bruk:
[http://giellatekno.uit.no/ped/common/logextraction.html]
Vurdering av kva som er i bruk og ikkje (sjå Oahpa-punktet nedanfor)
Gamle servarar:
- gtoahapa:
- NDS-sme, NDS-sma
- m.a. [http://gtoahpa.uit.no/rusoahpa/]
- gtweb
- Oprdbøkene ventar på flytting
- gtsvn
- denne ventar på å få fjerna /home
- gtlab
- Innhaldet i /home skal hit
Nye servarar
- ny gtlab-servar (skal vere home/)
- ny svn-servar
- ny gtoahpa
- kveeni – har brukarar
- erzya, moksha
[http://giellatekno.uit.no/ped/common/GtlabRestart.html]
Flytting
- oahpa til gtoahpa
- NDS: sme og smn til satni.org
- gtsvn til ny gtsvn.
- Vegen fram for gtsvn er uklår: Ciprian og Chiara snakkar med Børre, deretter tar vi diskusjonen med IT-avdelinga. Mål: svn-innhaldet skal til ny servar uavhengig av alle flytteprosessar.
Oahpa
- Chiara legg ut ei side med melding om kontaktinformasjon til
- Trond får passord og ser på loggen til Oahpa-instansane
- Chiara og Ciprian sendar ordna liste med oahpa-instansar
- Lene og Trond vurderer kva vi gjer med dei.
- Chiara og Ciprian flyttar.
Dette i løpet av november.
Diaspora-fst-ar
Vi satsar på Jaska sine dagar og inviterer Josh også. Viss Josh ikkje kan vurderer vi etter jul.
Eventuelt
Tospråklig tmx-filer fra ordbokmateriale
Vi bør lage tospråklige tmx-filer fra ordboksmaterialet, eksempelsetningene med oversettinger. Lage pipeline for dette: Ciprian.