Giellateknomøte 5.11.14
Saker:
- smenob/nobsme
- Paradigmegeneratoren i cgi-bin
- Big data -konferanse i Oslo
- Samarbeid om Sameting og Giellagáldu om e-ordbøker
- sme til nyinfra ~ fst-testing via VD-pipeline
- forrest og hjemmesida
- orienteringssaker: sjur/trond-møte
smenob/nobsme
På nett: Frå juni:
- nds: Gamle NSS,
- web: Gamle NSS, FAD-only,
smenob: state-of-art:
- src/
- src_fad2merge/ (6202 ord)
tf-hsl-m0016:src ttr000$ cat *.xml|grep '<e '|cut -d"<" -f2-|sort|uniq -c|sort -nr
13112 fad
6373 vd
4344 nj
520 sk
153 gt_fad
42 ps,sa
6 gt
5 no
2 nou94
2 mt
2 kal
1 ps
1 other
Umerka:
<e> 11431
Tiltak
- Normalisering av filnamn (cipian)
- Slå saman filene i src/ (ciprian)
- Fjern frå src/ og legg dei i ein separat katalog not_in_dict (**ciprian**)
- Unifisering av fad2merge, algoritme
- Lage 3 kolonner: Lemma - VD - MERGE
- Legge til OK/NEI/RED i kolonne 4 (Lene, ekstern)
- Maskinelt unifisere alle med OK, osv.
Namna i xml-katalogen i Geo
cat geo_smi.xml|grep '"sme"'|wc -l
5922
cat nounProp_smenob.xml |grep '<l '|wc -l
502
Mogleg måtar å hindre at namna blokkerer for andre ord:
- skilnad store/små bokstavar, og, viss vi ikkje liker det:
- kryss “også med eigennamn”
Vi må oppdatere metadata, både for NDS og for webdict (?)
Vi må lenkje ordbøkene i mellom for same språk.
- Lenkje: Fleire ordbøker for nordsamisk i kvar ordbok, lenka til ei fellesside
- Denne fellessida må vere ein ny versjon av dicts.uit.no
Tiltak
Paradigmepresentasjon i NDS
I paradigmegeneratoren eller i NDS?
Vi prøver å få elevane til å bruke NDS i staden for paradigmegeneratoren.
Paradigmegeneratoren i cgi-bin
Vi legg arbeidet inn i NDS, og gjer relativt små endringar i cgi-bin-scriptet.
Tiltak for å gjere den betre:
- Legge til “med varianter” i tittelfeltet over paradigmene (“šuhkoláda”)
- Forbetre presentasjon
- Endre pluss til mellomrom
- fst-ar med ulike taggar (regex for norsk og samisk ==> basis for en db for taggar)
- cgi-bin-skriptet endre taggar
- Match lokaliserte taggar med lokaliseringsspråk
- Liste som før, ikkje to tabeller
- Fjerne lemma heilt til venstre i tabellen
- Lenkje til paradigmegeneratoren frå ordboka
- Endre Send skjema / Sádde skovi ==> Send / Sádde
Tiltak
- Trond og Ciprian gjer dette.
Paradigmegeneratoren: Fjerde kulepunkt. Trond: Lag bug.
Samarbeid om Sameting og Giellagáldu om e-ordbøker
Sametinget skal satse på e-ordbøker, Giellagáldu normerer
Tiltak
- Lene og Trond ser på dette.
Tidsplan
- Små endringar til neste møte
- Oppsummering og vidare plan på det møtet
Common Crawl Foundation-workshop i Oslo
Börre dit? Trond tar det vidare.
CCF workshop in Oslo
sme til nyinfra ~ fst-testing via VD-pipeline
Paradigmetesting
Ciprian har skrive i e-post.
Plukk ut 20 ord med ulike taggar (Allegro, miniparadigme, v1, v2)
og test dei.
Vi har testa Oahpa og analysen.
Lage yaml av gamle VD-oppsett, eitt ord frå kvart kontleksikon.
abbr.txt
- Trond: 1100 i gammal, 813 i ny
- Lene: 1100 i gammal, 1100 i ny
Use/MT
Use/MT – skal fjernast overalt, men vere med i apertium-generator-fst-ar
Ei anna sak er at den må bli merka for målspråk
Use/LexSub
5100 Err/Sub, 700 Use/LexSub
Vi ville endre denne til Err/LexSub i vår, jf
møtereferat
Strengen Use/LexSub må bli fjerna for den normative analysatoren (Divvun).
Det er altså ei Divvun-sak.
Konklusjon: For Gt sin del kan vi gå over til ny infra.
Vi må flytte kildefilene for å ta vare på svn-historikken.
- Lag ein kopi av gammal infra, for referanse. Frys den.
- Flytt gammal til ny, med svn-historikk
Trond tar det opp med sjur.
Korp
Ciprian kan trykke på knappen. Vi ser om det er nye ting i dag.
Oppdatere korpus, og deretter Korp.
forrest - hjemmeside
Fra møte 8.10.14:
- forbedre innholdet i ramma som er (Trond, Ciprian 15.10)
- forbedre oversettelser (Jussi, Ivan, Laura/Detmar), deretter
- forbedring layout pluss tekniske ting i Forrest (Trond tar opp med Sjur 14.10)
- endre layout innafor forrest (også lage ny forside, bilde etc.), ekstern person, januar 2015
tabs
I dag:
Tab |
Går til |
Hjem Home |
Heimesida |
Språklæring |
oahpa.no |
Divvun korrektur |
divvun.no |
Ordbøker |
dicts.uit.no |
Oversetting |
gtweb.uit.no/mt |
Tekstkorpus |
gtweb.uit.no/korp |
TechDoc |
Techdoc-sidene |
Alternativ:
Ha Verkty for samiske språk (osb.) i tabbane der oppe
Nye tabbar:
- Desse vil vi ha
- Hjem Home
- Divvun
- Verktøy for samiske språk
- Verktøy for andre språk
Desse går då ut (dei er dekt av andre lenkjer)
Tiltak
Dei fire framsidene
Status for dei fire sidene:
- forsida: her er det engelsk som gjeld. nno og sme er ulike
- giellatekno.eng.xml er parallell
- On oss er parallell
- samarbeidspartnarar: nno, eng er parallel, og er utgangspunkt
Tiltak
- Lene synkroniserer samisk og norsk
- Trond ser på resten
- Trond gjer om til bokmål
Sjur/Trond-referat (4.11):
- kløyv gtuit-forrest i to likt Divvun
- bygg ut gtuit til å vera fleirspråkleg slik Divvun er det
- lag felles techdoc
Tidsplan: Denne/neste veke.
Bugzilla
Betre politikk for prioritering:
- Den som meldar inn buggen set alvorlegheitsgrad
- (feature request … blocker).
- Så kan sjølvsagt
alle involverte revidere alvorlegheitsgraden viss det
viser seg at buggen er meir/mindre alvorleg enn vi
først trudde.
- Trond/Sjur/eigaren set prioritet
- Vi tar prioriteringane alvorleg, og lar det
vere samsvar med P og realitet.
Flytte bz-diskusjon over til dokumentasjonen?
I visse tilfelle bør vi gjere det.
Tiltak
- Trond diskuterer [/lang/sme/j-sme.html]
med Sjur. Desse sidene må i bruk.
Orienteringssaker
Sjur/trond-møte
Enare
Møtereferata
main/techdoc/admin/giellatekno/
[/admin/meetings.html]
Terminologi
Utlysing
1.12. språkrådet
SDÁ
SDÁ-terminologi: Vaske ut akademisk tekst
Vi vil ha SDÁ i Korp.
Lene kontaktar redaksjonskomitéen.
Neste möte
Om ei veke: Planar.