Giellatekno-møte 22.4. 2015
Ciprian, Lene, Trond
Saksliste
- korpus
- undervisning på bachelorprogrammet språk-sinn-samfunn
- oppsummering Ulan-Ude-reisa
- smenob/nobsme attributter
- frekvenssorterte lister for sme-tekster
Korpus og Korp
Korp
Ciprian arbeider med
- Korp-grensesnittet må bli oppdatert
- Lemgram / Ordbild må på plass.
- translations: _xxx, må rettes eller oversettes fortest mulig
- (corpora-LG.json locale-LG.json)
- translating news: korp/frontend/news/gt_news.json
- Denne fila skal også lokaliserast (Cip)
newsdata([
{
"h":{
"en":"<p>The Korp interface has been updated to version 4.0. </p>",
"sv":"<p>The Korp interface has been updated to version 4.0. </p>",
"nb":"<p>Korp grensesnittet ble oppdatert til versjon 4.0. </p>",
"fi":"<p>The Korp interface has been updated to version 4.0. </p>",
"se":"<p>The Korp interface has been updated to version 4.0. </p>",
},
"t":{
"en":"Korp interface updated ",
"sv":"Korp interface updated ",
"nb":"Korp grensesnittet oppdatert ",
"fi":"Korp interface updated ",
"se":"Korp interface updated ",
},
"d":"2015-04-20"
},
Problem med lokalisering:
Viss du ikkje har like mange original:omsetjing i json-fila
kjem ingenting på nett.
main/apps/korp/frontend/translations
locale-nb.json: "show_diagram" : "Visa trenddiagram_xxx",
locale-nb.json: "non_time_before" : "Saknar tidsuppmärkning: _xxx",
locale-nb.json: "non_time_after" : " av valt material_xxx",
Tiltak: Forbetre omsetjing fortest mulig
- Legge til xxx: Cip
- fi: Trond
- nb: Lene
- se: Lene
- sv: Trond
Refere til Korp (SIKOR) bør oppdateres fortest mulig.
Her er infoboksen:
- SIKOR. UiT Norgga árktalaš universitehta ja Norgga Sámedikki sámi teakstačoakkáldat. http://gtweb.uit.no/korp/ (veršuvdna 01.03.2015)
- SIKOR. UiT Norges arktiske universitets og det norske Sametingets samiske tekstsamling. http://gtweb.uit.no/korp/ (versjon 01.03.2015)
- SIKOR. UiT Norjan arktisen yliopiston ja Norjan Saamelaiskäräjien tekstikokoelma. http://gtweb.uit.no/korp/ (versio 01.03.2014)
- SIKOR. UiT Norges arktiska universitets och norske Sametingets samiske
tekstsamling. http://gtweb.uit.no/korp/ (version 01.03.2015)
-
SIKOR. UiT The Arctic University of Norway and the Norwegian Saami Parliament’s Saami text collection. http://gtweb.uit.no/korp/ (version01.03.2015)
Korpus
Dette må følges opp:
- Setningsparallisering
- Legge inn samiske tall forteller (nr 3)
- Ikke maskinlesbare Dieđut-tekster (Børre?)
- Oppfølging av Kimberli (Trond)
Undervisning på bachelorprogrammet språk-sinn-samfunn
Gillian R har tatt kontakt om å tilby et nytt bachelorprogram språk-sinn-samfunn med engelsk om undervisningsspråk
- 1000 nivå kurs:
- 2000 nivå kurs: derav ett til tre kurs med språkteknologi (à 10 poeng)
Vi gir allerede nå kurs i språkteknologi, men dette kan evt formaliseres i offisielle kurs. Vi ser det ikke som hensiktsmessig at engelsk er undervisningsspråk.
Aktuelle temaer for 10-sv-kurs i språkteknologi til bachelorgrad i språk-sinn-samfunn:
- Eksisterende kurs: 10-poeng-fst (HIF-30xx, vekt på automatteori
- Eksisterende kurs: språkteknologi for samisk (mindre hands-on, meir bruk av språkteknologi)
- Kurs i unix for lingvistar, regulære uttrykk, korpusgrensesnitt + søkespråk
I tillegg har vi eit framlegg til språkteknologi for samisk, eit kurs med ei litt anna innretting enn bachelor i lingvistikk:
SAM-30xx
- “Emnet gir innføring i språkteknologi for samisk ved UiT. Denne kunnskapen vil gi studenten innsikt i datalingvistisk modellering og forståelse for språkteknologien bak sluttbrukerprogrammer og et automatisk analysert korpus. Studenten vil også få innsikt i utforming og testing av formelle språkmodeller. Studenter som ønsker det, kan arbeide videre med f.eks. endelige tilstandsautomater eller føringsgrammatikk på kurset SAM-3090 Spesialemne i samisk språkvitenskap.”
Oppsummering Ulan-Ude-reisa
Arrangør: Buryaad statlige universitet v/ Jargal Badagarov:
[http://giellatekno.uit.no/conf/ulanude15/UlanUde.html]
Trond og Francis holdt kurs i FST for 15 personar for følgende språk:
- tyv: tuvinsk (tyrkisk)
- Resultat: Analysator, leksikon på 6500 ord, morfofonologi, 85% dekning av eit korpus 1M ord, sjekka inn i Apertium
- bxr: burjatisk (mongolsk)
- Resultat: twolc, substantivbøying, leksikon på 400 ord
- Resultat 2: Start på program for konvertering frå burjatisk til IPA
- khk khalkamongolsk (med personer fra Ulan Bator)
- Resultat: PC-KIMMO-versjon av morfofonologien overført til twolc, leksikon på 500 ord
- evn: evenkisk (tungusisk)
- Resultat: Analysator, 550 ord, storparten av morfofonologien, og 25% dekning av eit korpus på 13500 ord
- xwo: todo oirat (mongolsk)
- Resultat: demo-analysator med eitt ord (!), men inkludert i analysator med mongolsk -> latinsk under og latinsk -> mongolsk over, etter oppsettet frå præriecree (takk til Sjur for hjelp)
- xal: Kalmyk (mongolsk),
- Resultat: rudimentær analysator, 50 ord
- kjh: Khakas (tyrkisk),
- Resultat: ikkje innsjekkingar
Dessutan laga vi demoversjonar av stavekontrollar for bxr, khk, evn, xal. Merk at det er ein bug i Libreoffice-voikko for val av språk via ISO-kode, den er rapportert til Harri.
Oppfølging:
- Rådgivning, de gjør arbeidet med FST sjøl
- Forslag om nettverk for å finansiere samlinger og studentutvekslinger
- Jargal suggests building a so-called “Thematic Network” (http://www.uarctic.org/media/817524/uarctic-guidelines-for-establishing-new-tns-oct2014.pdf) within the University of Arctic. The theme will be what unites us (building grammatical models and making both research and practical applications based on those models).
- Møte i arktisk universitet med delegasjon fra UiT til Ulan-Ude i juni i år.
smenob/nobsme attributter
Merking godkjente oversettinger og samiske stedsnavn
- Vi bör merke namn etter autoritativ kjelde (Kartverk, Giellagáldu, ..)
- Vi bör ikkje stryke ord vi ikkje kjenner eller rettskriving vi er skeptisk til, som er vedtatt
Merking av namn
- Geo: Lene + Cip har diskutert, og har kontroll
- Normativt attributt
- attributtnamn: norm
- attributtverdi: SGG = Sámi giellagáldu, SR = Sámi giellaráđđi, Lov = vedtatt i hht til lov om stadnamn , SGL = Sámi giellalávdegoddi
- Kjelde-attributt
- attributtnamn: src
- attributtverdi: SK = Statens kartverk, KAL = Kåven et al, Qv = Qvigstad, PS = Pekka Sammallahtis ordbok, SA = Sámi atlas, …
- Giellagáldu lister er innsjekka i smenob/inc/placenames og smenob/inc/ready_togo. Der er det bl.a. 250 namn på ei liste, SGG_Eurohpa_riikkat.xlsx
Dette skal vere dokumentert på sida vår for ordbøker.
Attributtene for src og norm legges på t-nivå.
Konklusjon:
- FAD som attributt blir flytta frå til
- Lista over opprinnelege ord frå FAD blir greppa ut og lagra som ei liste
under heimesida til FAD-prosjektet
- Skilnaden ( alle - FAD ) kjem dermed fram av å diffe total lemmaliste og FAD-liste
- I tillegg legg vil
comment="..."
som attributt for kommetarer i alle elementer der vi ser behov for det
Freqkvenssorterte lister for sme-tekster
Vi bør ha en deadline for denne?
Cip har gjort det men ikkje lagt det på serveren
- Cip lagar skript på servaren
- … og gjev lenkje til Lene
- … og dermed til side / vidare