Sjur- og Trond-møte
13.2.2024
Saksliste
- Oppfølgjingssaker frå sist
- Ordboksstruktur
- isof + Divvun-samling
- Samisk symposium Hfors
- Maskinlæring
- fst-ar i git
- Terminologimøte m/UiB - samarbeid om samisk terminologi i termportalen.no (GG+)
- taleteknologi, delte data, språkbanken i Finland
- Jaska og prosjektarbeidet i Finland
- Nasjonalbiblioteket
- Faste møte framover
Oppfølgjingssaker frå sist
- skuvla: lag ny GH-org skuvla, med enkel URL, jf førre referat.
- Ordbøker: Vi treng kanal for å distribuera fst-filer av typen aaa-bbb.hfst Vi kjem attende til det.
- Tromds DM: Bis später
- Bugzilla: Børre ser på saka
- Historisk korpus: sjå Nasjonalbiblioteket under
- Zulip-meldingar frå GitHub: Trond likar det nye formatet, treng diskusjonar om check-meldingane, formatet skal utviklast vidare, og check-meldingane må dokumenterast
- Grammatikkontroll: fiksa i både GDocs og MS Word
Ordboksstruktur
To diskusjonar: Teknisk format og konseptuell struktur
Tekstformat eller binærformat (databaser). Vi har meir sansen for tekstformat, som er meir fleksibelt. Så er spørsmålet kva tekstformat:
- xml (dagens format): tungt å skrive som kode, tungt å prosessere, eit stort maskineri for lite.
- json, (evt. yaml eller toml)
- Poenget er at formatet må eksistere frå før (vi skal ikkje lage vårt eige markeringsspråk)
- Brukargrensesnittet kjem så oppå json.
Vi må sjå nærare på dette, men det kan godt vere at json får med fordelene med tekst utan å ha ulempene med xml.
Anders, Børre, Flammie, Sjur har diskutert format for ei moderne ordboks- og terminologiplattform
- Eitt sett med einspråkleg data (utvida lexc):
- ei liste for kvart språk: lemma + stamme + bøyingsklasse + uttal
- relasjoner mellom dei ulike listene: 1-1, 1-m, m-m, ..
- Kritikk: Dette vil ikkje fungere fordi vi får to kostar motkvarandre
- Kva sprikar? Semantikken
- Svar på kritikken: Når du lagar relasjonane peikar du på lemma og ikkje på tyding.
- Nyansar i tydinga fangar vi opp i relasjonen og ikkje i den einspråklege representasjonen
- Resultatet er to enkle datastrukturar
- den einsrpåklege strukturen modulo språk
- relasjonen
- Programmeringsmessig er resultatet enkelt,
- fordi både einspråkleg struktur og relasjon er enkel
- For å få dette til må vi ha stabile ID-ar, der lemma+POS kan vere proxy for ID
- Peter Juel Henriksen har eit system for leksikalske ID-ar langs dette systemet
I dag: talo i (minst) 9 filer:
- lang-fin, dict-fin-nob, dict-fin-sme, dict-fin-smn, dict-fin-sms
- dict-nob-fin, dict-sme-fin, dict-smn-fin, dict-sms-fin
Eit mogleg mål: Alle 9 i ei fil (!). Både fordelane og ulempene med dette systemet er opplagde.
Oppfølgjing før fredag til lunsj denne veka.
isof + Divvun-samling
- ISOF kjem med Tog til Tromsö måndag 1700 og fly i Tromsö 1600 (sosialt måndag kveld?)
- Dei drar dels torsdags morgon og dels fredag føremiddag
- Dette inneber Tromsø-saker på måndag:
- Divvun-møte
- infra-møte
- Sjur møte med Cathrine
- Trond- og Sjur-møte
Samisk symposium Hfors
Artikkelidear
- Framleggsmekanismen palatalisering
- Leksikografi
- Taleteknologi
- …
Vi bør ha mange innlegg.
Maskinlæring
Tre ulike tema seglar op:
- Trond til Bergen på føredrag om maskinlæring og samisk. Slutten av mai.
- Maskinlæring for ortografinormalisering: gammal til ny ortografi
- ChatGPT som glatting av RBMT-output (gode resultat)
fst-ar i git
- nei, men i pahkat og/eller i GH som generert pakke
- forslag: mellombels løysing for binærfildistribusjon skal vere i svn i biggies (?)
- må diskuterast meir i infra-gruppa
Terminologimøte m/UiB - samarbeid om samisk terminologi i termportalen.no (GG+)
- tidspunkt: skjer pr e-post
taleteknologi, delte data, språkbanken i Finland
Alle treng samiske taledata, det er allmennkringkastarane som sitt på dei store ressursane. Initiativet kom sist frå SVT. Dei ser det blir for dyrt med manuell teksting på samisk, vil ha automatisk teksting.
Jaska og prosjektarbeidet i Finland
- sms-prosjekt: Jaska, kven andre? Vi følgjer opp dette.
- UD-prosjektet: Trond orienterte, ting går bra.
Nasjonalbiblioteket
Trond har diskutert med Yngvild Beyer om OCR, vi skal følgje opp det. Det vi treng er eit oppsett for historiske tiesktar i corpus-aaa-orig/
Faste møte framover
Kvar 14 dag+. Neste møte 27.2. 09.00-10.00, Sjur sender innkalling.