Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Status for infra - møte 25.10.2023

Folk: Anders, Børre, Flammie, Sjur

Saker:

Kommentert opprit frå førre møtet

Ugjort.

  • omorganisera testkatalogane

Ugjort.

  • flytta fleire repo frå svn til git(hub)

Punktvis:

Lister:

  • som genererte artifaktar i github-release-pakkesystemet
  • i svn til vi har det på plass

Ugjort. Ikke pri.

Terminologi:

  • planlegg flyttinga
  • vidare diskusjonar i GitHub-prosjekt el.

Gjøres i løpet av året

Ordbøker:

  • org på same måte som lang-katalogane, prefiks dict-
  • script osb i giella-core
  • reponamn: dict- L1 - L2; L2<1 => L2 = mul
  • døme på reponamn: dict-sma-nob, dict-myv-mul
  • dicts/scripts, dicts/dtd og Makefile må inn i giella-core
  • doc? dev?

Gjort.

  • oahpa
    • oahpa ligg i ped-katalogen, som også inneheld andre ting enn oahpa. Vi må (bør?) skilje dei frå kvarandre.
  • tools
    • Her er det mange ulike ting, også irrelevante. Vi kan rydde eller flytte alt.

Sjå òg https://github.com/orgs/giellalt/projects/1.

Lav pri

Azure og IT-folka

  • domener:
    • antar at de subdomenene av uit.no vi har i dag kan overføres, men vil høre mulighetene rundt domenenavn (særlig underdomener av *.uit.no, e.g. som i dag: gtweb, gtdict, …, men kan vi få nye? f.eks korp.uit.no?)

Ja, vi kan få subdomener, og de kan endres på. Så lenge det ikke er konflikter, er det rett fram.

  • bygge-infrastruktur: Azure Pipelines? kostnader med dette? Vi har potensiellt sett noen store bygge-pipelines
  • machine-learning-relaterte jobber.

Azure Pipelines vil fungere fint.

  • økonomi: hva dekker ITA, hva må avdelingene dekke?

Uavklart

Ordbokssamarbeid (teknisk)

Mål: unngå dobbeltarbeid. Slik vi arbeider no er nesten alt dobbelt:

~mermaid diagram 1~

Mermaid markup ```mermaid flowchart TD A[Ordbokskjelde] --> B(Konvertering) --> C{Bygging} --> D[(NDS-db)] --> E(((NDS))) A[Ordbokskjelde] --> F(Konvertering) --> G{Bygging} --> H[(sátni.org-db)] --> I(((sátni.org))) ```

Målet bør heller vera noko i stil med:

~mermaid diagram 2~

Mermaid markup ```mermaid flowchart TD A[Ordbokskjelde] --> B(Konvertering) --> C{Bygging} --> D[(ordboks-db)] --> E(((NDS))) D[(ordboks-db)] --> I(((sátni.org))) ```

Vi tek det stegvis dit. Ein start:

Felles API

Miljøvariablar i den nye Git-verda

export GUTHOME="$HOME/repos"
export GTLANGS="$GUTHOME/giellalt"
export GIELLA_CORE="$GTLANGS/giella-core"
test -r "$GIELLA_CORE"/devtools/init.d/init.sh && . "$GIELLA_CORE"/devtools/init.d/init.sh

rust-bindinger til libhfst og vislcg3

standard rutinar for å parsa data frå hfst og vislcg3

Møte i framtida