Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Status for infra - møte 5.12.2023

Folk: Anders, Børre, Flammie, Sjur, Trond

Saker:

Kommentert opprit frå førre møtet

Ugjort.

2023-12-05

Flammie jobbar med dette i romjula, med utgangspunkt i strukturen skissert i den siste kommentaren her

Ferdige fst-filer skal lagrast i src/fst/, dei temporære filene skal leggjast i ein usynleg katalog src/fst/.deps/, med unnatak av lexicon.tmp.lexc

  • omorganisera testkatalogane

Ugjort. Gjer vi etter omorganiseringa av fst-katalogen (sjå over).

  • flytta fleire repo frå svn til git(hub)

Punktvis:

Lister:

  • som genererte artifaktar i github-release-pakkesystemet
  • i svn til vi har det på plass

Ugjort. Ikke pri.

Terminologi:

  • planlegg flyttinga
  • vidare diskusjonar i GitHub-prosjekt el.

2023.12.05: Gjøres i løpet av året Vi utset dette til seinare, ikkje prioritert no.

  • oahpa
    • oahpa ligg i ped-katalogen, som også inneheld andre ting enn oahpa. Vi må (bør?) skilje dei frå kvarandre.

For git vs. svn: Det er greiare å ha det i git enn i svn. Vi flyttar sjølve katalogen frå $GTHOME/ped til ` $GUTHOME/giellalt/oahpa`

Her er to moglege modellar for modularisering:

  1. Legge språkspesifikke ped-filer i lang-XXX/tools/oahpa
  2. Ha eigne katalogar tuellalt/oahpa-XXX
  • tools
    • Her er det mange ulike ting, også irrelevante. Vi kan rydde eller flytte alt.

Sjå òg infrabyggeprosjektet på github.

Lav pri

Ordbokssamarbeid (teknisk)

Mål: unngå dobbeltarbeid. Slik vi arbeider no er nesten alt dobbelt:

~mermaid diagram 1~

Mermaid markup ```mermaid flowchart TD A[Ordbokskjelde] --> B(Konvertering) --> C{Bygging} --> D[(NDS-db)] --> E(((NDS))) A[Ordbokskjelde] --> F(Konvertering) --> G{Bygging} --> H[(sátni.org-db)] --> I(((sátni.org))) ```

Målet bør heller vera noko i stil med:

~mermaid diagram 2~

Mermaid markup ```mermaid flowchart TD A[Ordbokskjelde] --> B(Konvertering) --> C{Bygging} --> D[(ordboks-db)] --> F[API] --> E(((NDS))) F[API] --> I(((sátni.org))) ```

Vi tek det stegvis dit. Ein start:

Felles API

Miljøvariablar i den nye Git-verda

export GUTHOME="$HOME/repos"
export GTLANGS="$GUTHOME/giellalt"
export GIELLA_CORE="$GTLANGS/giella-core"
test -r "$GIELLA_CORE"/devtools/init.d/init.sh && . "$GIELLA_CORE"/devtools/init.d/init.sh

rust-bindinger til libhfst og vislcg3

standard rutinar for å parsa data frå hfst og vislcg3

Bugzilla

Possible converter

Sjå dette GH-prosjektet for meir info og detaljar.