Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Giellateknomøte, 19. 11. 2014

Saker

Forbetring av paradigmegenerering

cgi-bin

Trond har sett på bug for ekstratekst. Sannsynlegvis er det ein fallback-mekanisme: Når den ikkje veit kva den skal gje gjer den alt.

Tagger på flere språk, med mellomrom mellom

Eksempel på presentasjon for paradigmegeneratoren:

vuovdi+N+NomAg+Sg+Nom => subst. handlernomen entall nominativ

Starte med database for tagger med oversettinger til forskjellig bruk og språk

Stader der vi finn taggar i dag:

Innhald:

TODO: Ciprian ser på dette i år.

Bug,

den viser baser bare for en av flere muligheter når PoS ikke er valg => skrive bz vuovdi (skal gi både A, N, N NomAg, V)

Hva vi kan gjøre nå, før databasen er ferdig:

Paradigme utan ordklasse

Bug,

den viser baser bare for en av flere muligheter når PoS ikke er valg => skrive bz vuovdi (skal gi både A, N, N NomAg, V)

Det ligg eit dokument i techdoc som inneheld framlegg til forbetringar av paradigmegeneratoren, vi tar med det i arbeidet vidare

[/infra/web/ParadigmPresentation.html]

Nettsidene våre

Fra møtet 14.10:

Ting som skal gjøres med strukturen for hjemmesida:

Arbeid i nyinfra, neste veke

Smenob/nobsme

Paradigmegenerering i NDS for smenob

Eit neste steg for paradigmegenereringa i NDS vil vere å la dei andre språka få glede av sme-forbetringane

Lene og Ryan har arbeidd mykje, og det er oppretta ein bugzilla for å fikse de siste detaljene

Generering av fad-gt-mergeliste

Lene: Jeg har sett litt på filene. Mange av ordene er ikke i vanlig smenob, men i src_non-accepted, så jeg vil foreslå å samkjøre med ord derfra også. Det er en fordel å ha med infoen src= for alle oversettinger.

Da får vi N antall oversettelser fra gamle filer og N antall oversetteler fra merge-fila. Vi bør:

Viss fad-merge har samanfall i non-accepted blir non-accepted tatt med. Andre non-accepted forblir separat.

TODO:

Metadata

Metadata for de forskjellige ordbøkene skal oppdateres.

Oppfølgjingssaker