Language Technology at UiT

The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages

View GiellaLT on GitHub divvungiellatekno/giellalt.uit.no

Samansetjingsmøte 14.12.

Til stades: Duommá, Lene, Sjur, Trond

Saksliste

Prosessen med Cmp framover

Vi treng betre rutiner for prosessen:

Taggmessig spesifisering av samansetjing for Cmp/Sh

I mange tilfelle er den samansette forma underspesifisert, +Cmp/Sh der forleddet er forkorta, eller ikkje skil mellom genitiv og nominativ.

Konklusjon: dette løses i transferfiler i MT

Framleis opent : Skilje mellom kortformer i lånord og kortformer i samiske ord. Dette skil vi ikkje mellom no, det blir tema på eit seinare møte.

Samansetjing i analyse vs. leksikalisering

Se Bz 2296

Spørsmålet er om vi vil ha som mål å alltid ha ein representasjon av samansetjingar som viser den interne strukturen til ordet, eller om vi ikkje vil ha det.

maŋisboahtti	maŋisboahtti+N+NomAg+Sg+Nom
iešdovdu	iešdovdu+N+Sg+Nom
adoptiivaváhnen	adoptiivaváhnen+N+Sg+Nom

Se Bz 2280 om egne fortsettelsesleksikoner som ikke gir sammensetning pga speller reasons

Filer av interesse:

Mogleg strategi (til vurdering)

TILTAK

  1. Opne opp stiar for samansetjingar som i dag er sperra (men merke for Use/-Spell ) (Duommá)
  2. Vurdere ulemper ved dette for korpusanalyse (Lene, Trond)
  3. Leksikalisere detaljert analyse der det er aktuelt
  4. Begynne å lage oversikt over sammensetningstyper og tagger på den nye Cmp-sida (Lene)

Referat og neste møte

Trond sjekkar inn referat etter lunsj

Neste samansetjingsmøte: 11.1. kl. 10.00

Saker til neste møte:

Saker til seinare møte