The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages
Det er mange gamle filer i smenob/inc-mappa. Her bør alle gå gjennom og oppdatere kvar sin fil.
Nettside: Laste opp fil i .doc-format, få attende frekvenssortert lemma og ordform
Her er foreløpig pipeline (som må forbedres litt for å ta hensyn til ikke disambiguert homonymier):
Første steg er identisk med smesyn (sent-proc.sh -s syn) > analysert_fil
cat analysert_fil | grep '"<' | downcase | sort | uniq -d | sort -nr > wordfrekv.file
cat analysert_fil | grep '"' | grep -v '"<' | sort | uniq -d | sort -nr > lemmafrekv.file
cat analysert_fil | grep '"' | grep -v '"<' | cut -d '"' -f3 | cut -d ' ' -f2 | sort | uniq -d | sort -nr > wordclassfrekv.file
Utlysningstekst har vært jobba med og er sendt inn til IS
Forskingsgruppa Giellatekno gjer framlegg om ei PhD-stilling i samisk språkteknologi. Avhandlinga skal omhandle datamaskinell modellering av samisk grammatikk. Det har vært ansatt flere stipendiater og utlyst flere stipendiatstillinger i samisk de siste månedene, så det vil sannsynligvis være vanskelig å få en søker med master i samisk språk. Vi kunne lage utlysninga for to søkergrupper:
Tiltak:
Trond orienterte.
Vi har en som skal arbeide cirka to månedsverk med å strukturere og forbedre nobsme-ordboka. Vi arbeider med en dokumentasjon, som også kan være nyttig for andre språkpar: [/dicts/PrinsippForOrdbokssnuing.html]
Tiltak: