The Divvun and Giellatekno teams build language technology aimed at minority and indigenous languages
Tilstede: Trond, Ciprian, Chiara, Lene
Ciprian presenterte artikkel som blir fagfellevurdert og publisert.
Bonus: Muligens får vi et verktøy til visualisering av flerspråklige ordbøker.
Søknaden blei sendt i går innen tidsfristen. Samarbeid mellom SA og UiT, søknadssum 6 mill. Tittelen: The role of MT in Saami literacy.
private/trunk/plan/admin/applications/nfr_2018/
Alt er implementert lokalt, men last opp fil er enda ikke implementert på nettet. google-konto for Konteaksta er oppretta.
Hva skal vi gjøre med filer som lastes opp? Folk bestemmer om vi sletter fil eller hvis det blir tilgjengelig til dem.
Språkgjenkjenning, problem med textcat. Chiara snakkar med Børre.
Lene har testa, det er problem med noen tekstar. Ser på dette med Chiara.
Pipeline bug med preprocess. Vi bruker xfst på nettet no, men jobber med hfst-pipeline lokalt. Trond skal forbedre abbr-preprosesseringa for hfst, dvs. klassifisering av abbr som har punktum og ikke, og begge.
Møte med lærere på NTVGS tirsdag 22. mai kl. 12-15.30 (Chiara og Lene)
Input til CG skjer i dag i prinsippet på tre måtar:
Det vi vil ha over heile linja er (3), dvs:
./configure --with-hfst --enable-tokenisers
hfst-tokenize --giella-cg --weight-classes=1 tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst|vislcg3 -g src/syntax/disambiguator.cg3
Sjå hfst-tokenize --help
for eit oversyn over alternativ.
ML er i Tromsø neste uke, vi skal gjøre ferdig en artikkel om smn speller.
Arbeide med tokenisering i hfst-pipeline.
Lene Og Trond lager søknader. 2 søknader (lønnstrinn 35 koster ca. 41 000 per månedsverk på budsjettet)
Fire kriteria å vurdere
Konvertering pdf til xml: Problemet er bindestrekar på slutten av linja i pdf-dokumentet.
(note: ordformsøk fin-smn går bra, men ikkje lemmasøk)
Vi har fått inn lister fra SK, vi må diskutere hvilken database vi ønsker.
Ciprian tar kontakt med SK for å avklare en del informasjon i listene.
Deretter ser vi på det, og inviterer evt nokon frå SK til diskusjon.
Ciprian og Lene arbeider med dette.
Juni: