“Måndagsmøte”
Saksliste:
- endringane i transducer-kompileringa
- Hunspell + tex-hyph til 1. april
- korpus, tmx og FAD
- hfst, cg og talesyntese
- diskusjonen med Tino
- hfst-proc - GSoC med Apertium?
- lookup2cg
- NB/Mo
- Bugzilla
- Samisk på smarttelefonar og interaktive lesebrett
- Hash i lemma
- prioriteringar framover
Endringane i transducer-kompileringa
Jf. svn-log r54783, r54785. Viktig: M4 er ute, og vi bruker fst-manipulering i staden. Save-fila byggjer på save-hyph. Grenser er synlege i twoltrans. Stavekontrollen (hunspell, plx) bruker også same transducer.
Som ein del av desse endringane har >7 vorte endra til [[>] for å unngå at >70 blir analysert som >0. I tillegg er desse symbola no koda systematisk for både venstre og høgre side (slik at vi har morfologiske skiljeteikn for både prefigerande og suffigerande morfologi).
%<+PUNCT+LEFT:%[%<%] # ;
%>+PUNCT+RIGHT:%[%>%] # ;
Hunspell + tex-hyph til 1. april
M4-arbeidet vart gjort pga. fristen for å få hunspell ferdig til april. Sjur og Børre arbeider med hunspell.
plx: Kva med å halvere den plx-fila som blir generert med 1 verb, 1 substantiv, 1 adjektiv, 1 propernoun?
korpus, tmx og FAD
- TMX (beta) er på nett
- Børre og Berit Merete ser på typos
- Ordparallellisering: Ciprian
- Autshomato: Børre (og Sjur)
TILTAK
- Skriv intern dokumentasjon for Autsh/OmegaT-testing (Børre, Sjur)
- Framgang med typos og ordparallellisering til neste møte
- Neste FAD-møte 12.3. kl. 14.30
hfst, cg og talesyntese
diskusjonen med Tino
lookup2cg
Sjur: Er avhengig av ein perl-fri pipeline for talesyntese (ferdig i 2012), og vil ikkje gå inn på eit prosjekt med å flikke på lookup2cg.
Trond: Viss vi kan få ein fst-basert postprosessor på beina snart kan dette vere ein veg å gå.
TILTAK
- lage pre- og postprosessing som fst, for hfst (=hfst-proc + transducer-manip.)
- xerox vil framleis trenga preprocess.pl
- xerox-varianten vil innehalde ein nedstrippa perl-basert lookup2cg, men elles bruke fst for postprosessering frå LANG.fst.
- Deadline: tidleg mai.
hfst-proc - GSoC med Apertium?
Francis vil ha hfst-proc som GSoC-prosjekt. Det er overlapp med prosjektet vårt, men det er viktige skilnader.
Input, default (vi går ut i frå at PrfPrc er korrekt lesing):
"<doapmalan>"
"doapmat" V PrfPrc
"doapmat" Der/l
"doapmat" V IV
"doapmat" V Actio Nom
"doapmat" Der/l
"doapmat" V IV
Forslag til nytt input-format (til CG) (“//” er ikkje endeleg symbol, berre eit eksempel):
"<doapmalan>"
"doapmat" V IV // Der/l // V PrfPrc
"doapmat" V IV // Der/l // V Actio Nom
Output (i begge tilfelle):
"<doapmalan>"
"doapmat" V PrfPrc
"doapmat" Der/l
"doapmat" V IV
TILTAK
- diskuter med Lene (Trond)
NB/Mo
Børre skal ha møte med Johanne på fredag. Trond prata med Freddy, dei pratar på nytt når han har lese e-posten frå Trond.
Bugzilla
Trond og Sjur tar opp dei ulike bugane med respektive ansvarlege.
Samisk på smarttelefonar og interaktive lesebrett
Få samisk til å fungera på iPhone og andre smarttelefonar. Dette er viktig for FAD.
Dette er ei politisk sak (få Apple, og evt. Google, til å inkludere samisk). Men først må dei samiske løysingane bli utarbeidde.
Hash i lemma
I dag er dei for human eyes only. Vi diskuterer om vi vil ha det eller ikkje, i neste veke.
Prioriteringar framover
- Hunspell/orddelling (Avvir) 1.4.
- Bugzilla (jf. tidsfristene)
- Pre- og postprosessering
- FAD/korpus: 12.3. og 31.3.