Møte 26.11.2019 - NER og grammatikkontroll
Tilstades: Sjur, Linda, Børre
Tema:
- Teste spellerforslag for navn
- Skilja mellom namn på personar og andre namn - vi rører ikkje personnamn, for stor variasjon der.
manuell oppmerking: burde inneholde informasjon om det er navn
- Sjur & Duommá: bli enig om en eller flere tagger - f.eks. hum, org, plc, prod/obj
- oppmerkingssyntaks: {Namn i Fleire Ledd}®{Org}
-
feilskrivne namn: {Namn med Feil}${feiltype,NE:Org |
Namn med Feilen Retta} |
- separat korpus, der både feilskrevne og ikkje feilskrevne navn er merka
- merke automatisk (evtl. finne alle ord med stor bokstav) og sjekke manuelt
våres ønskeliste til Børre:
- true positives/negatives, false positives/negatives
- Precision
- Recall
- Accuracy
- F-Score
Børre sin ønskeliste:
- For å kunne regne ut dette, må korrekte og feile navn merkes.
Starten på å merke opp korrekte navn er å kjøre tekster gjennom analysatoren, og merke opp de navnene som blir kjent igjen.
Ukjente ord som begynner med stor bokstav kan sendes som en liste til manuell oppmerker, som fortsetter jobben. Korrekte ord som ikke kjennes igjen av analysatoren merkes som den automatiske prosessen ovenfor, feil i navn merkes som vanlig feilmerkingssyntaks.
Real word errors:
Børres ønskeliste:
- lage en eller flere filer med real word errors vi fikser, feiloppmerka (manuelt)
- sáddet Børre dieđu nu ahte son sáhttá vuodjit prográmma
-> freecorpusii
-> Børre
Konklusjon:
- onsdag: Duommá og Linda lager real-word-error korpus og putter det inn i freecorpus
- Børre kjører precision-bla-bla-verktøyet på det
- torsdag: Linda, Duommá og Børre går gjennom resultat, bestemmer videre gang i real-word-error-arbeidet
- etter Paris: Børre merker opp kjente navn i correct-korpuset automatisk, sender liste over ukjente navnekandidater til Duommá
- Sjur snakker med Duommá om kosjn den manuelle oppmerkinga skal være