Korpus-møte
Til stades: Børre, Ciprian, Sjur, Trond
- Status quo for innsamla data
- Konverteringa
- Språktagging
- Parallellføring
- Testing
- Korpusstrategi
- Status quo for uinnsamla data
- Arbeidsprioritering framover
- Clarino, META-NET?
- Neste møte
Status quo for innsamla data
Konverteringa
dtd berre online
xml som blir konvertert gjennom konvertering blir validert mot divvun-servaren.
Det vi vil:
- Kunne konvertere også offline.
- Kunne oppdatere dtd-ane utan manuell kopiering på divvun.no
Løysing: Referere til dtd lokalt gjennom heile konverteringa, men byt ut til
dtd-ref på nettet i det ferdigkonverterte dokumentet.
TILTAK
- køyre dtd-ane inn i svn i kvar katalog og referere til dei lokalt
- oppdatera nett-dtd-en automatisk når svn blir oppdatert
Konverteringsfeil
Dvs convert2xml:
- span og skrivefeil i same avsnitt - span blir konvertert, ikkje feilmerkinga.
- ocr-feil (rapportert her, jf. #1024)
- feil rapportert i bugzilla (11 bugar)
- 1141 sma orig/ficti/anna_… are converted with Žž for the scandinavian chars
- 984 Verse stanzas flawed in sma Bible
- 1139 Spaces in wrong places, multiword output in nested markup with ccat -S
- 1005 Still 3554 doublet sentences in sma corpus
- 1024 ocr-feil og språkmerkingsfeil i sma
- 1028 18 Couldn’t convert - files
- 1029 11 files in freecorp with “not able to make valid xml out of”
- 1061 Language identification ignores xml:lang value
- 1048 Language detection assigns non-available languages to converted files
- 1074 Possible infinite template recursion because of input data
- 1073 stable/converted: Footnote in HTML-documents
Parallellføring:
- finst det eit parallelt dokument?
- inneheld det parallelle dokumentet tekst?
- inneheld dei parallelle dokumenta tekst på rett språk?
pdf-dokument i stable
~/freecorpus/stable/converted/sme/admin/depts$ll other_files/*xml|wc -l
62
~/freecorpus/stable/converted/sme/admin/depts$ll regjeringen.no/*xml|wc -l
1003
- convert2xml missar 12 av 12 000 dokument
- dei som står i nob og sma admin dept er no i stable
Testing
dersom konverteringa er ok, sjekk innhaldet:
Språktagging:
- hovudspråk - (likt dir-språk?)
- andre språk - kva slags (berre rapport)
- andre språk - meir enn 2?
Innhaldssjekking:
- kor mange ord er det i dokumentet? Er det tomt? (XSL eller ccat)
-
for kvart anna språk, kor mange ord er det jf med hovudspråket? (ccat -l XXX -S |
wc -l) |
- for kvart språk vi kan analysera: kor mange ukjende ord er det? > 5% = ERR
Språktagging
cat_text
ccat -l smj -r stable/../sme/../regjeringen.no/ inneheld 15% nordsamisk
Denne innehelt 15% sme. Vi må forbetre cat_text
TILTAK
Testing av stable
testing av sme/../regjeringen.no
Teknisk har konverteringa av html-filene gått bra. Det er ingen vesentlege feil med konvertering og språkattkjenning. Den typen feil som står att treng vi metodar for å finne.
Oppdatering: det er framleis problem med tekstgjenkjenninga (OCR? nei, vanleg tekst), men det krev fyrst og fremst oppdaterte metadata, jf Bugzilla #1146.
- strukturfeil (overskrifter, tabellar som går inn i brødteksten)
- parallellitet (er heile sme på sme, er heile nob på nob?)
testing av sme/../other_files
Korpusstrategi
“stable”
Kva er stable?
- Sjur: Kvalitetssikra (automatisk, manuell) og sjekka for minst eitt bruksområde B. Metadata: stable modulo B.
- Men: kva er B? ±parallell, ±original == .xsl !!!
- Trond: Vi treng både unstable og stable.
Bruksområde:
- parallellføring
- syntaktisk analyse
- termekstrahering
Framtid:
stable/
converted/
tagged/
goldstandard/
Språkblanda dokument
Dokument som inneheld same tekst fleire gonger, på ulike språk
- multikatalog
- duplisere og triplisere dokumenta
- ha dokumentet i språkkatalogen til språket som står først
Konsensus for 1.? Ja.
Status quo for uinnsamla data
- jus! nac1993 = NOU (den står i admin/dept/nou og i
- lovtekstar i
- opplæringslova står på sme, ikkje på nno
arbeidsprioritering framover, deadlines
- ccat-feil for testbenkprosjektet
- Innhald
- parallell sme-nob (FAD, Autsh, online)
- monolingual sma (grammatikkutvikling)
Deadlines
Neste møte