Lisatöövahend xmlStats

xmlStats on (pea)toimetaja tööriist, soovitame selle abil analüüsida ja kontrollida sõnastiku XML faili ning teha skeemi otstarbekuse kohta järeldusi. xmlStats:

Lisaks võimaldab xmlStats (Tööriistade menüüst):

xmlStatsi saab laadida EELexi avalehelt jaotusest Lisatöövahendid: /pub/Install. Samas arvutis peab asuma ka analüüsitav XML fail.

Programmiaken

Programmiaknal on kaks poolt: vasakul poolel on sisendfaili XML puu; paremal on suvandinupud ja tulemuste aken (väljundi kuvamise ‍‍ala).‍‍ Vaikimisi näidatakse puus ainult nimelisi elemente (linnuke Ainult nimed); kliki Kõik elemendid, et näha, mis võimalusi veel on. Nupp Otsi on kasulik siis, kui väljund on pikk, selle abil saab tulemustest leida soovitud sümbolijada.

Linnuke globaalne - kui on linnuke, siis annab elemendi kohta infot (vanemad, lapsed) läbi kogu skeemi; lokaalse puhul liigutakse läbi skeemi elementide kaupa ja elemendi iga esinemise kohta kuvatakse eraldi kokkuvõte (lapsed, näha on konkreetse elemendi rada e vanemad). Lokaalse analüüsi abil saab kontrollida skeemi otstarbekust. Globaalne analüüs annab üldpildi sõnastikust ja elementide esinemisest temas.

Kui on pandud linnuke Loendid, siis programm esitab väljundis kõik loendid, kaasa aravtdu potentsiaalsed loendid. Millisest esinemissagedusest alates sisu loendiks pidama hakata, saad määrata linnukese järel oleva arvuga.

Ülejäänud suvandinuppudel ilmub kursoriga peale liikudes lühike abitekst.

Elemendi analüüsimine

Nupp Info näitab statistikat selle elemendi või atribuudi kohta, mis puus (vasakus aknapooles) aktiivne on. Väljundis esitatakse kokkuvõte, kui palju seda elementi kokku on, millised elemenid on tema "vanemad" ja millised on tema "lapsed". Samuti esitatakse sõnastikus esinevad erinevad struktuuriread, s.t elementide kombinatsioonid struktuuripuus. Struktuurirea koostis on: sagedus | elementide kombinatsioon | näide. Näide on esimene sellist struktuuri sisaldava artikli märksõna (õigemini märksõna rollis olev element, selle kohta vt allpool). Kui elementide kombinatsiooni sees on kuvatud ++, siis see näitab korduvat elementi selle koha peal.

Näide. Analüüsisin elementi z:mg (märksõna grupp):


Silt: .//z:mg
# kokku 34 419
# sisaldab silte: ( z:m z:ki z:etg z:hld z:lyhg z:mvtg z:grg z:mfp z:ths z:vk z:hld2 z:s z:v )
24 |<z:ki><z:m>| ab-
19 |<z:ki><z:m><z:etg>| a-
28 |<z:ki><z:m><z:grg><z:mfp>| AIDS
1 |<z:ki><z:m><z:grg><z:mfp><z:ths>| stooks
1 |<z:ki><z:m><z:hld><z:etg>| sui iuris
26 |<z:m><z:vk><z:mvtg>| aarialased
1 |<z:m><z:vk><z:ths>| santo
# asetseb:
34 419 <z:P>

Konkreetset struktuuri sisaldavaid sõnaartikleid saab kuvada, kui väljundis tähistada vastav struktuuririda (sisestades tulemuste aknas vastava rea esimeseks sümboliks kas + või ?). Päring käivitub, kui vajutad nuppu Kõik.
Silt: .z:etg
# kokku 27 430
# sisaldab silte: ( z:etgg )
15 027 |<z:etgg>|a-
? 12 403 |<z:etgg>++|aaderdus
# asetseb:
27 175 <z:mg>
255 <z:amg>

Elemendi/atribuudi analüüsist välja jätmine

Kõige silmanähtavam mõte on välja jätta nn tehnilised elemendid nagu guid G, koostaja K, koostamise ajad KA, KL jne.
Tööriistad -- Eelistused -- Välja jäetavad elemendid/atribuudid. Avanevas aknas on vasemas veerus kõik selle sõnastiku elemendid koos nimeruumiga ja paremas veerus on need elemendid, mis vaikimisi analüüsist välja jäetakse. Seega saab tekitada paremasse veergu loetelu elementidest ja atribuutidest, mida programm peaks analüüsi käigus ignoreerima. Kui eelistad elementi tippides sisestad (veerust otsime ja valimise asemel), saab seda teha nupu Lisa abil.

Elemendid tekstina

Mõnikord on otstarbekas kuvada xmlStatsi väljundi inforeas elemendi/atribuudi asemel tema sisu. Näiteks tüüpiliselt elementi <kvm> ehk kirjavahemärk on mõtet esitada tema endana. Siis saad otsustada, kas element <kvm> on mõtet skeemist ja sõnastiku andmebaasist kustutada ja määrata kirjavahemärgid hoopis küljendusvaate suvandite abil.

Vali menüüst Tööriistad -- Eelistused -- Elemendid tekstina, määra elemenid ja atribuudid, mis järgmise päringu inforeas kuvatakse mitte elemendina/atribuudina, vaid oma sisuna. Sulge dialoogiaken ning pane xmlStatsi suvandinuppude seas linnuke El. tekstina ning määra kuvatava teksti pikkus (sisu algus).

Märksõna rollis oleva elemendi määramine

Märksõna rollis olevat elemendi sisu näidatakse struktuurireas näitena. Märksõna rollis on vaikimisi element m. Kui analüüsitavas XML failis on teisiti, siis seda saab muuta, valides menüüst Tööriistad -- Eelistused -- Märksõna rollis oleva elemendi nimi.

Artikli rollis oleva elemendi määramine

Artikli rollis on vaikimis element A. Kui analüüsitavas XML failis on teisiti, siis seda saab muuta, valides menüüst Tööriistad -- Eelistused -- Artikli rollis oleva elemendi nimi.

XML faili tükeldamine

Avatud xml-faili saab tükeldada, valides menüüst Tööriistad -- XML-i tükeldamine. Fail peab enne xmlStatsis avatud olema. Määra numbriga, mitmeks tükiks fail jagada, ning kas soovid taandega või taandeta väljundit. Uued failid tekivad samasse kataloogi, kus oli originaalfail.

XMLide ühendamine

Ühendada saab vaid EELexist eksporditud XML faile (mitmeköitelise sõnastiku köiteid näiteks). Failid asugu failiga xmlStats.exe samas kataloogis ja olgu laiendiga .xml.

Vali menüüst Tööriistad -- XML-ide ühendamine. Avanevas aknas vali failid, mida liita (hoia all Ctrl klahv klaviatuuril ja hiirega klõpsa liidetavad failid aktiivseks. NB! Vali failid n-ö tagantpoolt ettepoole ehk tulemusfaili lõpp kõigepealt ja algus viimasena) ja Ok. Järgmises aknas näita ära koht kataloogipuus, kuhu uus fail ja millise nimega salvestada tuleks.

XMLi sorteerimine

Tööriistad -- Sort. atr. ja sorteerimine. Ilmub dialoogiaken "Sisend: Mingi XML-fail", mille abil ava sorteeritav fail. Järgmisena ilmuvas aknas "Salvesta kui..." anna tulevasele, sorteeritud failile nimi (ja soovi korral asukoht kataloogipuus). Seejärel ilmub aken "Kontrolli, kas kõik on õige!", siin saab muuta sõnastiku algandmeid (koodi, prefiksit ja nimeruumi e URI) ning määrata suvandid selle kohta, kuidas programm sotreerimisel sisendit "loeb":
fakultatiivjärjendite eraldajad (nt ´[]´, ´()´) on ...
liitsõnapiiri eraldaja (nt ´+´, ´/´) - kui märksõnadel on liitsõnapiir tähistatud, siis tuleb seda programmile ütelda, et ta teaks vastavat märki sorteerimisel ignoreerida.
homonüüminumbri arvestamine -
põhisõna atribuudi arvestamine -
märksõna asukoht artiklis (nt ´x:P/x:mg/x:m´, ´t:kp/t:terg/t:ter´) - kirjuta märksõna rollis oleva elemendi xml-rada, et programm leiaks märksõna või termini üles
mySqlDataVer - #
XML-väljund trepitud - kui linnuke, siis väljund-XML trepitakse taanetega mugavamaks lugemiseks, kui linnuke puudub, siis kogu väljund on ilma ühegi taandeta ühel real

Vajuta OK ja kontrolli uus fail üle.

XML faili valideerimine

Tööriistad -- XML-i valideerimine ja määra avanenud aknas nii XML kui XSD fail. Kliki Valideeri. Kui valideerimisel leidus vigu, siis kuvatakse tabel, kus on näidatud vea tekkimise koht ning antud vea või hoiatuse kirjeldus.

XMLi eksportimine MySQL andmefailidesse

Tööriistad -- Eksport MySQL andmebaasi, avanevas aknas (pealkirjaga Sisend: köited) vali XML fail(id), mis failidesse eksportida vaja on. Soovitame originaalfaili nimele lisada lõppu _org, sest programm kirjutab originaali üle. Edasises aknas saab muuta sõnastiku andmeid (koodi, prefiksit ja nimeruumi e URI) ning määrata suvandid selle kohta, kuidas programm käsitleb fakultatiivloendite eraldajaid, liitsõnapiiri, märksõna asukohta artiklis jms (vt suvandite tutvustust eespool: XML-i sorteerimine). Kõik need andmed sõnastiku kohta loetakse sõnastiku konfiguratsioonifailist ’ shsconfig_xxx.xml’ üle võrgu ja nad on informatsioonilise iseloomuga.

Taustainfo ja ajalugu
Läbi aegade on EKI käsutuses olnud kümneid XML vormingus sõnastikke, nii oma majas tehtuid kui ka väljast saaduid. Tekkis vajadus sõnastike struktuure uurida ja võrrelda. Struktuure tuleb eelkõige lihtsustada ja samas ka ühtlustada, kui kasutame sõnastikke sõnastikuhaldussüsteemis.
EKI-s kasutatav sõnastikuhaldussüsteem nimetati hiljem ametlikult nimega EELex. Ühtlustatud struktuuride korral on EELex-i lihtsam hallata ning uusi toimetajaid uutes sõnastikes kergem koolitada. Lihtsustatud struktuuride korral omandab toimetaja töö kiiremini töö on tulemuslikum ja kergemini mõistetav.