Mis ja milleks
Projektist
EELexi sõnastikud
Leksikograafi töökeskkond (allpool EELex) on veebipõhiste töövahendite kompleks, mis ühendab sõnastike koostajatele ja toimetajatele vajaliku tarkvara ja keeleressursid, toetab rühmatööd ja pakub eesti keele tuge.
EELexi tarkvara on sõnastike haldussüsteem, mis võimaldab sõnastikke koostada, toimetada ja küljendada, teha lihtsaid ja keerulisi struktuuripõhiseid päringuid ning päringutulemusi sortida. Toimetaja töö hõlbustamiseks on loodud mitmeid tööriistu, nt ristviidete kontroll, hulgiparandused kogu sõnastikus, eesti morfoloogia andmete genereerimine, küljendusvaate kujundus, sõnastikuteksti eksport Wordi jms.
EELexi leksikaalne ressurss on kakskeelsete sõnastike põhi — Eesti-X sõnastiku andmebaas, kus on juba olemas eesti märksõna kohta käivad andmed, nt sõnaliik, muutevormid, tähendusjaotus, näitelaused jm. Sihtkeele (tõlkevastete) info lisab uue kakskeelse sõnastiku koostaja.
EELexi keskkonnas on valminud või tegemisel üle 20 sõnastiku. EELexis koostatud või sinna üle viidud sõnastikud on standardse märgendusega universaalsed taaskasutatavad keeleressursid, mida saavad kasutada nii leksikograafid ja keeletehnoloogid kui ka tavakasutajad.
Projekti rahastas riiklik programm "Eesti keele keeletehnoloogiline tugi (2006-2010)" (http://www.keeletehnoloogia.ee/).
Iga sõnastikukoostaja, kes alustab puhtalt lehelt uut sõnaraamatut, seisab kohe silmitsi mitme olulise valikuga. Kas sisestada materjal tekstitöötlusprogrammis, et tulemus oleks kohe "nagu päris" või pidada töö käigus vajalikuks ka sisu poolelt eristada, mis on mis? Kuidas olla kindel, et kõik olulised märksõnad on olemas? Kuidas veenduda, et märksõnad on tähestiku järjekorras? Millega garanteerida, et ühelt märksõnalt teisele viidates on mõlemad ka edaspidi samal kujul olemas? Kuidas tööd jaotada, kui kaks inimest tahavad korraga sõnastikku toimetada? Kuidas eraldada sõnaraamatust ühe kitsa valdkonna terminid, et erialaspetsialist saaks need üle vaadata ja omalt poolt parandusi teha? Sõnaraamatud on mahukad ning kord langetatud otsuseid ja nende tagajärgi on hiljem väga raske muuta.
Sõnastike haldussüsteem ongi mõeldud kõikvõimaliku aega ja hoolt nõudva musta töö kaotamiseks, jättes koostajale koostaja töö sisulise poole – vastete, definitsioonide jms lisamise. EELex lahendab kõik eespool loetletud probleemid. Keskkond on veebipõhine ega piira kasutajate arvu. Koostaja näeb korraga nii artikli struktuuri kui ka sama artikli lõplikku vormistust küljendusvaates. Lihtsad tehnilised apsakad on välistatud, sest lisada ja muuta saab vaid artikli struktuuri rangelt järgides. Vormistuse, kirjavahemärkide paneku, sortimise, viitamise, ligipääsuõiguste eest artikli eri osadele ja tööetappidele jm mittesisulise poole eest hoolitseb EELex. Kui EELexi laiatarbeversioonis töö alustuseks pakutav märksõnavalik ja artiklite struktuur tegijat rahuldavad, seisneb sõnaraamatu koostamine lihtsaimal juhul vaid lünkade täitmises.
Et EELex peaks rahuldama kõiki sõnaraamatutöö tüüpvajadusi, siis lisame sinna järk-järgult uut funktsionaalsust. Koostajat huvitab alati laiem info märksõna kohta, näiteks:
Senine kogemus haldussüsteemi kasutamisel on toonud pidevalt esile uusi arendamist vajavaid kohti, näiteks soov importida mõnest muust sõnaraamatust kõik kindlate tingimustega struktuuriüksused; teha sõnastikus keerulisi struktuuripõhiseid päringuid regulaaravaldistega; teha samalaadseid asendusi korraga paljudes sõnaartiklites; muuta xsl-teisendust nii, et html-väljund sobiks brauseri eelvaateks ja sisaldaks ainult kõige olulisemat infot.
Ülle Viks (projekti juht), Andres Loopmann, Indrek Hein, Ain Teesalu, Kristina Koppel
Lühemat aega: Merike Koppel, Kati Sein, Julius Juurmaa, Sven-Olav Paavel
Seotud isikud: Margit Langemets, Kaur Männiko
Projektil on kolm põhieesmärki:
Projekt jätkab kolme varasema projekti tööd (kaks esimest programmist "Eesti keel ja rahvuslik mälu"):
Projekti põhiülesanded on täidetud. Töö on kulgenud järgmistes suundades:
Valminud on leksikograafi töökeskkonna EELex põhimoodul, sõnastike veebipõhine haldussüsteem, mis ühendab sõnastike koostajatele ja toimetajatele vajaliku tarkvara ja keeleressursid, toetab rühmatööd, pakub eesti keele tuge ja võimaldab avalikku kasutust.
EELex kasutab üldisi standardeid: Unicode'i tugi, XML vormingus andmebaasid, XSD skeemid, XSL transformatsioonid. EELexi funktsioonid võimaldavad leksikograafilist tööd professionaalsel tasemel. Sõnastikutekst on esitatud korraga kahel kujul: märgendatud tekstina ja küljendatud kujul. Loodud on vahendid sõnaartiklite koostamiseks ja toimetamiseks, struktuuripõhisteks päringuteks (k.a regulaaravaldistega), tööks erinevate keeltega, andmete importimiseks teistest sõnastikest, piltide, audio- ja videofailide kasutamiseks, sõnastikuteksti ekspordiks Wordi jne.
Toimetajate töö kergendamiseks on loodud mitmeid tööriistu, mis töötavad nii sõnaartikli piires kui ka üle kogu sõnastiku:
- Sõnaartikli tööriistad – artikli ja artikli osade toimetamise seis (koostatud, toimetatud, peatoimetatud), artikli staatuse määramine (läheb sõnastikku / jääb andmebaasi);
- Sõnastiku tööriistad – toimetamise logi (töökäigu registreerimine), hulgiparandused (kogu sõnastikus korraga), EELexi sätted (automaatse klaviatuurivahetuse ja õigekirjakontrolli kasutamine, morfoloogia valikud), XML failide genereerimine ja töötlus, sarnased märksõnad (homonüümide kontroll), viidete (linkide) kontroll, menüüloendite haldus, küljendusvaate genereerimine.
EELex töötas algul ainult Internet Exploreris. Platvormi laiendamiseks on sõnastike andmebaasid üle viidud MySQL relatsioonilisse andmebaasi ja neid hoitakse paralleeselt XML failis ja MySQL andmebaasis. Kasutusele on võetud ka uus platvorm SilverLight (sõltumatu veebilehitseja platvormist), mille alusel on realiseeritud uut tüüpi päringuliides: EELexi sõnastike koondindeks. See võimaldab otsida kõigis sõnastikes korraga: leida sama märksõna eri sõnastikest või sõnastike ühisosa (ühised märksõnad).
Maailmas olemasolevatest elektroonilistest sõnastikusüsteemidest eristab EELexi eesti keele toe olemasolu (integreeritud automaatne morfoloogia, Eesti-X sõnastiku andmebaas), suur paindlikkus sõnastiku struktuuri suhtes, rikkalik valik toimetamise tööriistu ja vaba kasutus (avalik versioon).
EELexi keskkonnaga on integreeritud eesti keele reeglipõhine morfoloogiatarkvara, mis teeb võimalikuks morfoloogiliste andmete automaatse lisamise sõnaartiklitesse. Eeltööna on loodud tüvebaasi ja erandite haldamise tarkvara ning uuendatud morfoloogiasüsteemi tüvebaas ja erandid. Morfoloogiatarkvarale on lisatud välte- ja rõhutuvastuse moodul. Loodud on morfoloogialiides, mis võimaldab vastavalt valitud sätetele genereerida sõnaartiklisse vajalikud grammatilised andmed: soovitud muutevormid (vältega või ilma), sõnaliik, muuttüüp ja vormikood.
Uuendatud on ka EKI reeglipõhise morfoloogiatarkvara demoliides ekiMorfo, mis võimaldab analüüsida sõna muutevorme, sünteesida sõna kõik muutevormid, tuvastada muuttüüpi ja sõnaliiki, tuvastada algvormi väldet ja rõhku, määrata silbipiire. Morfoloogia sätete kaudu saab valida vormikoodi kuju, analüüsivarianti koos liitsõnapiiri tuvastusega ja koos tuletusega või ilma nendeta, sünteesi ja tüübituvastust koos vältega või ilma jne.
Valminud on EELexi haldussüsteemi avalik laiatarbeversioon kakskeelsete sõnastike jaoks (EXSA) (http://exsa.eki.ee/). EXSA põhikomponendid on sõnastike haldussüsteem EELex, avaliku versiooni kasutajaliides ja Eesti–X sõnastiku andmebaas. EXSA tarkvara on universaalne ja sobib iga keelepaari jaoks. Sõnastike struktuuri aluseks on välja töötatud standardne XML skeem, mis vastab tüüpilisele kakskeelse sõnastiku struktuurile, küljendusvaate aluseks on tüüpiline sõnastikuteksti kujundus.
Kasutajaliidese abil on kasutajal võimalik luua oma sõnastik ja häälestada süsteem vastavalt konkreetse sõnastiku vajadustele. Liides võimaldab iga rakenduse jaoks valida sobivad parameetrid: (a) lähtekeele ja sihtkeele valik, millega kaasneb automaatne klaviatuurivahetus ning eri keelte spellerite kasutamise võimalus; (b) küljendusvaate kujundus: kasutaja saab ise määrata elementide kirjastiili, vajalikud tekstid ja eraldusmärgid; (c) märksõna morfoloogiliste andmete automaatne genereerimine. Realiseerimist ootab sõnastiku XML skeemi modifitseerimise võimalus, mille abil võib artikli struktuurielemente välja jätta, lisada ja ümber paigutada.
EXSA-ga on seotud Eesti–X sõnastiku andmebaas XML vormingus (vt 3). Kasutajal on võimalik alustada oma sõnastiku loomist ka tühja andmebaasiga, kuid EXS-i andmebaas annab lisavõimalused: (a) kasutada eesti märksõnade loendit (3 eri mahus) või (b) kasutada kogu EXS-i andmebaasi. Näidiseks ja süsteemi töö proovimiseks on demoandmebaasi valitud u 70 artiklit. Tarkvara kasutamine on vaba, andmebaasi kasutamine eeldab lepingut EKI-ga.
EELexi on seni kasutatud või kasutatakse mitut tüüpi sõnastike koostamisel ja toimetamisel: ükskeelsed (sh üldsõnastikud, entsüklopeedilised sõnastikud ja mitmesugused erisõnastikud); mitmekeelsed tõlkesõnastikud; terminoloogia andmebaasid. Tarkvara on kõigil sõnastikutüüpidel ühine, erinevad on sõnastike struktuuriskeemid (igal sõnastikutüübil on oma standardskeem) ja osalt ka kasutatavad funktsioonid.
Uue sõnastikurakenduse ettevalmistamiseks EELexi keskkonnas on tarvis sõnastiku toimetaja ja süsteemiarendaja koostööd, et koostada sõnastiku struktuurikirjeldus (XML skeem) ja määratleda esitusmallid uute artiklite ja gruppide lisamiseks. Kasutaja saab tööriistade abil ise küljendusvaadet kujundada ning menüüloendeid koostada ja toimetada. Olemasolevate (nn vanade) sõnastike inkorporeerimisele EELexi süsteemi eelneb sõnastike eeltöötlus: sõnastikuteksti struktuurianalüüs ja struktuuri korrastamine, millele järgneb sõnastikuteksti teisendamine XML vormingusse. Eeltöötlus on väga töömahukas ja ainult osaliselt automatiseeritav protsess.
Praeguse seisuga on EELexi keskkonnas 25 sõnastikku. Sõnastike nimekiri on kodulehel: eelex.eki.ee.
EELexi keskne rakendus Eesti–X sõnastiku andmebaas (EXS) on universaalne leksikaal-grammatiline andmebaas, mis sobib aluseks uute eesti lähtekeelega kakskeelsete sõnaraamatute koostamisel. EXS andmebaasis on eesti pool standardkujul olemas: on tehtud esialgne sõnavalik, esitatud grammatilised andmed, näidatud sõna tähendusliigendus koos vajalike seletustega, lisatud sõna kasutusinfo, olulised liitsõnad, sõnaühendid jne. Sihtkeele andmed puuduvad, kuid sõnaartikli struktuuris on ette nähtud kohad tõlkevastetele ja kõigile nende juurde kuuluvatele andmetele: sihtkeele grammatiline info, märgendid, seletused jms. Uue sõnastiku koostaja lisab sihtkeele andmed ja saab vajadusel muuta ka eesti poolt.
EXS-i lähtematerjal on pärit mahukast (u 80000 märksõna) Eesti-vene sõnaraamatust (1997–2009), mida on täiendatud teiste sõnastike andmetega. Materjali esitust on kohandatud EXS-i vajaduste järgi. Ühtlustatud on tähendusliigenduse esitamine, homonüümide esitamine, liitsõnade esitamine (märksõnana või näitena), viidete süsteem, märgendite süsteem (kasutusinfo, valdkonnad) jne.
EXS-i tüüprakendused on uued kakskeelsed sõnastikud. XML skeem ja andmebaas on kohandatud kahe sõnastiku jaoks: Eesti-ukraina sõnaraamat, Eesti-udmurdi sõnastik. Uus rakendustüüp on Eesti-soome sõnastikupõhi, kuhu on automaatselt sisse viidud soome (X) keele andmed Soome-eesti suursõnaraamatust (2003). Tulemuseks on sõnastikupõhi, millega edasi töötavad leksikograafid. EELexi avalikus versioonis EXSA on kasutusel EXS-i esialgne skeem, mis lähiajal asendub uuega: lisanduvad võimalused eri keelte grammatiliste andmete esitamiseks.
Sõnastike avalikud veebiversioonid (vt http://portaal.eki.ee) on suunatud eelkõige tavakasutajale, kuid võimaluste piires arvestatakse ka nõudlikuma kasutajaga, nt keeleteadlased, üliõpilased, leksikograafid, õpetajad jne, kes otsivad sõnastikest materjali oma töö jaoks. Sel juhul on lisaks tavalisele tekstiotsingule vaja mitme tunnuse kombineerimise võimalust ja otsingupiirkonna määratlemise võimalust (struktuuripõhine päring). Keerulisemate päringute tegemiseks on loodud struktuuripõhine otsingumootor, mis tugineb EELexis kasutatavale XML vormingule ja võimaldab teha päringuid (lisaks kogu artiklile ka) eraldi üksikutest struktuurielementidest. Varasemad veebisõnastikud on uuele otsingumootorile üle viidud. Välja on töötatud uus minimaalset konteksti arvestav kuvamisviis mahukate artiklitega sõnastikele: esmalt kuvatakse ainult otsesed leiukohad koos vahetu ümbrusega, laiema ümbruse saab kasutaja ise avada. Esimene rakendus on Sõnaperede andmebaas.
Loodud on EELexi koduleht: http://eelex.eki.ee/, kuhu on koondatud oluline info projekti kohta ja esitatud EELexi süsteemiga hallatavate sõnastike nimekiri koos linkidega avalikele sõnastikele. Leksikograafide tarbeks on eraldi leht, mille kaudu pääseb kasutajanime ja parooliga kõigisse sõnastikesse.
Süsteemi on tutvustatud ettekannetega teaduskonverentsidel, ilmunud on 7 publikatsiooni.
Leksikograafi töökeskkonda EELex on algusest peale arendatud tihedas koostöös kasutajatega. Põhikasutajad on olnud professionaalsed leksikograafid – EKI sõnastikuprojektide täitjad. Neile on lisandunud leksikograafid ja terminoloogid teistest asutustest: Tartu Ülikool, kirjastus Valgus jm. EELexi avalik versioon EXSA on antud avalikku kasutusse kõigile soovijaile.
EELexi keskkonnas on valminud või tegemisel üle 20 sõnastiku. Eesti-X sõnastiku andmebaasi on kasutatud teiste kakskeelsete sõnastike alusena: Eesti-ukraina ja eesti-udmurdi sõnastikud, eesti-soome sõnastikupõhi. EELexis valminud sõnastikke on hakanud kasutama ka firmad: Indilo Wireless on teinud ÕS2006-st iPhone’i versiooni.
Kavas on jätkata rakendustega EKI sõnastikuprojektides, laiendada koostööd kirjastustega ja teiste asutustega. EELexi baasil on kavas algatada uued keeletehnoloogia projektid: tõlkija töökeskkond ja terminoloogi töökeskkond, mis arendavad funktsionaalsust vastavalt uute kasutajagruppide vajadustele. EELex on kasutatav ka teistes keeletehnoloogia projektides, mis sõnastikuressursside loomisega tegelevad.
Sõnastike andmebaase ja tarkvara hoitakse EKI serveris. Varukoopiaid andmebaasidest tehakse iga päev. Üldine ligipääs leksikograafi töökeskkonnale EELex on kodulehe kaudu: http://eelex.eki.ee/. Sõnastike toimetajatel on oma tasemele vastav kasutajatunnusega ligipääs konkreetse sõnastiku aadressilt. EELexi dokumentatsioon on kasutatav töölehe kaudu.
Kestev ligipääs kogu projekti tulemusele on tagatud järgmiselt:
Loodud on leksikograafi töökeskkonna tuum, sõnastike haldussüsteem EELex, mis muudab sõnastike koostamise ja toimetamise lihtsamaks ja tõhusamaks. EELex on veebipõhine töövahend, mille olulisemad omadused on:
EELex-i on seni kasutatud või kasutatakse kaht tüüpi sõnastike koostamisel ja toimetamisel: (1) ükskeelsed (ÕS 2006, Kohanimed, Sõnaperede sõnastik, Leksikoloogiasektori baas) ja (2) kakskeelsed (Eesti-vene sõnaraamat, Eesti-läti sõnaraamat). Uued rakendustüübid on (3) terminoloogiasõnastik (Oxford-Duden) ja (4) Eesti-X-keele sõnastiku andmebaas. Loodud on ka nendega seotud uued funktsioonid: illustratsioonide kasutamine, andmete import muudest EELex-i ressurssidest.
EELex.eki.ee on veel piiratud juurdepääsuga, avalikuks kasutamiseks mõeldud liides on 2008. aasta töökavas. Illustratsiooniks:
EELex-i sõnastiku puhas töölaud
Koostatud on Eesti-X-keele sõnastiku andmebaasi (EXS) esialgne versioon:
Loodud on ÕS 2006 avalik veebiversioon ja täiendatud selle rakendusfunktsioone: