Sissejuhatus andmebaasidesse Mis on andmebaas? Andmebaasi võib määratleda kui teatud teemat puudutavate andmete kogumit. See on korraldatud viisil, mis lubab infot hõlpsasti uurida, muudatusi teha ning uusi kirjeid lisada. Vaatame näiteks siinset skeemi, millel on kujutatud lihtne telefoniraamat. Telefoninumbrite andmebaasi skeem Telefoninumbrite andmebaasi skeem Toodud pildil on näha kaks kontakti, kumbki omaette kaardil. Tabelis saab sellise kaardi seada ühele reale: tabel Kontaktid Nimi Tel. nr. Joan 699 23 43 12 Adam 711 19 77 21 Mõisted: konkreetsed andmed, mis moodustavad osa suuremast kogust, kannavad nimetust rida või kui kasutada professionaalsemat väljendit, siis kirje. Kogu ise kannab tavaliselt nimetust tabel. Kõige mõistlikum on üldiselt anda tabelile nimi, mis väljendab selles peituvate andmete sisu - antud juhul siis Kontaktid. Iga rida koosneb mitmest veerust, mida mõnikord nimetatakse ka väljadeks. Tabelis Kontaktid on kaks veergu (välja): Nimi ja Tel. nr. Lihtsamas tähenduses moodustab juba üks tabel andmebaasi. Paljud peavadki neid samaväärseks. Aga nagu edaspidi näeme, on tegelikes andmebaasides tavaliselt märksa enam kui üks tabel. Kokkuvõtteks võib öelda, et meil on nüüd juba lihtne andmebaas ühe tabeliga, mis kannab nime Kontaktid. Andmebaas ja arvutustabel Arvatavasti oled juba kasutanud mõnda tabeliarvutusrakendust, näiteks KSpread, OpenOffice.org Calc või Microsoft Excel. Sellisel juhul tekib vahest mõte: kui nii arvutustabelis kui ka andmebaasis on tabelid, siis miks viimast üldse kasutada? Arvutustabeleid ja andmebaase võrreldes puutud usutavasti kokku järgmiste probleemidega, mida vaatleme allpool lähemalt: Andmete viiteterviklus Andmete liiasus Andmeterviklus ja -õigsus Andmevaate piiramine Jõudlus ja võimsus Käepärased andmekirjed Aruanded Programmeerimine Ühiskasutus Turvalisus Mille poolest erineb andmebaas arvutustabelist? Laiendame oma tabelit Kontaktid veidi ja lisame veeru (välja) Aadress. Lisame igale isikule veel telefoninumbreid (kodus, tööl) ning ka nende perekonnanimed. Lihtsuse mõttes eeldame järgmisi asju: tabel on piiratud kahe inimesega (mõistagi võib reaalses andmebaasis olla sadu ja tuhandeud isikuid) pole ühesuguse ees- ja perekonnanimega isikuid Kontaktide tabel Ees- ja perekonnanimi Tel. nr. Aadress Joan Smith 699 23 43 12 Brama Zachodnia 1, Varssavi Adam Willson 711 19 77 21 London, Frogs Drive 5 Joan Smith 110 98 98 00 Brama Zachodnia 1 Smith Joan 312 43 42 22 Varssavi, Brama Zachodnia 1 ADAM Willson 231 83 02 04 Frogs Drive 5, London Sellist tabelit võib luua nii arvutustabeli kui andmebaasina. Arvutustabeli kasutamine on loomulikult väga lihtne. Milliste probleemidega me hetkel silmitsi seisame? Andmete viiteterviklus Oletame, et kasutad arvutustabelit ja sul tuleb muuta vähemalt ühe isiku aadressi. Sinu ees seisab pisike probleem: sageli tuleb selleks muuta aadressi paljudel ridadel. Nii võib näiteks Joan esineda kolmel real. Probleem tekib siis, kui unustad üht neist ridadest muuta: isikule omistatud aadress muutub mitmetähenduslikuks, see aga tähendab, et sinu andmed kaotavad tervikluse. Pealegi pole kuigi lihtsat võimalust mõnda isikut tabelist kustutada: selleks tuleb kustutada kõik teda sisaldavad read. Andmete liiasus See on otseselt seotud eelneva probleemiga. Väljadele Ees- ja perekonnanimi ning Aadress on samu andmeid sisestatud mitu korda. See on arvutustabelitele tüüpiline vähetõhus viis andmete salvestamiseks, sest andmebaas kasvab nii või teisiti, nõudes vastavalt aina enam ressursse arvutilt (suuremad andmed ja aeglasem ligipääs). Kuidas aitab andmebaas neid probleeme lahendada? Info võib jagada väikesteks tükkideks, luues täiendava tabeli Isikud vaid kahe veeruga: Ees- ja perekonnanimi ning Aadress: tabel Isikud Ees- ja perekonnanimi Aadress Joan Smith Brama Zachodnia 1, Varssavi Adam Willson Frogs Drive 5, London Iga tabeli Isikud rida vastab ainult ühele isikule. Tabel Kontaktid on nüüd seotud tabeliga Isikud. Andmeterviklus ja -õigsus Pane tähele, kuidas on andmed sisestatud väljadele Ees- ja perekonnanimi ning Aadress. Andmeid sisestavad inimesed võivad mõnikord eksida või olla hooletud. Meie näites ongi andmeid sisestatud erinevalt: Joan Smith ja Smith Joan, Adam ja ADAM. Üht ja sama aadressi võib samuti mitmel moel sisestada, nagu ka meie tabel näitab. See probleem ilmneb siis, kui otsid näiteks isiku telefoninumbrit, kelle aadress on "Brama Zachodnia 1, Varssavi". Sa leiad kolme kirje asemel ainult ühe. Samuti ei leia sa kaugeltki kõiki telefoninumbreid, kui otsid välja Ees- ja perekonnanimi järgi isikut "Joan Smith", sest "Joan Smith" ja "Smith Joan" loetakse antud juhul erinevaks. Kuidas aitab andmebaas neid probleeme lahendada? Selleks tuleks muuta tabeli Isikud ülesehitust: Jagada andmed väljal Ees- ja perekonnanimi kahele väljale: Eesnimi ja Perekonnanimi. Jagada andmed väljal Aadress kolmele väljale: Tänav, Majanumber ja Linn. Tagada andmeõigsus nõudega, et väljad ei oleks tühjad (s.t. et alati tuleb sisestada ka näiteks majanumber). Muudetud tabel näeb välja nii: Isikute tabel Nimi Perekonnanimi Tänav Majanumber Linn Joan Smith Brama Zachodnia 1 Varssavi Adam Willson Frogs Drive 5 London Tingimused nõutav väli nõutav väli nõutav väli nõutav väli nõutav väli Tänu tingimuse nõutav väli lisamisele võime olla kindlad, et sisestatud andmed on täielikud. Mõningate tabelite korral võib muidugi andmete sisestamisel lubada teatud väljade tühjaksjätmist. Andmevaate piiramine Arvutustabelid näitavad tabeli kõiki ridu ja veerge, mis eriti väga suurte andmetabelite korral on päris tülikas. Arvutustabelis võib muidugi ridu filtreerida ja sorteerida, kuid seejuures peab olema väga ettevaatlik. Arvutustabeli kasutajad võivad sageli unustada, et andmevaade on filtreeritud, mis võib kaasa tuua eksimusi. Näiteks summa arvutamisel võid arvata, et sul ongi 100 andmerida, ehkki tegelikult on veel 20, aga need on peidetud. Kui soovid kasutada andmete väiksemat hulka, näiteks saata neid teistele redigeerimiseks, võib need kopeerida ja asetada teise arvutustabelisse ning redigeerimise järel muudetud andmed taas põhitabelisse asetada. Kuid sellise "käsitsi" redigeerimise korral valitseb suur andmekao või vigaste arvutuste võimalus. Andmevaate piiramiseks pakuvad andmebaasirakendused päringuid, vorme ja aruandeid. Ühe praktilise piiramise näitena vaatleme varasema tabeli Isikud laiendatud versiooni: Isikute tabel Nimi Perekonnanimi Tänav Majanumber Linn Sissetulek Joan Smith Brama Zachodnia 1 Varssavi 2300 Adam Willson Frogs Drive 5 London 1900 Eeldame, et lisatud veerg Sissetulek sisaldab konfidentsiaalseid andmeid. Kuidas jagada nüüd näiteks isikute kontaktandmeid oma kaastöötajatega ilma nende isikute sissetulekut paljastamata? See on võimalik, kui jagad ainult päringu, aga mitte terve tabeli. Päring võib valida kõik veerud, välja arvatud veerg Sissetulek. Andmebaaside maailmas kannab selline päring sageli nimetust vaade. Jõudlus ja võimsus Sinu arvuti võib olla küll võimas, aga peaaegu kindlasti koged, et väga suurte arvutustabelite korral jääb see ometi aeglaseks. Selle põhjuseks on esmajoones indeksi puudumine, mis kiirendaks andmete otsingut. Andmebaasid pakuvad sellist võimalust. Kui aga kasutad näiteks süsteemset lõikepuhvrit, võib isegi andmete kopeerimisele kuluda närviajavalt palju aega. Suuri andmekogumeid sisaldavate arvutustabelite avamisele võib kuluda väga palju aega. Arvutustabelid laadivad avamisel hulga andmeid arvuti mällu. Tõenäoliselt on enamik laaditud andmeist parajasti kasutud või ebavajalikud. Erinevalt arvutustabelitest laadivad andmebaasid andmeid arvuti mällu ainult sellise vajaduse tekkimisel. Enamasti pole vaja andmebaaside puhul muret tunda, kuidas need andmeid salvestavad. See tähendab, et erinevalt arvutustabelitest ei ole andmebaaside puhul vaja muret tunda järgmiste asjade pärast: Ridade järjekord, sest sa võid ridu järjestada vastavalt vajadusele. Pealegi võib samu andmeid vaadata mitmes vaates erineval moel. Sama käib tabeli veergude (väljade) kohta. Koos eelnevas alajaotuses kirjeldatud andmevaate piiramise võimalusega on need omadused andmebaaside väga suureks eeliseks. Andmekirje Tabelitöötlusrakenduste uusimad versioonid võimaldavad kujundada andmekirjete vorme. Neist on kõige enam kasu siis, kui sinu andmeid ei ole eriti mõistlik esitada tabelina: näiteks kui tekst hõlmab liiga palju ridu või kui kõik veerud ei mahu mingil tingimusel ekraanile ära. Sellisel juhul osutuvad arvutustabelid juba olemuselt problemaatiliseks. Selliste andmekirjete väljad paiknevad arvutustabelis suvaliselt ega pole tihtipeale eriti turvaliselt kaitstud kasutaja (tahtliku või tahtmatu) sekkumise eest. Aruanded Andmebaasid võimaldavad andmeid rühmitada, piirata ja summeerida aruande kujul. Arvutustabelid esitatakse nii ekraanil kui ka trükituna tavaliselt väikeste tabelitena, ilma et sul oleks täielik kontroll lehekülje ja väljade paigutuse üle. Programmeerimine Andmebaaside loomise rakendused sisaldavad sageli terveid programmeerimiskeeli. Uuematel tabelitöötlusrakendustel on samuti see funktsionaalsus, kuid arvutused piirduvad arvutustabeli väljade muutmise ja lihtsa andmete kopeerimisega ega arvesta kuigivõrd eelpool mainitud tervikluse nõuetega. Andmete töötlemine arvutustabelis käib sageli graafilises kasutajaliideses, mis võib aeglustada andmetöötluse kiirust. Andmebaasid võivad töötada taustal, ilma graafilist kasutajaliidest kasutamata. Ühiskasutus Ühe arvutustabeli ühiskasutust on isegi raske ette kujutada. Uusimate rakendustega võib see küll olla tehniliselt võimalik, kuid see nõuab kasutajatelt väga suurt distsipliini, tähelepanelikkust ja teadlikkust, mida on väga raske tagada. Arvutustabelisse salvestatud andmete klassikaline teistega jagamise viis on saata neile fail tervikuna (tavaliselt e-postiga) või panna see tabelarvutuse failina välja võrku. Suuremate inimrühmade korral on see väga vähetõhus: andmed, mida sul mingil konkreetsel hetkel vaja läheb, võivad olla lukustatud, sest neid kasutab keegi teine. Andmebaasid on aga juba kavandatud mõttega, et neid võib korraga kasutada ka palju inimesi. Isegi kõige lihtsamates versioonides saab lukustada või vabaks anda tabeli iga rida, mis tagab väga lihtsa ja hõlpsa tabeliandmete jagamise. Turvalisus Arvutustabeli või selle konkreetsete osade kaitsmine parooliga on üldiselt rohkem sümboolne. Kui tabelarvutuse fail on võrku pandud, võib iga isik, kellel on antud asukohta ligipääs, selle sealt endale kopeerida ja üritada parooli murda. Mõnikord pole see sugugi raske, sest parool on salvestatud arvutustabeliga samasse faili. Sama lihtne on jagu saada arvutustabeli või selle osa redigeerimise või kopeerimise lukustamise võimalustest. Andmebaasid aga (välja arvatud need, mis on serveri asemel salvestatud failina) ei pruugi üldse asuda ühes failis. Neile pääseb ligi võrgus, tavaliselt on selleks vaja anda kasutajanimi ja parool. Ligipääsu saad ainult neile aladele (tabelid, vormid või isegi konkreetsed read ja veerud), millele sulle on selline õigus antud. Kasutamisõigused võivad tähendada õigust andmeid muuta või ka ainult neid vaadata ehk lugeda. Kui mingeid andmeid pole sulle kättesaadavaks tehtud, ei saadeta neid sinu arvutisse, nii et sul pole neid võimalik kopeerida või vähemalt ei ole see kaugeltki nii lihtne kui tabelarvutuse failide korral. Andmebaasi disain Andmebaasi disain vajab hoolikat läbimõtlemist. Pane tähele, et näiteks eelmises osas kirjeldatud tabeli Kontaktid ümberkujundamine võib tekitada probleeme, kui tabel on juba andmetega täidetud. Nii ei ole näiteks välja ümbernimetamine sugugi raske tegevus, kuid välja Aadress jagamine kaheks eraldi väljaks nõuab väga hoolikat ja pingsat tööd. Selliste probleemide vältimiseks loo oma andmebaasiprojekt üksikasjalikult juba peas, enne kui hakkad seda looma arvutis ning sa ise ja teised seda kasutama hakkavad. Kui kulutad algul aega veidi rohkem, säästad tõenäoliselt edaspidi omajagu nii enda kui kõigi teiste aega. Kes vajab andmebaasi? Püsi arvutustabelite juures, kui: Sinu vajadused on piiratud ning sinu andmed ei kasva kunagi kuigi suureks (ehkki - kas sa oskad seda tõesti ette näha?) Sa ei ole suuteline omandama andmebaaside loomise meetodeid. Siiski võiks sellisel juhul kaaluda mõtet anda see ülesanne kellelegi teisele või kasutada lihtsamaid tööriistu. Sa kasutad keerukaid arvutustabeleid ning sul puudub aeg või raha andmebaasidele üleminekuks. Mõtle siiski või pea kellegagi aru, kas see ei vii sind ummikusse. Ära looda maagilistele abivahenditele, mis muudavad sinu (ükspuha kui hästi loodud) arvutustabelid vaevata andmebaasiks. Kaalu andmebaaside kasutamist, kui: Sinu andmekogu kasvab iga nädalaga. Sa lood sageli uusi arvutustabeleid, kopeerid nende vahel andmeid ning tunned, et see muutub aina keerulisemaks ja vaevalisemaks. Sel juhul tasub üleminek andmebaasidele ennast kindlasti ära. Sa lood aruandeid ja õiendeid, mille jaoks arvutustabeli tabelivaade hästi ei sobi. Sel juhul tasuks kasutada vormivaadetega andmebaasi. Andmebaaside loomise tarkvara Seni on juttu olnud andmebaaside üldistest omadustest, kuid me pole puudutanud konkreetseid rakendusi, millega neid luua ja kujundada. Esimesed andmebaasid loodi 1960. aastatel koos võimsate suurarvutitega (⪚ IBM System/360). Toona ei olnud tänaseid personaalarvuteid, mistõttu ka andmebaasid nõudsid hea väljaõppega personali. Ehkki omaaegsete arvutite riistvara polnud kuigi usaldusväärne ning nad olid üüratult aeglased ja mahutasid vähe andmeid, on üks andmebaaside juba toonane omadus jäänud tänini püsima: ligipääsu tagamine andmetele üle võrgu paljudele kasutajatele korraga. 1970. aastatel töötasid teadlased välja relatsioonandmebaaside teooria (märksõnadeks on sellised mõisted nagu tabel, kirje, veerg (väli), relatsioonilisus ja nii edasi). Selle teooria alusel loodi IBM-i DB2 ja Oracle'i andmebaasid, mida arendatakse ja kasutatakse veel tänapäevalgi. 1970. aastate lõpus loodi esimesed personaalarvutid. Nende kasutajad said (aegamööda) võimaluse hakata kasutama mitmesuguseid rakendusi, sealhulgas selliseid, millega luua andmebaase. Kui rääkida firmade suurtest andmebaasidest, pole olukord väga palju muutunud: need vajavad endiselt võimsaid arvuteid või arvutikogumeid ehk klastreid. See teema aga väljub käesoleva käsiraamatu piirest. Personaalarvutites "kättesaadavate" graafilise kasutajaliidesega andmebaaside osas on valida järgmiste seast: DBase - tööriist andmebaasioperatsioonide sooritamiseks DOS-is, mis oli populaarne 1980. aastatel. DBase-vormingus faile kasutatakse nende lihtsuse tõttu teatud erijuhtudel seniajani. FoxPro - DBase'iga sarnane rakendus (1990. aastate algus). Pärast ülevõtmist Microsoft'i poolt juurutati graafiline kasutajaliides ning seda hakati kasutama ka andmebaaside loomisel personaalarvutites. Seda rakendust pakutakse veel tänapäevalgi, ehkki see tundub olevat veidi iganenud. Microsoft Access - graafilise kasutajaliidesega andmebaaside disaini võimaldav rakendus, mis tänu mitmetele lihtsustustele sobib ka algajatele. Loodi 1980. aastate lõpus, tugineb 16-bitisele arvutiarhitektuurile. Seda toodet pakutakse tänaseni laialdaselt ja ka kasutatakse ohtralt eriti väikeettevõtetes, kus tõhusus ja ühiskasutus pole esmatähtsad. FileMaker - lihtsuse mõttes MS Access'iga sarnanev rakendus, mis töötab Windowsi ja Macintoshi platvormil. Turul alates 1985. aastast. &kexi; - rakendus paljudele platvormidele (Unix/Linux, Windows, Mac OS X), mis loodi 2003. aastal. Seda arendatakse vaba tarkvara põhimõtetest lähtudes ning see kuulub üleilmse KDE töökeskkonna (Unix/Linux süsteemide graafiline töökeskkond) projekti koosseisu. &kexi; arendamise üks märkimisväärsemaid toetajaid on ettevõte OpenOffice Polska.