Big Data ohud ja võimalused: Difference between revisions

From ICO wiki
Jump to navigationJump to search
Rusild (talk | contribs)
Rusild (talk | contribs)
 
(53 intermediate revisions by the same user not shown)
Line 5: Line 5:
Infotehnoloogias on järjest enam kasutusel mõiste "suurandmed" (big data), milleks nimetatakse suurt hulka andmeid, mille tüübid on varieeruvad, mis on muutuses ning mille tunnused ja kvaliteet on mitmekesine, aga mida soovitakse analüüsida, et saada soovitud teavet (1).
Infotehnoloogias on järjest enam kasutusel mõiste "suurandmed" (big data), milleks nimetatakse suurt hulka andmeid, mille tüübid on varieeruvad, mis on muutuses ning mille tunnused ja kvaliteet on mitmekesine, aga mida soovitakse analüüsida, et saada soovitud teavet (1).


Mitmetele uuringutele põhinedes ei ole tänaseni maailmas kokku lepitud ühest definitsiooni suurandmetele (1). Hoolimata erinevatest käsitlustest on kõige levinum ühine nimetaja nende andmete juures igapäevaselt toodetav erinevate andmekategooriate üldine suurus. Igapäevaselt toodetava andmete hulka mõõdetakse kvintiljon bitides. 2003. aasta uuringu põhjal, ehk pea 15 aastat tagasi, arvati et uue info hulk mida igal aastal salvestatakse, on rohkem kui 161 miljardit gigabaiti. Üleüldse arvatakse täna maailmas olevat andmeid 2,7 zetabaiti ehk 2,7 trillioni gigabaiti eest. Täna nähakse, et kõikide maailma ettevõtete suurandmed kahekordistuvad iga 1,2 aasta järel () ning, et ebarelevantsed andmed võivad ettevõttele maksta 20%-35% tema käibest (2). Sellest tulenevat arvatakse, et USA ettevõtted kaotavad ebakvaliteetsete andmete tõttu üle 600 miljardi dollari aastas.
 
Mitmetele uuringutele põhinedes ei ole tänaseni maailmas kokku lepitud ühest definitsiooni suurandmetele (1). Hoolimata erinevatest käsitlustest on kõige levinum ühine nimetaja nende andmete juures igapäevaselt toodetav erinevate andmekategooriate üldine suurus. Igapäevaselt toodetava andmete hulka mõõdetakse kvintiljon bitides. 2003. aasta uuringu põhjal, ehk pea 15 aastat tagasi, arvati et uue info hulk mida igal aastal salvestatakse, on rohkem kui 161 miljardit gigabaiti. Üleüldse arvatakse täna maailmas olevat andmeid 2,7 zetabaiti ehk 2,7 trillioni gigabaiti eest. Täna nähakse, et kõikide maailma ettevõtete suurandmed kahekordistuvad iga 1,2 aasta järel ning, et ebarelevantsed andmed võivad ettevõttele maksta 20%-35% tema käibest (2). Sellest tulenevat arvatakse, et USA ettevõtted kaotavad ebakvaliteetsete andmete tõttu üle 600 miljardi dollari aastas.
 


Big data võib aga ei pea kasutama isikuandmeid. Paljudel juhtudel aga ei hõlma suurandmete analüüs üldse mingeid isikuandmeid. Näiteks kliima- ja ilmastikuandmete põhjal saab teha uusi analüüse ning parendada teenuseid ilma isikuandmeid kasutamata. Samas on mitmeid näiteid big data analüüsist, kus töödeldakse ka isikuandmeid. Need saadakse sellistest allikatest nagu sotsiaalmeedia, kliendikaardid või tervisealased uuringud. Kui kasutatakse ehk töödeldakse isikuandmeid, siis peavad kõik osapooled tagama neile isikuandmete kaitse seadusest (edaspidi IKS) tulenevate kohustuste järgimise (2).
Big data võib aga ei pea kasutama isikuandmeid. Paljudel juhtudel aga ei hõlma suurandmete analüüs üldse mingeid isikuandmeid. Näiteks kliima- ja ilmastikuandmete põhjal saab teha uusi analüüse ning parendada teenuseid ilma isikuandmeid kasutamata. Samas on mitmeid näiteid big data analüüsist, kus töödeldakse ka isikuandmeid. Need saadakse sellistest allikatest nagu sotsiaalmeedia, kliendikaardid või tervisealased uuringud. Kui kasutatakse ehk töödeldakse isikuandmeid, siis peavad kõik osapooled tagama neile isikuandmete kaitse seadusest (edaspidi IKS) tulenevate kohustuste järgimise (2).
[[File:runner_data_analytics_-_ilexx_thumb800.jpg]]


Suurandmeid kogutakse tavaliselt alternatiivsetest andmeallikatest nagu veeb ja automaatselt genereeritud andmed. Veebi all mõistame me inimeste tekitatud andmeid, mida me näiteks Facebooki või oma kodulehe üles laeme. Automaatselt genereeritakse näiteks liiklusloendureid, liikluskaamerad, satelliidi pildid ja mobiiltelefonide mastiandmed. Andmed jaotakse 4V omaduste alusel: andmete maht (volume), andmete tekkimise kiirus (velocity), andmestruktuuride mitmekesisus (variety) ja andmete keerukus (veracity). Viimane tähendab et objektide valik on mittejuhuslik, andmete tekkimise mehhanism ei ole lihtsasti kirjeldatav, andmetes on palju müra ja nende tekkimise ajaline järjepidevus on ebakindel.  
Suurandmeid kogutakse tavaliselt alternatiivsetest andmeallikatest nagu veeb ja automaatselt genereeritud andmed. Veebi all mõistame me inimeste tekitatud andmeid, mida me näiteks Facebooki või oma kodulehe üles laeme. Automaatselt genereeritakse näiteks liiklusloendureid, liikluskaamerad, satelliidi pildid ja mobiiltelefonide mastiandmed. Andmed jaotakse 4V omaduste alusel: andmete maht (volume), andmete tekkimise kiirus (velocity), andmestruktuuride mitmekesisus (variety) ja andmete keerukus (veracity). Viimane tähendab et objektide valik on mittejuhuslik, andmete tekkimise mehhanism ei ole lihtsasti kirjeldatav, andmetes on palju müra ja nende tekkimise ajaline järjepidevus on ebakindel.  
Big data efektiivsus seisneb selles, et enam ei pea inimest küsitlema selleks, et teada saada, kuidas ta käitub. Seda mustrit saab big data-st tulenevalt tekitada ning ühtlasi ennustada läbi selle ka kuidas tarbija võiks käituda tulevikus. Kindlasti on siin tegemist suurema efektiivsuse ja täpsusega kui tavaline intervjuu seda kunagi suudaks.  
Big data efektiivsus seisneb selles, et enam ei pea inimest küsitlema selleks, et teada saada, kuidas ta käitub. Seda mustrit saab big data-st tulenevalt tekitada ning ühtlasi ennustada läbi selle ka kuidas tarbija võiks käituda tulevikus. Kindlasti on siin tegemist suurema efektiivsuse ja täpsusega kui tavaline intervjuu seda kunagi suudaks.  


Suurimate ettevõtete hulgas kes täna  on big data kasutajad, on näiteks GE ja IBM. Nende hulgas läbi viidud uuringust selgus, et 92% juhtidest on rahul big data-st saadava infoga ja 89% vastanutest arvas, et  big data on “tähtis” või “erakordselt tähtis”. 89% vastanutest kes on big data metoodikaid implementeerinud, tõdevad, et see on üks võimalus kuidas äris revolutsiooni tekitada. 89% arvas, et kui täna big data revolutsiooniga kaasa mitte minna, tähendab see tulevikus oma sektoris turuosa kaotamist. Suurettevõtete marketingi juhid panustavad juba kuni 37% marketingi eelarvest big data infrastruktuuri loomisele ettevõttes (2).
Suurimate ettevõtete hulgas kes täna  on big data kasutajad, on näiteks GE ja IBM. Nende hulgas läbi viidud uuringust selgus, et 92% juhtidest on rahul big data-st saadava infoga ja 89% vastanutest arvas, et  big data on “tähtis” või “erakordselt tähtis”. 89% vastanutest kes on big data metoodikaid implementeerinud, tõdevad, et see on üks võimalus kuidas äris revolutsiooni tekitada. 89% arvas, et kui täna big data revolutsiooniga kaasa mitte minna, tähendab see tulevikus oma sektoris turuosa kaotamist. Suurettevõtete marketingi juhid panustavad juba kuni 37% marketingi eelarvest big data infrastruktuuri loomisele ettevõttes (2).


== Big data kasutamise võimalusi ==
== Big data kasutamise võimalusi ==
Line 21: Line 31:




'''Targad linnad'''
=== Targad linnad ===


----


Üks näide sellest, kuidas big data on kasutatav elu edendamiseks linnas, on MK:SMART initsiatiiv (8) – 2014. aastal stardi saanud 16 naelsterlingi suurune targa linna big data projekt ühes kõige kiiremini kasvamas Ühendkuningriigi linnas, Milton Keynes. Projekt põhineb targa linna hüpoteesil, et kui meile on kättesaadav suurem hulk ja parema kvaliteediga andmed vee, energia, transpordi, meditsiinilise abi nõudluse ning pakkumise kohta, siis on võimalik pakkuda efektiivsemat linna teenust. MK initsiatiivi abil tahetakse näha kui kaugele on võimalik big data abil minna ja kui vanu probleeme on võimalik uut moodi lahendada aga loodetakse ka avastada uusi probleeme, mida tekitab big data ise.  
Üks näide sellest, kuidas big data on kasutatav elu edendamiseks linnas, on MK:SMART initsiatiiv (8) – 2014. aastal stardi saanud 16 naelsterlingi suurune targa linna big data projekt ühes kõige kiiremini kasvamas Ühendkuningriigi linnas, Milton Keynes. Projekt põhineb targa linna hüpoteesil, et kui meile on kättesaadav suurem hulk ja parema kvaliteediga andmed vee, energia, transpordi, meditsiinilise abi nõudluse ning pakkumise kohta, siis on võimalik pakkuda efektiivsemat linna teenust. MK initsiatiivi abil tahetakse näha kui kaugele on võimalik big data abil minna ja kui vanu probleeme on võimalik uut moodi lahendada aga loodetakse ka avastada uusi probleeme, mida tekitab big data ise.  
Line 30: Line 39:




'''Duplikaatide detekteerimine erinevates keeltes'''
=== Duplikaatide detekteerimine erinevates keeltes ===


----


Mida rohkem on meil andmeid, seda suurema tähtsusega on see, et need andmed oleksid täpsed ja kvaliteetsed. Duplikaatandmete välja filtreerimine on esimene samm täpse andmesiku loomisel. Öeldakse et 80% kogu pingutusest kulub andmete puhastamisele, müra vähendamisele, normaliseerimisele ja standardiseerimisele (10). See on aga väga keeruline tegevus kui sama objekt (näiteks inimese nimi) on andmestikus esindatud mitmetes keeltes, on erinevates kohtades vigaselt kirjas või on erinevate dialektide tõttu erinevat moodi kirjas. Tihtipeale ütlevad inimesed oma nimesid erinevalt sõltuvalt sellest organisatsioonist, kellega nad suhtlevad - mõnikord puuduvad keskmised nimed või on nime osad lausa ära vahetatud. Isegi sama keele erinevates dialektides võivad nimed olla kirjutatud erinevalt. Näiteks araabia keeles on "Abdel Gabbar", "Abd Al Jabbar" and "Abd El Gabbar" üksteise ekvivalendid ja seda isegi araabia tähestikus.  
Mida rohkem on meil andmeid, seda suurema tähtsusega on see, et need andmed oleksid täpsed ja kvaliteetsed. Duplikaatandmete välja filtreerimine on esimene samm täpse andmesiku loomisel. Öeldakse et 80% kogu pingutusest kulub andmete puhastamisele, müra vähendamisele, normaliseerimisele ja standardiseerimisele (10). See on aga väga keeruline tegevus kui sama objekt (näiteks inimese nimi) on andmestikus esindatud mitmetes keeltes, on erinevates kohtades vigaselt kirjas või on erinevate dialektide tõttu erinevat moodi kirjas. Tihtipeale ütlevad inimesed oma nimesid erinevalt sõltuvalt sellest organisatsioonist, kellega nad suhtlevad - mõnikord puuduvad keskmised nimed või on nime osad lausa ära vahetatud. Isegi sama keele erinevates dialektides võivad nimed olla kirjutatud erinevalt. Näiteks araabia keeles on "Abdel Gabbar", "Abd Al Jabbar" and "Abd El Gabbar" üksteise ekvivalendid ja seda isegi araabia tähestikus.  
Oletame et jaapanlane otsib Facebookist oma saksa kolleegi, kelle nimi on Jürgen Vo. Poleks väga kena paluda jaapanlasel kasutada saksa klaviatuuri või paluda sakslasel kasutada inglise tähestikku. Võttes aluseks inglise keele kui globaalse keele, peaks Facebook pakkuma vaste kui jaapanlane otsib kasutajat Jürgen Voss. Küll aga oluliselt keerulisem oleks sama situatsioon lahendada vene, jaapani, hiina või araabia keeltes.
Oletame et jaapanlane otsib Facebookist oma saksa kolleegi, kelle nimi on Jürgen Vo. Poleks väga kena paluda jaapanlasel kasutada saksa klaviatuuri või paluda sakslasel kasutada inglise tähestikku. Võttes aluseks inglise keele kui globaalse keele, peaks Facebook pakkuma vaste kui jaapanlane otsib kasutajat Jürgen Voss. Küll aga oluliselt keerulisem oleks sama situatsioon lahendada vene, jaapani, hiina või araabia keeltes.


Araabia keeles kasutatakse duplikaatide tuvastamiseks näiteks erinevaid foneetilisi algoritme. Need konverteerivad iga nime koodiks, et leida ekvivalentseid nimesid (11). Väja töötatud on ka mitmeid sarnasusfunktsioone (12), mida kasutatakse nimede võrdlemisel ja mis tagastab sarnasusindeksi. Indeksi väärtus on vahemikus 0-1, kus 0 tähendab, et nimed on täiesti erinevad ja 1 et on täpselt võrdsed. Süsteem võib siis määratleda, et indeksi väärtused, mis on mingist lävendist kõrgemad on duplikaadid ja mingist lävendist madalamad on erinevad nimed. Kõik väärtused, mis vahepeale jäävad, klassifitseeritakse kui võimalikud duplikaadid ja vajavad käsitsi üle vaatamist.
Araabia keeles kasutatakse duplikaatide tuvastamiseks näiteks erinevaid foneetilisi algoritme. Need konverteerivad iga nime koodiks, et leida ekvivalentseid nimesid (11). Väja töötatud on ka mitmeid sarnasusfunktsioone (12), mida kasutatakse nimede võrdlemisel ja mis tagastab sarnasusindeksi. Indeksi väärtus on vahemikus 0-1, kus 0 tähendab, et nimed on täiesti erinevad ja 1 et on täpselt võrdsed. Süsteem võib siis määratleda, et indeksi väärtused, mis on mingist lävendist kõrgemad on duplikaadid ja mingist lävendist madalamad on erinevad nimed. Kõik väärtused, mis vahepeale jäävad, klassifitseeritakse kui võimalikud duplikaadid ja vajavad käsitsi üle vaatamist.


Niisiis, väga keeruline on otsustada, kas kaks süntaktilist väärtust on alternatiivsed nimetused samale semantilisele objektile või mitte. Täna kättesaadavad duplikaatide detekteerimise tööriistad suudavad nimede variatsioone tuvastada inglise, prantsuse, saksa, hollandi, greeka ja araabia keelest aga vajadus on selline, et oleks olemas üldine duplikaatide tuvastuse karkass, mis toetaks kõiki keeli kõikides tähestikes selliselt, et uusi keeli ja sõnastikke saaks ekstensionina kaasa anda (10). Egiptlased on teinud selle kallal tööd ja pakkunud välja CLDRD (Cross Language Duplicate Record Detection) mudeli, kuhu on kaasatud nimede puhastamine ja standardiseerimine, nimede lahku löömine ja reorganiseerimine (nt nimi John M. Stewart konverteeritakse kolmeks erinevaks nimeks: John, M., Stewart sest osades keeltes on eesnimed viimasena), keele tuvastus iga nime kohta ja foneetilistel alustel sõnastiku ehitamine igale mitte inglise tähestikku omavale sõnale ning duplikaatide detekteerimine sarnasusindeksi abil (10).


Niisiis, samale isikule kuuluvate nimede tuvastamiseks big data-st on tehtud ettepanekuid, mis võivad töötada teatud rahvuskeeltes aga see on siiski tohutu väljakutse eristada üle kogu maailma, kes on kes.
Niisiis, väga keeruline on otsustada, kas kaks süntaktilist väärtust on alternatiivsed nimetused samale semantilisele objektile või mitte. Täna kättesaadavad duplikaatide detekteerimise tööriistad suudavad nimede variatsioone tuvastada inglise, prantsuse, saksa, hollandi, greeka ja araabia keelest aga vajadus on selline, et oleks olemas üldine duplikaatide tuvastuse karkass, mis toetaks kõiki keeli kõikides tähestikes selliselt, et uusi keeli ja sõnastikke saaks ekstensionina kaasa anda (10). Egiptlased on teinud selle kallal tööd ja pakkunud välja CLDRD (Cross Language Duplicate Record Detection) mudeli, kuhu on kaasatud nimede puhastamine ja standardiseerimine, nimede lahku löömine ja reorganiseerimine (nt nimi John M. Stewart konverteeritakse kolmeks erinevaks nimeks: John, M., Stewart sest osades keeltes on eesnimed viimasena), keele tuvastus iga nime kohta ja foneetilistel alustel sõnastiku ehitamine igale mitte inglise tähestikku omavale sõnale ning duplikaatide detekteerimine sarnasusindeksi abil (10). Niisiis, samale isikule kuuluvate nimede tuvastamiseks big data-st on tehtud ettepanekuid, mis võivad töötada teatud rahvuskeeltes aga see on siiski tohutu väljakutse eristada üle kogu maailma, kes on kes.
 
 
 
=== Autonoomne uudiste tuvastus Twitterist ===
 


'''Autonoomne uudiste tuvastus Twitterist'''


----
"There may not be newsagents around at a scene of event but there will always be tweeters on ground to broadcast the event live on Twitter even before professional newsagents arrive at the scene".


...There may not be newsagents around at a scene of event but there will always be tweeters on ground to broadcast the event live on Twitter even before professional newsagents arrive at the scene...


Twitter on tuntuim ja võimsaim mikroblogimise tööriist sotsiaalmeedia valdkonnas. Tuntud poplaulja Whitney Huoston’i surmast teatati Twitteris 2012. aasta veebruaris 27 minutit enne kui seda tegi ükski pressiväljaanne. Tänapäevaks on Twitter muutunud uudiste toimetustele oluliseks ressursiks – huvitavate säutsude otsa sattudes koostatakse neist uudiseid või kaasajastatakse olemasolevaid.  
Twitter on tuntuim ja võimsaim mikroblogimise tööriist sotsiaalmeedia valdkonnas. Tuntud poplaulja Whitney Huoston’i surmast teatati Twitteris 2012. aasta veebruaris 27 minutit enne kui seda tegi ükski pressiväljaanne. Tänapäevaks on Twitter muutunud uudiste toimetustele oluliseks ressursiks – huvitavate säutsude otsa sattudes koostatakse neist uudiseid või kaasajastatakse olemasolevaid.  
Twitter genereerib iga päev tohutul hulgal andmeid. Ühe minuti jooksul postitatakse 100 000 säutsu ning kui jaapanlased tähistasid 2013. aastal uut aastat, saavutati tänaseni püsiv rekord, mil ühes sekundis postitati 6939 säutsu (10). Uudistetoimetused ja pressiväljaanded on huvitatud selle info kasutamisest uudiste koostamisel ja uuendamisel ja lahenduseks on andmekaeveks töötada välja sobivad algoritmid. Mis peamine - teha seda selliselt, et leitaks kasulikku ja konstruktiivset infot, kust midagi olulist kaduma ei läheks. See on olnud seni suur väljakutse, sest lisaks info paljususele on see ka väga varieeruv – Twitteri kasutajate postitused võivad puudutada isiklikku elu sündmusi või raporteeritakse maailmas toimuvaid sündmusi või väljendavad inimsesed isiklikku arvamust mingi uudise kohta.  
Twitter genereerib iga päev tohutul hulgal andmeid. Ühe minuti jooksul postitatakse 100 000 säutsu ning kui jaapanlased tähistasid 2013. aastal uut aastat, saavutati tänaseni püsiv rekord, mil ühes sekundis postitati 6939 säutsu (10). Uudistetoimetused ja pressiväljaanded on huvitatud selle info kasutamisest uudiste koostamisel ja uuendamisel ja lahenduseks on andmekaeveks töötada välja sobivad algoritmid. Mis peamine - teha seda selliselt, et leitaks kasulikku ja konstruktiivset infot, kust midagi olulist kaduma ei läheks. See on olnud seni suur väljakutse, sest lisaks info paljususele on see ka väga varieeruv – Twitteri kasutajate postitused võivad puudutada isiklikku elu sündmusi või raporteeritakse maailmas toimuvaid sündmusi või väljendavad inimsesed isiklikku arvamust mingi uudise kohta.  


Säutsude potensiaali uurimiseks on pakutud välja näiteks sellist algoritmi, mis tuvastas prominentsete kasutajate postitusi. Tuvastatud postitustest loodi navigeeritav teemade graafik, kuhu säutsud kasutaja poolt seatud ajaraamis kokku kogunesid (13). Teadlased on analüüsinud ka ARM (Association Rule Mining) põhise meetodi abil Twitteri postitusi. See meetod leiab seoseid sarnase teemaga postituste vahel, mis on avalikustatud erinevatel aegadel. Leitakse postitused ajast t ja t+1, mis on seotud päris elu sündmuste või uudistega ja kannavad sarnast hashtagi. Selliselt on võimalik teha järeldusi, kuidas mingi uudis on aja jooksul arenenud. Ühtlasi on võimalik arvutada ka mingite kindlate hashtagide eluiga Twitteris ja näha kuidas kasutajad muudavad hashtagi kui uudis aja jooksul täieneb (13).
Säutsude potensiaali uurimiseks on pakutud välja näiteks sellist algoritmi, mis tuvastas prominentsete kasutajate postitusi. Tuvastatud postitustest loodi navigeeritav teemade graafik, kuhu säutsud kasutaja poolt seatud ajaraamis kokku kogunesid (13). Teadlased on analüüsinud ka ARM (Association Rule Mining) põhise meetodi abil Twitteri postitusi. See meetod leiab seoseid sarnase teemaga postituste vahel, mis on avalikustatud erinevatel aegadel. Leitakse postitused ajast t ja t+1, mis on seotud päris elu sündmuste või uudistega ja kannavad sarnast hashtagi. Selliselt on võimalik teha järeldusi, kuidas mingi uudis on aja jooksul arenenud. Ühtlasi on võimalik arvutada ka mingite kindlate hashtagide eluiga Twitteris ja näha kuidas kasutajad muudavad hashtagi kui uudis aja jooksul täieneb (13).


'''Haiguslehele jäämise ennustamine'''


----
 
=== Haiguslehele jäämise ennustamine ===
 


Üks väga suur valdkond kus big data võimsust ära kasutada on meditsiin. Haiglate andmebaasidest võib õnnestuda hankida infot, mis hõlbustaks krooniliste haiguste ja nakkushaiguste jälgimist inimeste seas või näiteks saaks ennustada nakkushaiguste puhkemise tõenäosust populatsioonis.  
Üks väga suur valdkond kus big data võimsust ära kasutada on meditsiin. Haiglate andmebaasidest võib õnnestuda hankida infot, mis hõlbustaks krooniliste haiguste ja nakkushaiguste jälgimist inimeste seas või näiteks saaks ennustada nakkushaiguste puhkemise tõenäosust populatsioonis.  


Rahva tevise seisundi jälgmine tähendaks, et vaadataks haiguste kulgu, erinevate meditsiiniliste seisundite koosesinemist (komorbiidsust), ravi tulemusi või näiteks seda, kuidas mingid poliitilised otsused on üldiselt mõjutanud rahva tervist (näiteks kas rahva tervis paraneb kui riigis kehtestada suhkrumaks). Andmete kvaliteet võib muidugi olla äärmiselt varieeruv, tihti puudub andmebaasides näiteks info selle kohta, et kas patsient, kellele määrati kodune ravi ja kirjutati välja ravim, sai tegelikult terveks või jätkas arstide vahet käimist teistes haiglates.  
Rahva tevise seisundi jälgmine tähendaks, et vaadataks haiguste kulgu, erinevate meditsiiniliste seisundite koosesinemist (komorbiidsust), ravi tulemusi või näiteks seda, kuidas mingid poliitilised otsused on üldiselt mõjutanud rahva tervist (näiteks kas rahva tervis paraneb kui riigis kehtestada suhkrumaks). Andmete kvaliteet võib muidugi olla äärmiselt varieeruv, tihti puudub andmebaasides näiteks info selle kohta, et kas patsient, kellele määrati kodune ravi ja kirjutati välja ravim, sai tegelikult terveks või jätkas arstide vahet käimist teistes haiglates.  


Haiguslehe võtmine on üks olulisi põhjuseid, miks järsult väheneb töötaja produktiivsus ja suurenevad tema kulutused tervisele. Kuna haiguslehe võtmist seostatakse ka surmajuthtumite esinemisega, on pakutud, et haigusleht võiks olla globaalne rahva tervise mõõdik (14). Teadlased on teinud katseid kasutades 1,8 mln hispaanlase terviseandmeid (14) uurimaks, kas Charlsoni komorbiidsuse indeks, mida kasutatakse komorbiidsuse prognoosimiseks, on kasutatav selleks, et ennustada töötajate korduvat põhjuseta puudumist töölt, haiglasse sattumist või haiglas suremist. Leiti, et see indeks oli kasutatav, et ennustada kui pikaks perioodiks ja mitu korda haiguslehte võetakse, samuti haiglasse sattumise kordade arvu ja haiglaravi pikkust ning haiglas suremist. Ennustus toimis üle selliste muutujate nagu vanus, sugu, elukoht ja haigla suurus (haigla suurus siis seetõttu, kuna osadesse haiglatesse satub rohkem ja keerulisemas tervislikus seisundis patsiente, kellele tehakse keerulisemaid protseduure).
Haiguslehe võtmine on üks olulisi põhjuseid, miks järsult väheneb töötaja produktiivsus ja suurenevad tema kulutused tervisele. Kuna haiguslehe võtmist seostatakse ka surmajuthtumite esinemisega, on pakutud, et haigusleht võiks olla globaalne rahva tervise mõõdik (14). Teadlased on teinud katseid kasutades 1,8 mln hispaanlase terviseandmeid (14) uurimaks, kas Charlsoni komorbiidsuse indeks, mida kasutatakse komorbiidsuse prognoosimiseks, on kasutatav selleks, et ennustada töötajate korduvat põhjuseta puudumist töölt, haiglasse sattumist või haiglas suremist. Leiti, et see indeks oli kasutatav, et ennustada kui pikaks perioodiks ja mitu korda haiguslehte võetakse, samuti haiglasse sattumise kordade arvu ja haiglaravi pikkust ning haiglas suremist. Ennustus toimis üle selliste muutujate nagu vanus, sugu, elukoht ja haigla suurus (haigla suurus siis seetõttu, kuna osadesse haiglatesse satub rohkem ja keerulisemas tervislikus seisundis patsiente, kellele tehakse keerulisemaid protseduure).


Tulevikus loodetakse parandada pilvega ühendatud andmbaaside abil mudelite täpsust, et teha paremaid üldistusi rahva tervise trendide kohta. Selliste tehnoloogiliste saavutuste nagu pilve arvutuse Amazon Cloud Drive ja Apple iCloud kasutusele võtmine loob hea kasvulava virtuaalse infrastruktuuri loomiseks selle eesmärgi poole liikumisel ja aidata kaasa biomeditsiini uuringutes ning tervishoius.
Tulevikus loodetakse parandada pilvega ühendatud andmbaaside abil mudelite täpsust, et teha paremaid üldistusi rahva tervise trendide kohta. Selliste tehnoloogiliste saavutuste nagu pilve arvutuse Amazon Cloud Drive ja Apple iCloud kasutusele võtmine loob hea kasvulava virtuaalse infrastruktuuri loomiseks selle eesmärgi poole liikumisel ja aidata kaasa biomeditsiini uuringutes ning tervishoius.


== 3. Big data tootlikkus näidete põhjal ==
 
 
==Big data tootlikkus näidete põhjal ==


Mida enam ajas edasi big data areneb seda rohkem vaadatakse ja hinnatakse ka selle tulususe poolt. Kindlasti nõuab big data suuri ressursse, et seda hallata ja infot töödelda. Need ressursid on vaja aga tagasi teenida ning selles võtmes vaadatakse big data investeeringute rentaablust (ROI - Return Of Investments).
Mida enam ajas edasi big data areneb seda rohkem vaadatakse ja hinnatakse ka selle tulususe poolt. Kindlasti nõuab big data suuri ressursse, et seda hallata ja infot töödelda. Need ressursid on vaja aga tagasi teenida ning selles võtmes vaadatakse big data investeeringute rentaablust (ROI - Return Of Investments).


Lennukompaniid Southwest ja Delta
 
 
=== Lennukompaniid Southwest ja Delta ===
 
Ettevõtetel mis otseselt põhinevad kliendisuhetel on kvaliteetse teenuse pakkumine prioriteet number üks. Olgu siis tegu sotsiaalmeedia, kodulehe või mõne muu suhtlusviisiga. Southwest kasutab oma töös kõne analüüsi kliendi ja töötaja vahel, et kliendisuhtlus uuele tasemele viia. Lisaks kasutatakse Big Datat ka online käitumise analüüsimiseks ja personaliseeritud pakkumiste tegemiseks mille tulemuseks on olnud iga aastane kliendi lojaalsuse kasv.
Ettevõtetel mis otseselt põhinevad kliendisuhetel on kvaliteetse teenuse pakkumine prioriteet number üks. Olgu siis tegu sotsiaalmeedia, kodulehe või mõne muu suhtlusviisiga. Southwest kasutab oma töös kõne analüüsi kliendi ja töötaja vahel, et kliendisuhtlus uuele tasemele viia. Lisaks kasutatakse Big Datat ka online käitumise analüüsimiseks ja personaliseeritud pakkumiste tegemiseks mille tulemuseks on olnud iga aastane kliendi lojaalsuse kasv.
Delta on asunud kasutama big data-t aga hoopis teisel kliendile vajalikul moel - nimelt kliendi pagasi kaotamisel. Igal aastal registreerib Delta ettevõte 130 miljonit pagasit ning Delta oli esimene, kes läbi mobiilirakenduse hakkas pagasiinfot klientidele jagama nii, et kliendil on võimalik igal ajahetkel oma pagasi asukohta teada. Tänaseks on Delta pakutavat rakendust alla laetud üle 11 miljoni korra ning suurendatud kliendi rahulolu läbi selle, et inimene ei pean enam oma pagasi pärast muretsema, näidates Deltat kui väga kliendikeskset ettevõtet.
Delta on asunud kasutama big data-t aga hoopis teisel kliendile vajalikul moel - nimelt kliendi pagasi kaotamisel. Igal aastal registreerib Delta ettevõte 130 miljonit pagasit ning Delta oli esimene, kes läbi mobiilirakenduse hakkas pagasiinfot klientidele jagama nii, et kliendil on võimalik igal ajahetkel oma pagasi asukohta teada. Tänaseks on Delta pakutavat rakendust alla laetud üle 11 miljoni korra ning suurendatud kliendi rahulolu läbi selle, et inimene ei pean enam oma pagasi pärast muretsema, näidates Deltat kui väga kliendikeskset ettevõtet.


Financial Times
 
 
=== Financial Times ===
 
Financial Times kasutab big data-t, et klienti paremini mõista ning teeninda, pakkuda kliendile personaliseeritud reklaame ja disainida uusi tooteid lähtuvalt kogutud informatsioonist. Financial Times CEO hinnangul muutis big data nende ettevõtet täielikult. Ettevõte kasutab paljusid andmepunkte, et analüüsida kliendi sisu eelistusi, tõsta relvantsust ja personaalsust kuvatavas sisus. Seda kõike selleks, et hoida külastajaid ja liiklust lehel.
Financial Times kasutab big data-t, et klienti paremini mõista ning teeninda, pakkuda kliendile personaliseeritud reklaame ja disainida uusi tooteid lähtuvalt kogutud informatsioonist. Financial Times CEO hinnangul muutis big data nende ettevõtet täielikult. Ettevõte kasutab paljusid andmepunkte, et analüüsida kliendi sisu eelistusi, tõsta relvantsust ja personaalsust kuvatavas sisus. Seda kõike selleks, et hoida külastajaid ja liiklust lehel.


UPS Logistika
 
 
=== UPS Logistika ===
 
UPS toimetab igal aastal kohale üle 4 miljardi paki mida veavad kohale pea 100 000 autot. Selliste mahtude juures on big data analüüs äärmiselt vajalik ning UPS kasutab seda infot väga mitmel erineval moel, näiteks laevastiku optimeerimisel, veokitele mõeldud algoritmid mis aitavad teekonda lühendada ning näitavad ühtlasi ka kui palju üks või teine auto seisab, ennustades ette auto hooldusi ja remonte. Big Data implementeerimise hetkest on ettevõte säästnud 147 miljonit liitrit kütust ja suutnud lühendada marsruute 364 miljoni miili jagu. Järgmise sammuna näeb UPS ette big data  operatiivse efektiivsuse saavutamise ka lennukitel.
UPS toimetab igal aastal kohale üle 4 miljardi paki mida veavad kohale pea 100 000 autot. Selliste mahtude juures on big data analüüs äärmiselt vajalik ning UPS kasutab seda infot väga mitmel erineval moel, näiteks laevastiku optimeerimisel, veokitele mõeldud algoritmid mis aitavad teekonda lühendada ning näitavad ühtlasi ka kui palju üks või teine auto seisab, ennustades ette auto hooldusi ja remonte. Big Data implementeerimise hetkest on ettevõte säästnud 147 miljonit liitrit kütust ja suutnud lühendada marsruute 364 miljoni miili jagu. Järgmise sammuna näeb UPS ette big data  operatiivse efektiivsuse saavutamise ka lennukitel.


Tesla
 
=== Tesla ===
 
Tesla on tänapäevane musternäidis igivanas autotööstuses. Teslad on varustatud kõikvõimalike anduritega, mis saadavad infot tagasi peaarvutisse, kus seda analüüsitakse ning jagatakse teiste Tesla kasutajatega. Kui juhtub, et mõni liiklusmärk on kahjustada saanud või lihtsalt must, siis võetakse selle liiklusmärgi info Tesla põhiandmebaasist ning kuvatakse instantselt juhile. Infot, mida kliendi käest saadakse, kasutatakse et parandada ettevõtte uurimisprojekte, auto jõudlust, hooldust ning mis kõige peamine - tõstetakse kliendi rahulolu. Näiteks, teavitatakse Tesla ettevõtet kohe kui auto ei funktsioneeri nii nagu peaks ning soovitatakse kliendile kuhu ta hooldusesse peaks pöörduma. Need omadused on aidanud Teslal luua tõsise turuosa turul, kus laadimisjaamade võrgustika on alles välja arendamisel.
Tesla on tänapäevane musternäidis igivanas autotööstuses. Teslad on varustatud kõikvõimalike anduritega, mis saadavad infot tagasi peaarvutisse, kus seda analüüsitakse ning jagatakse teiste Tesla kasutajatega. Kui juhtub, et mõni liiklusmärk on kahjustada saanud või lihtsalt must, siis võetakse selle liiklusmärgi info Tesla põhiandmebaasist ning kuvatakse instantselt juhile. Infot, mida kliendi käest saadakse, kasutatakse et parandada ettevõtte uurimisprojekte, auto jõudlust, hooldust ning mis kõige peamine - tõstetakse kliendi rahulolu. Näiteks, teavitatakse Tesla ettevõtet kohe kui auto ei funktsioneeri nii nagu peaks ning soovitatakse kliendile kuhu ta hooldusesse peaks pöörduma. Need omadused on aidanud Teslal luua tõsise turuosa turul, kus laadimisjaamade võrgustika on alles välja arendamisel.


McDonald’s
 
 
=== McDonald’s ===
 
McDonald’s on massiivne rahvusvaheline toitlusasutus, milles on üle 34 000 restorani, mis teenindavad iga päev 69 miljonit inimest 118 riigis. Ettevõttes töötab igapäevaselt 750 000 inimest, kes jagavad välja 75 burgerit igas sekundis. Seega andmete maht, mis McDonald’sil tekib, on kolossaalne (15).  Jälgitakse väga suurt hulka muutujaid, eesmärgiga parandada kliendi kogemust. Jälgitakse restorani liiklust, suhtlust kliendi ja teenindaja vahel, drive-in’i läbilaskevõimet ja sessoonsust, klientide ostumustreid, kassa müügipunkti statistikat ja lisaks veel videokaameratest saadavat infot. Infot, mida eelnevatest ettappidest kogutakse, kasutatakse nii uute restoranide disainimisel, menüü koostamisel, töötajate treeningprogrammi koostamisel kui tarneahela juhtimisel. Kuigi igal maal näevad McDonald’si restoranid välja üsna ühesugused, on iga restoran natuke erinev ning seda just lokaalse turu big data-le põhinedes. McDonald’s kasutab big data-t kliendikogemuse parandamiseks ning tulemuslikkuse suurendamiseks.
McDonald’s on massiivne rahvusvaheline toitlusasutus, milles on üle 34 000 restorani, mis teenindavad iga päev 69 miljonit inimest 118 riigis. Ettevõttes töötab igapäevaselt 750 000 inimest, kes jagavad välja 75 burgerit igas sekundis. Seega andmete maht, mis McDonald’sil tekib, on kolossaalne (15).  Jälgitakse väga suurt hulka muutujaid, eesmärgiga parandada kliendi kogemust. Jälgitakse restorani liiklust, suhtlust kliendi ja teenindaja vahel, drive-in’i läbilaskevõimet ja sessoonsust, klientide ostumustreid, kassa müügipunkti statistikat ja lisaks veel videokaameratest saadavat infot. Infot, mida eelnevatest ettappidest kogutakse, kasutatakse nii uute restoranide disainimisel, menüü koostamisel, töötajate treeningprogrammi koostamisel kui tarneahela juhtimisel. Kuigi igal maal näevad McDonald’si restoranid välja üsna ühesugused, on iga restoran natuke erinev ning seda just lokaalse turu big data-le põhinedes. McDonald’s kasutab big data-t kliendikogemuse parandamiseks ning tulemuslikkuse suurendamiseks.


4 Big data ohud
 
 
== Big data ohud ==
 
Big data riskid jagunevad piltlikult kaheks: risk äri jaoks ja inimese (kliendi) jaoks. Kuna big data on alles nii uus tehnoloogia, ei ole sellel kujunenud optimaalsed töömetoodikad ehk best practices. Ei ole veel selle valdkonna palju kogenud spetsialiste, kes teaksid 100% kindlusega, mida nad peavad saavutama äri jaoks ja kuidas sinna jõuda.
Big data riskid jagunevad piltlikult kaheks: risk äri jaoks ja inimese (kliendi) jaoks. Kuna big data on alles nii uus tehnoloogia, ei ole sellel kujunenud optimaalsed töömetoodikad ehk best practices. Ei ole veel selle valdkonna palju kogenud spetsialiste, kes teaksid 100% kindlusega, mida nad peavad saavutama äri jaoks ja kuidas sinna jõuda.


Riskid ettevõtete jaoks
 
=== Riskid ettevõtete jaoks ===
 


Sellistest piirangutest tuleb big data esimene risk äri jaoks: aja ja raha üleliigne kulutamine. Kui big data arendamise algfaasis eksida pisidetailidega (näiteks äri eesmärkides jääb midagi puudu), siis võib see viga tulevikus tekitada palju kahjumit ja valeinfot, millest äri hakkab lähtuma. Sama käib iga uuringu kohta. Kui me suudame koguda meeletut hulka andmeid, aga ei suuda seda töödelda ja saada andmetest midagi kasulikku, siis kaob big data mõte üldse ära (16).
Sellistest piirangutest tuleb big data esimene risk äri jaoks: aja ja raha üleliigne kulutamine. Kui big data arendamise algfaasis eksida pisidetailidega (näiteks äri eesmärkides jääb midagi puudu), siis võib see viga tulevikus tekitada palju kahjumit ja valeinfot, millest äri hakkab lähtuma. Sama käib iga uuringu kohta. Kui me suudame koguda meeletut hulka andmeid, aga ei suuda seda töödelda ja saada andmetest midagi kasulikku, siis kaob big data mõte üldse ära (16).


Teine risk, mis tuleb eelnevalt mainitud piirangutest, on üleliigne andmete kogumine. Kuna ei ole kvalifitseeritud spetsialiste, kes oskaksid vajalikke programme kasutada, siis eesmärkide saavutamiseks kogutakse massiliselt infot töötlemiseks. Osa sellest infost on täiesti üleliigne püstitatud eesmärgi saavutamiseks, mis omakorda teeb kogutud andmete analüüsimise keerulisemaks, kui reaalselt vaja, kuna on palju seosetut informatsiooni. Selle probleemi lahenduseks peaks tegema vastavaid koolitusi või integreerima big data mingil kujul ülikoolide õppekavasse. Näiteks hetkel ei ole TTÜ-s big data kohta ühtegi ainet, isegi mitte sissejuhatavat kursust, mis tutvustaks termineid vms (16).
Teine risk, mis tuleb eelnevalt mainitud piirangutest, on üleliigne andmete kogumine. Kuna ei ole kvalifitseeritud spetsialiste, kes oskaksid vajalikke programme kasutada, siis eesmärkide saavutamiseks kogutakse massiliselt infot töötlemiseks. Osa sellest infost on täiesti üleliigne püstitatud eesmärgi saavutamiseks, mis omakorda teeb kogutud andmete analüüsimise keerulisemaks, kui reaalselt vaja, kuna on palju seosetut informatsiooni. Selle probleemi lahenduseks peaks tegema vastavaid koolitusi või integreerima big data mingil kujul ülikoolide õppekavasse. Näiteks hetkel ei ole TTÜ-s big data kohta ühtegi ainet, isegi mitte sissejuhatavat kursust, mis tutvustaks termineid vms (16).


Info üledoosist tuleneb ka kolmas risk, mis on vale või ebavajaliku info käsitlemine vajaliku infona, mis on muutuva osakaaluga risk. Mida rohkem infot (kaasaarvatud üleliigset), seda suurem risk. Sellised vead võivad viia analüüsi tulemused tõest kaugemale ja suunata äri statistika abil vales suunas. Samuti peab kuidagi kindlustama info tõesust ja täpsust. Näiteks võib tuua Starships Technologies pakiroboti, mida testitakse TTÜ kampuse peal. See robot ei ole suutnud aastaid iseseisvalt üle tee sõita (ja ilma õnnetusteta ei suuda ikka veel), kuna vaadates vasakule ja paremale näeb ta lehe- või lumehunnikuid ning peab neid ohuks ja jääb tee äärde ootama. Tegemist on olukorraga, kus masin saab infot, aga ei saa aru, et see on üleliigne. Tegemist ei ole küll big data-ga, kuid illustreerib hästi info konteksti puudumist. Võib tekkida ka vastupidine olukord - masin saab andmeid, kuid ei saa aru, et need on antud olukorras vajalikud. Selle roboti näitel tähendaks see seda, et auto läheneb, kuid robot hakkab ikka üle tee sõitma (17). Big data puhul on riskid suuremad kui 1 katkine robot või auto kriimustatud esiots. Kuigi tähelepanematute autojuhtide eest ei ole kaitset kellelgi, võib tegu olla ka ettevõtte suunamisega vales suunas halva andmetöötluse algoritmi tõttu (18).
Info üledoosist tuleneb ka kolmas risk, mis on vale või ebavajaliku info käsitlemine vajaliku infona, mis on muutuva osakaaluga risk. Mida rohkem infot (kaasaarvatud üleliigset), seda suurem risk. Sellised vead võivad viia analüüsi tulemused tõest kaugemale ja suunata äri statistika abil vales suunas. Samuti peab kuidagi kindlustama info tõesust ja täpsust. Näiteks võib tuua Starships Technologies pakiroboti, mida testitakse TTÜ kampuse peal. See robot ei ole suutnud aastaid iseseisvalt üle tee sõita (ja ilma õnnetusteta ei suuda ikka veel), kuna vaadates vasakule ja paremale näeb ta lehe- või lumehunnikuid ning peab neid ohuks ja jääb tee äärde ootama. Tegemist on olukorraga, kus masin saab infot, aga ei saa aru, et see on üleliigne. Tegemist ei ole küll big data-ga, kuid illustreerib hästi info konteksti puudumist. Võib tekkida ka vastupidine olukord - masin saab andmeid, kuid ei saa aru, et need on antud olukorras vajalikud. Selle roboti näitel tähendaks see seda, et auto läheneb, kuid robot hakkab ikka üle tee sõitma (17). Big data puhul on riskid suuremad kui 1 katkine robot või auto kriimustatud esiots. Kuigi tähelepanematute autojuhtide eest ei ole kaitset kellelgi, võib tegu olla ka ettevõtte suunamisega vales suunas halva andmetöötluse algoritmi tõttu (18).


Riskid tarbija jaoks
 
=== Riskid tarbija jaoks ===
 


Koos big data arenguga tekib palju olulisi küsimusi, millel ei ole veel ühest vastust. Näiteks, kui ettevõte korjab Teie kohta infot, siis kellele see kuulub? Kas ettevõttele või konkreetsele isikule, keda info puudutab? Mis saab siis kui Teie kohta koguti infot, mida te ei tahaks jagada, näiteks midagi privaatset? Suureks probleemiks võib osutuda ka info väärkasutamine ja selle turvalisus. Suurfirmad, kes tormavad big data kasutamise suunas, tihti ei mõtle sellele, kuidas säilitada info turvalisust ja kuidas kaitsta seda küberkurjategijate eest, mis on suur risk nii ettevõttele kui ka inimestele, kelle kohta on info mugavalt koondatud ühte baasi. Mõte, et kuskil on olemas väga suur hulk infot, mida hoitakse mugavalt digitaalsel kujul ja mida on hea lihtne varastada ja kuritarvitada, kuna ettevõtted ei rakendanud turvameetmeid piisavalt, on üsna õudne (19).
Koos big data arenguga tekib palju olulisi küsimusi, millel ei ole veel ühest vastust. Näiteks, kui ettevõte korjab Teie kohta infot, siis kellele see kuulub? Kas ettevõttele või konkreetsele isikule, keda info puudutab? Mis saab siis kui Teie kohta koguti infot, mida te ei tahaks jagada, näiteks midagi privaatset? Suureks probleemiks võib osutuda ka info väärkasutamine ja selle turvalisus. Suurfirmad, kes tormavad big data kasutamise suunas, tihti ei mõtle sellele, kuidas säilitada info turvalisust ja kuidas kaitsta seda küberkurjategijate eest, mis on suur risk nii ettevõttele kui ka inimestele, kelle kohta on info mugavalt koondatud ühte baasi. Mõte, et kuskil on olemas väga suur hulk infot, mida hoitakse mugavalt digitaalsel kujul ja mida on hea lihtne varastada ja kuritarvitada, kuna ettevõtted ei rakendanud turvameetmeid piisavalt, on üsna õudne (19).
Big data on imeline vahend info hankimiseks ja seoste loomiseks, kuid mingil hetkel võib ta hakata ametikohti kaotama. Sama moodi nagu tehaste automatiseerimine 20. sajandil võttis töid ära lihttöölistelt, kuna nad lihtsalt asendati masinatega, võib ka big data oma vahendite ja info töötlusega ametikohti kaotada, või vähemalt neid oluliselt muuta. Näiteks onkoloogi töö on tuvastada, kas inimesel on pahaloomuline kasvaja või mitte. Selleks, et selle tööga hakkama saada pidi ta minema kooli ja õppima, mis on aega ja pingutusi nõudev protsess. Sisuliselt, et vähi analüüsini jõuda, peab ta õppima 12 +10 aastat ülikoolis. Ümmarguselt võime öelda, et läheb umbes 20 aastat, et inimene suudaks vähki tuvastada. Arvutil läheb see sujuvamalt. Arendajal tuleb luua õppimise algoritm ja siduda see big data-ga. Tulemuseks on see, et arvuti töötleb inimesega võrreldes üleloomuliku kiirusega sisestatud andmed ja üle öö hakkab suhteliselt suure täpsusega ütlema, kellel on vähk ja kellel ei ole. See võtab küll aega, kuid tunduvalt vähem kui 20 aastat. Siit tekib küsimus, mida hakkab tegema see arst, kelle töö seni olemasoleval kujul ei ole enam vajalik (20)?  
 
 
Big data on imeline vahend info hankimiseks ja seoste loomiseks, kuid mingil hetkel võib ta hakata ametikohti kaotama. Sama moodi nagu tehaste automatiseerimine 20. sajandil võttis töid ära lihttöölistelt, kuna nad lihtsalt asendati masinatega, võib ka big data oma vahendite ja info töötlusega ametikohti kaotada, või vähemalt neid oluliselt muuta. Näiteks onkoloogi töö on tuvastada, kas inimesel on pahaloomuline kasvaja või mitte. Selleks, et selle tööga hakkama saada pidi ta minema kooli ja õppima, mis on aega ja pingutusi nõudev protsess. Sisuliselt, et vähi analüüsini jõuda, peab ta õppima 12 +10 aastat ülikoolis. Ümmarguselt võime öelda, et läheb umbes 20 aastat, et inimene suudaks vähki tuvastada. Arvutil läheb see sujuvamalt. Arendajal tuleb luua õppimise algoritm ja siduda see big data-ga. Tulemuseks on see, et arvuti töötleb inimesega võrreldes üleloomuliku kiirusega sisestatud andmed ja üle öö hakkab suhteliselt suure täpsusega ütlema, kellel on vähk ja kellel ei ole. See võtab küll aega, kuid tunduvalt vähem kui 20 aastat. Siit tekib küsimus, mida hakkab tegema see arst, kelle töö seni olemasoleval kujul ei ole enam vajalik (20)?
 


Veel üheks ametikoha kaotamise näiteks võib tuua taksojuhi. Hetkel on taksodes roolide taga ikka inimesed, kuid isesõitvad autod ei ole enam kauge tulevik. Google arendab iseseisvat autot juba pikemat aega ja seal ei ole koodis kirjutatud samm sammuline juhend iga võimaliku olukorra kohta või iga uue sõidu reegli jaoks. Tegemist on iseõppiva süsteemiga, millele antakse suurt hulka infot töötlemiseks. Kuna oleks ohtlik testida isesõitvaid autosid reaalsete teede peal, siis tehakse seda virtuaalselt GTA V abil. Tulemuseks on see, et väga detailselt läbimõeldud virtuaalne maailm sadade erinevate autodega ja tuhandete ettearvamatute jalakäiatega annab robotile suurt hulka infot töötlemiseks. Boonuseks on see, et ühte ja sama stsenaariumit saab läbi mängida mitu korda, et leida optimaalne lahendus probleemile. Kui kunagi legaliseeritakse isesõitvad autod, siis on arvatavasti taksojuhid mõne aja pärast kadunud (21).
Veel üheks ametikoha kaotamise näiteks võib tuua taksojuhi. Hetkel on taksodes roolide taga ikka inimesed, kuid isesõitvad autod ei ole enam kauge tulevik. Google arendab iseseisvat autot juba pikemat aega ja seal ei ole koodis kirjutatud samm sammuline juhend iga võimaliku olukorra kohta või iga uue sõidu reegli jaoks. Tegemist on iseõppiva süsteemiga, millele antakse suurt hulka infot töötlemiseks. Kuna oleks ohtlik testida isesõitvaid autosid reaalsete teede peal, siis tehakse seda virtuaalselt GTA V abil. Tulemuseks on see, et väga detailselt läbimõeldud virtuaalne maailm sadade erinevate autodega ja tuhandete ettearvamatute jalakäiatega annab robotile suurt hulka infot töötlemiseks. Boonuseks on see, et ühte ja sama stsenaariumit saab läbi mängida mitu korda, et leida optimaalne lahendus probleemile. Kui kunagi legaliseeritakse isesõitvad autod, siis on arvatavasti taksojuhid mõne aja pärast kadunud (21).


Samuti on riigid huvitatud sellistest info kogusest, kuna sealt võib uurimise käigus leida midagi riigile vajalikku. Me oleme kuulnud NSA luuramisest ja info hankimisest üle maailma, kuid nad ei ole kindlasti ainukesed. Hiina arendab oma turul tegutsevate ettevõtete hindamise süsteemi, mis uurib inimese käitumist individuaalsel tasemel kui ka tema sõprade käitumist sotsiaalmeedias, et anda inimesele hinnang. See hindamine kasutab big data vahendeid suure hulga info kogumiseks ja analüüsimiseks, et saavutada võimalikult täpne hinnang inimesele või ettevõttele. Siit tuleneb veel üks vastamata kuid oluline küsimus - kus lõppeb riigi julgeoleku jaoks tõesti vajalik info hankimine ja töötlemine ja kus algab privaatsuse häirimine? Hiina turule on kindlasti hea teada, kes seal tegeleb ja mida ta teha võib, kuid ettevõtjate sõbrad, keda sotsiaalmeedias jälgitakse info kogumise eesmärgil, ei ole kindlasti nõus selle info kasutamisega (19).
Samuti on riigid huvitatud sellistest info kogusest, kuna sealt võib uurimise käigus leida midagi riigile vajalikku. Me oleme kuulnud NSA luuramisest ja info hankimisest üle maailma, kuid nad ei ole kindlasti ainukesed. Hiina arendab oma turul tegutsevate ettevõtete hindamise süsteemi, mis uurib inimese käitumist individuaalsel tasemel kui ka tema sõprade käitumist sotsiaalmeedias, et anda inimesele hinnang. See hindamine kasutab big data vahendeid suure hulga info kogumiseks ja analüüsimiseks, et saavutada võimalikult täpne hinnang inimesele või ettevõttele. Siit tuleneb veel üks vastamata kuid oluline küsimus - kus lõppeb riigi julgeoleku jaoks tõesti vajalik info hankimine ja töötlemine ja kus algab privaatsuse häirimine? Hiina turule on kindlasti hea teada, kes seal tegeleb ja mida ta teha võib, kuid ettevõtjate sõbrad, keda sotsiaalmeedias jälgitakse info kogumise eesmärgil, ei ole kindlasti nõus selle info kasutamisega (19).


== Viited ==




1. Vikipeedia, “Andmed” https://et.wikipedia.org/wiki/Andmed


5 Viited
1. Vikipeedia, “Andmed” https://et.wikipedia.org/wiki/Andmed
2. Bakar Munir, A., Yasin, S., Muhammad-Sukki, F. 2015. Big Data: Big Challenges to Privacy and Data Protection, World Academy of Science, Engineering and Technology International Journal of Social, Education, Economics and Management Engineering Vol:9, No:1, p.355.
2. Bakar Munir, A., Yasin, S., Muhammad-Sukki, F. 2015. Big Data: Big Challenges to Privacy and Data Protection, World Academy of Science, Engineering and Technology International Journal of Social, Education, Economics and Management Engineering Vol:9, No:1, p.355.
3. https://research.wpcarey.asu.edu
3. https://research.wpcarey.asu.edu
4. http://www.fathomdelivers.com/blog/analytics/big-data-facts-and-statistics-that-will-shock-you/
4. http://www.fathomdelivers.com/blog/analytics/big-data-facts-and-statistics-that-will-shock-you/
5. http://www.aki.ee/sites/www.aki.ee/files/elfinder/article_files/suurandmed_ja_privaatsus.pdf
5. http://www.aki.ee/sites/www.aki.ee/files/elfinder/article_files/suurandmed_ja_privaatsus.pdf
6. https://content.pivotal.io/blog/20-examples-of-roi-and-results-with-big-data
6. https://content.pivotal.io/blog/20-examples-of-roi-and-results-with-big-data
7. Vikipeedia, “Square Kilometre Array” https://en.wikipedia.org/wiki/Square_Kilometre_Array
7. Vikipeedia, “Square Kilometre Array” https://en.wikipedia.org/wiki/Square_Kilometre_Array
8. Targa linna projekt MK:SMART http://www.mksmart.org/  
 
9. Farrant, N. Big Data. Opportunities and Challenges. 2015. Faber.
8. Targa linna projekt MK:SMART http://www.mksmart.org/
 
9. Farrant, N. Big Data. Opportunities and Challenges. 2015. Faber
 
10. Hassanien, A.-E., Taher Azar, A., Snasel, V. Kacprzyk, J., Abawajy, J.H. Big Data in Complex Systems. 2015. Springer.
10. Hassanien, A.-E., Taher Azar, A., Snasel, V. Kacprzyk, J., Abawajy, J.H. Big Data in Complex Systems. 2015. Springer.
11. Aqeel, S., Beitzel, S., Jensen, E., Grossman, D., Frieder, O. 2006. On the Development of Name Search Techniques for Arabic. Journal of the American Society of Information Science and Technology 57(6)  
 
11. Aqeel, S., Beitzel, S., Jensen, E., Grossman, D., Frieder, O. 2006. On the Development of Name Search Techniques for Arabic. Journal of the American Society of Information Science and Technology 57(6)
 
12. Christen, P. 2006. A Comparison of Personal Name Matching: Techniques and Practical Issues. In: Sixth IEEE International Conferenece on Data Mingin Workshops, ICDM Workshops, pp. 290-294.
12. Christen, P. 2006. A Comparison of Personal Name Matching: Techniques and Practical Issues. In: Sixth IEEE International Conferenece on Data Mingin Workshops, ICDM Workshops, pp. 290-294.
13. Cataldi, M., Di Caro, L., Schifanella, C. 2010. Emerging topic detection on twitter based on temporal and social terms evaluation. In: Proceedings of the Tenth International Workshop on Multimedia Data Mining, p. 4.  
 
13. Cataldi, M., Di Caro, L., Schifanella, C. 2010. Emerging topic detection on twitter based on temporal and social terms evaluation. In: Proceedings of the Tenth International Workshop on Multimedia Data Mining, p. 4.
 
14. Kivimaki, M., Head, J., Ferrie, J.E., Shipley, M.J., Vahtera, J., Marmot, M.G. 2003. Sick- ness absence as a global measure of health: evidence from mortality in the Whitehall II prospective cohort study. BMJ 327(7411), 364.
14. Kivimaki, M., Head, J., Ferrie, J.E., Shipley, M.J., Vahtera, J., Marmot, M.G. 2003. Sick- ness absence as a global measure of health: evidence from mortality in the Whitehall II prospective cohort study. BMJ 327(7411), 364.
15. https://datafloq.com/read/from-big-data-to-big-mac-how-mcdonalds-leverages-b/403
15. https://datafloq.com/read/from-big-data-to-big-mac-how-mcdonalds-leverages-b/403
16. http://data-informed.com/the-5-biggest-risks-of-big-data/  
 
16. http://data-informed.com/the-5-biggest-risks-of-big-data/
 
17. Delfi uudised. http://www.delfi.ee/news/paevauudised/liiklus/video-kristiines-porkasid-kokku-pakirobot-ja-auto-seaduse-jargi-oli-robotil-eesoigus?id=79569736
17. Delfi uudised. http://www.delfi.ee/news/paevauudised/liiklus/video-kristiines-porkasid-kokku-pakirobot-ja-auto-seaduse-jargi-oli-robotil-eesoigus?id=79569736
18. https://www.youtube.com/watch?v=S3jbiPOld4w
18. https://www.youtube.com/watch?v=S3jbiPOld4w
19. https://www.datasciencecentral.com/profiles/blogs/why-is-big-data-so-dangerous  
19. https://www.datasciencecentral.com/profiles/blogs/why-is-big-data-so-dangerous  
20. https://www.youtube.com/watch?v=8pHzROP1D-w
20. https://www.youtube.com/watch?v=8pHzROP1D-w
21. https://www.geek.com/tech/self-driving-cars-learn-from-the-best-gta-v-1696881/
21. https://www.geek.com/tech/self-driving-cars-learn-from-the-best-gta-v-1696881/
22.

Latest revision as of 17:29, 15 December 2017


Sissejuhatus

Infotehnoloogias on järjest enam kasutusel mõiste "suurandmed" (big data), milleks nimetatakse suurt hulka andmeid, mille tüübid on varieeruvad, mis on muutuses ning mille tunnused ja kvaliteet on mitmekesine, aga mida soovitakse analüüsida, et saada soovitud teavet (1).


Mitmetele uuringutele põhinedes ei ole tänaseni maailmas kokku lepitud ühest definitsiooni suurandmetele (1). Hoolimata erinevatest käsitlustest on kõige levinum ühine nimetaja nende andmete juures igapäevaselt toodetav erinevate andmekategooriate üldine suurus. Igapäevaselt toodetava andmete hulka mõõdetakse kvintiljon bitides. 2003. aasta uuringu põhjal, ehk pea 15 aastat tagasi, arvati et uue info hulk mida igal aastal salvestatakse, on rohkem kui 161 miljardit gigabaiti. Üleüldse arvatakse täna maailmas olevat andmeid 2,7 zetabaiti ehk 2,7 trillioni gigabaiti eest. Täna nähakse, et kõikide maailma ettevõtete suurandmed kahekordistuvad iga 1,2 aasta järel ning, et ebarelevantsed andmed võivad ettevõttele maksta 20%-35% tema käibest (2). Sellest tulenevat arvatakse, et USA ettevõtted kaotavad ebakvaliteetsete andmete tõttu üle 600 miljardi dollari aastas.


Big data võib aga ei pea kasutama isikuandmeid. Paljudel juhtudel aga ei hõlma suurandmete analüüs üldse mingeid isikuandmeid. Näiteks kliima- ja ilmastikuandmete põhjal saab teha uusi analüüse ning parendada teenuseid ilma isikuandmeid kasutamata. Samas on mitmeid näiteid big data analüüsist, kus töödeldakse ka isikuandmeid. Need saadakse sellistest allikatest nagu sotsiaalmeedia, kliendikaardid või tervisealased uuringud. Kui kasutatakse ehk töödeldakse isikuandmeid, siis peavad kõik osapooled tagama neile isikuandmete kaitse seadusest (edaspidi IKS) tulenevate kohustuste järgimise (2).



Suurandmeid kogutakse tavaliselt alternatiivsetest andmeallikatest nagu veeb ja automaatselt genereeritud andmed. Veebi all mõistame me inimeste tekitatud andmeid, mida me näiteks Facebooki või oma kodulehe üles laeme. Automaatselt genereeritakse näiteks liiklusloendureid, liikluskaamerad, satelliidi pildid ja mobiiltelefonide mastiandmed. Andmed jaotakse 4V omaduste alusel: andmete maht (volume), andmete tekkimise kiirus (velocity), andmestruktuuride mitmekesisus (variety) ja andmete keerukus (veracity). Viimane tähendab et objektide valik on mittejuhuslik, andmete tekkimise mehhanism ei ole lihtsasti kirjeldatav, andmetes on palju müra ja nende tekkimise ajaline järjepidevus on ebakindel. Big data efektiivsus seisneb selles, et enam ei pea inimest küsitlema selleks, et teada saada, kuidas ta käitub. Seda mustrit saab big data-st tulenevalt tekitada ning ühtlasi ennustada läbi selle ka kuidas tarbija võiks käituda tulevikus. Kindlasti on siin tegemist suurema efektiivsuse ja täpsusega kui tavaline intervjuu seda kunagi suudaks.


Suurimate ettevõtete hulgas kes täna on big data kasutajad, on näiteks GE ja IBM. Nende hulgas läbi viidud uuringust selgus, et 92% juhtidest on rahul big data-st saadava infoga ja 89% vastanutest arvas, et big data on “tähtis” või “erakordselt tähtis”. 89% vastanutest kes on big data metoodikaid implementeerinud, tõdevad, et see on üks võimalus kuidas äris revolutsiooni tekitada. 89% arvas, et kui täna big data revolutsiooniga kaasa mitte minna, tähendab see tulevikus oma sektoris turuosa kaotamist. Suurettevõtete marketingi juhid panustavad juba kuni 37% marketingi eelarvest big data infrastruktuuri loomisele ettevõttes (2).


Big data kasutamise võimalusi

Austraaliasse ja Lõuna-Ameerikasse planeeritakse ehitada tohutu suurt raadioteleskoopi, mis registreerib Maa-välistest raadiolainete allikatest lähtuvaid elektromagnetlaineid (7). See on nii suur, et oleks 50 korda tundlikum ja 10 000 korda kiirem kui ükski teine raadioteleskoop ja toodaks iga päev sama palju andmeid kui praegu on internetis olemas. Astronoomid oleksid võimelised püüdma igat pisematki infokildu meie galaktikast ja saaksid uurida universumit veel täpsemalt kui see seni on olnud võimalik. Big data revolutsioneerib astronoomiat.

Maa peal revolutsioneerib big data meie koduseid elusid, sotsiaalkeskkonda ja ärimaailma. Kuigi me upume kõikvõimalikku infosse, on meil siiski veel kustumata nälg teadmiste kohta, mida andmed sisaldavad. Tulevikus muudab big data meie elu, eluviisi ja äri.


Targad linnad

Üks näide sellest, kuidas big data on kasutatav elu edendamiseks linnas, on MK:SMART initsiatiiv (8) – 2014. aastal stardi saanud 16 naelsterlingi suurune targa linna big data projekt ühes kõige kiiremini kasvamas Ühendkuningriigi linnas, Milton Keynes. Projekt põhineb targa linna hüpoteesil, et kui meile on kättesaadav suurem hulk ja parema kvaliteediga andmed vee, energia, transpordi, meditsiinilise abi nõudluse ning pakkumise kohta, siis on võimalik pakkuda efektiivsemat linna teenust. MK initsiatiivi abil tahetakse näha kui kaugele on võimalik big data abil minna ja kui vanu probleeme on võimalik uut moodi lahendada aga loodetakse ka avastada uusi probleeme, mida tekitab big data ise. Hommikune sõit koolibussiga kooli näeks targas linnas välja järgnev. Kui buss sõidab peatusest peatusesse, registreerib ja raporteerib see tee peal leiduvad augud, katkised reflektorid, takistused ning jäised teeolud. Selliselt on teada, kus on reaalselt kõige suurem vajadus päeva jooksul teid hooldada. Koolijüts saab 30 minutit enne bussi saabumist tema peatusesse teate, et peatusesse minemine oleks tal paremini ajastatav. Pikaaegsete andmete analüüsi tulemusena ja hetke teeolusid arvesse võttes on teada, et buss saabub peatusesse 30 sekundi täpsusega. Õnnetustesse või ummikutesse sattumise vältimiseks arvutatakse bussi marsuurt ümber (9). Ka teiste sarnaste stsenaariumite korral muutvad targad linnad andmete ja teenuste kohtumispaigaks andmete omanike ja andmete kasutajate seas. Loodav väärtus tekib just andmete jagamise kaudu – võimalikuks muutub langetada õigeid otsuseid õigel ajal (bussi näites marsruudi ümber arvutamine), pakkuda linna teenuseid efektiivsemalt (bussi näites tee hooldus) ja vähendada resursside kasutust (bussi näites aja ning kütuse kokkuhoid).


Duplikaatide detekteerimine erinevates keeltes

Mida rohkem on meil andmeid, seda suurema tähtsusega on see, et need andmed oleksid täpsed ja kvaliteetsed. Duplikaatandmete välja filtreerimine on esimene samm täpse andmesiku loomisel. Öeldakse et 80% kogu pingutusest kulub andmete puhastamisele, müra vähendamisele, normaliseerimisele ja standardiseerimisele (10). See on aga väga keeruline tegevus kui sama objekt (näiteks inimese nimi) on andmestikus esindatud mitmetes keeltes, on erinevates kohtades vigaselt kirjas või on erinevate dialektide tõttu erinevat moodi kirjas. Tihtipeale ütlevad inimesed oma nimesid erinevalt sõltuvalt sellest organisatsioonist, kellega nad suhtlevad - mõnikord puuduvad keskmised nimed või on nime osad lausa ära vahetatud. Isegi sama keele erinevates dialektides võivad nimed olla kirjutatud erinevalt. Näiteks araabia keeles on "Abdel Gabbar", "Abd Al Jabbar" and "Abd El Gabbar" üksteise ekvivalendid ja seda isegi araabia tähestikus. Oletame et jaapanlane otsib Facebookist oma saksa kolleegi, kelle nimi on Jürgen Vo. Poleks väga kena paluda jaapanlasel kasutada saksa klaviatuuri või paluda sakslasel kasutada inglise tähestikku. Võttes aluseks inglise keele kui globaalse keele, peaks Facebook pakkuma vaste kui jaapanlane otsib kasutajat Jürgen Voss. Küll aga oluliselt keerulisem oleks sama situatsioon lahendada vene, jaapani, hiina või araabia keeltes.


Araabia keeles kasutatakse duplikaatide tuvastamiseks näiteks erinevaid foneetilisi algoritme. Need konverteerivad iga nime koodiks, et leida ekvivalentseid nimesid (11). Väja töötatud on ka mitmeid sarnasusfunktsioone (12), mida kasutatakse nimede võrdlemisel ja mis tagastab sarnasusindeksi. Indeksi väärtus on vahemikus 0-1, kus 0 tähendab, et nimed on täiesti erinevad ja 1 et on täpselt võrdsed. Süsteem võib siis määratleda, et indeksi väärtused, mis on mingist lävendist kõrgemad on duplikaadid ja mingist lävendist madalamad on erinevad nimed. Kõik väärtused, mis vahepeale jäävad, klassifitseeritakse kui võimalikud duplikaadid ja vajavad käsitsi üle vaatamist.


Niisiis, väga keeruline on otsustada, kas kaks süntaktilist väärtust on alternatiivsed nimetused samale semantilisele objektile või mitte. Täna kättesaadavad duplikaatide detekteerimise tööriistad suudavad nimede variatsioone tuvastada inglise, prantsuse, saksa, hollandi, greeka ja araabia keelest aga vajadus on selline, et oleks olemas üldine duplikaatide tuvastuse karkass, mis toetaks kõiki keeli kõikides tähestikes selliselt, et uusi keeli ja sõnastikke saaks ekstensionina kaasa anda (10). Egiptlased on teinud selle kallal tööd ja pakkunud välja CLDRD (Cross Language Duplicate Record Detection) mudeli, kuhu on kaasatud nimede puhastamine ja standardiseerimine, nimede lahku löömine ja reorganiseerimine (nt nimi John M. Stewart konverteeritakse kolmeks erinevaks nimeks: John, M., Stewart sest osades keeltes on eesnimed viimasena), keele tuvastus iga nime kohta ja foneetilistel alustel sõnastiku ehitamine igale mitte inglise tähestikku omavale sõnale ning duplikaatide detekteerimine sarnasusindeksi abil (10). Niisiis, samale isikule kuuluvate nimede tuvastamiseks big data-st on tehtud ettepanekuid, mis võivad töötada teatud rahvuskeeltes aga see on siiski tohutu väljakutse eristada üle kogu maailma, kes on kes.


Autonoomne uudiste tuvastus Twitterist

"There may not be newsagents around at a scene of event but there will always be tweeters on ground to broadcast the event live on Twitter even before professional newsagents arrive at the scene".


Twitter on tuntuim ja võimsaim mikroblogimise tööriist sotsiaalmeedia valdkonnas. Tuntud poplaulja Whitney Huoston’i surmast teatati Twitteris 2012. aasta veebruaris 27 minutit enne kui seda tegi ükski pressiväljaanne. Tänapäevaks on Twitter muutunud uudiste toimetustele oluliseks ressursiks – huvitavate säutsude otsa sattudes koostatakse neist uudiseid või kaasajastatakse olemasolevaid. Twitter genereerib iga päev tohutul hulgal andmeid. Ühe minuti jooksul postitatakse 100 000 säutsu ning kui jaapanlased tähistasid 2013. aastal uut aastat, saavutati tänaseni püsiv rekord, mil ühes sekundis postitati 6939 säutsu (10). Uudistetoimetused ja pressiväljaanded on huvitatud selle info kasutamisest uudiste koostamisel ja uuendamisel ja lahenduseks on andmekaeveks töötada välja sobivad algoritmid. Mis peamine - teha seda selliselt, et leitaks kasulikku ja konstruktiivset infot, kust midagi olulist kaduma ei läheks. See on olnud seni suur väljakutse, sest lisaks info paljususele on see ka väga varieeruv – Twitteri kasutajate postitused võivad puudutada isiklikku elu sündmusi või raporteeritakse maailmas toimuvaid sündmusi või väljendavad inimsesed isiklikku arvamust mingi uudise kohta.


Säutsude potensiaali uurimiseks on pakutud välja näiteks sellist algoritmi, mis tuvastas prominentsete kasutajate postitusi. Tuvastatud postitustest loodi navigeeritav teemade graafik, kuhu säutsud kasutaja poolt seatud ajaraamis kokku kogunesid (13). Teadlased on analüüsinud ka ARM (Association Rule Mining) põhise meetodi abil Twitteri postitusi. See meetod leiab seoseid sarnase teemaga postituste vahel, mis on avalikustatud erinevatel aegadel. Leitakse postitused ajast t ja t+1, mis on seotud päris elu sündmuste või uudistega ja kannavad sarnast hashtagi. Selliselt on võimalik teha järeldusi, kuidas mingi uudis on aja jooksul arenenud. Ühtlasi on võimalik arvutada ka mingite kindlate hashtagide eluiga Twitteris ja näha kuidas kasutajad muudavad hashtagi kui uudis aja jooksul täieneb (13).


Haiguslehele jäämise ennustamine

Üks väga suur valdkond kus big data võimsust ära kasutada on meditsiin. Haiglate andmebaasidest võib õnnestuda hankida infot, mis hõlbustaks krooniliste haiguste ja nakkushaiguste jälgimist inimeste seas või näiteks saaks ennustada nakkushaiguste puhkemise tõenäosust populatsioonis.


Rahva tevise seisundi jälgmine tähendaks, et vaadataks haiguste kulgu, erinevate meditsiiniliste seisundite koosesinemist (komorbiidsust), ravi tulemusi või näiteks seda, kuidas mingid poliitilised otsused on üldiselt mõjutanud rahva tervist (näiteks kas rahva tervis paraneb kui riigis kehtestada suhkrumaks). Andmete kvaliteet võib muidugi olla äärmiselt varieeruv, tihti puudub andmebaasides näiteks info selle kohta, et kas patsient, kellele määrati kodune ravi ja kirjutati välja ravim, sai tegelikult terveks või jätkas arstide vahet käimist teistes haiglates.


Haiguslehe võtmine on üks olulisi põhjuseid, miks järsult väheneb töötaja produktiivsus ja suurenevad tema kulutused tervisele. Kuna haiguslehe võtmist seostatakse ka surmajuthtumite esinemisega, on pakutud, et haigusleht võiks olla globaalne rahva tervise mõõdik (14). Teadlased on teinud katseid kasutades 1,8 mln hispaanlase terviseandmeid (14) uurimaks, kas Charlsoni komorbiidsuse indeks, mida kasutatakse komorbiidsuse prognoosimiseks, on kasutatav selleks, et ennustada töötajate korduvat põhjuseta puudumist töölt, haiglasse sattumist või haiglas suremist. Leiti, et see indeks oli kasutatav, et ennustada kui pikaks perioodiks ja mitu korda haiguslehte võetakse, samuti haiglasse sattumise kordade arvu ja haiglaravi pikkust ning haiglas suremist. Ennustus toimis üle selliste muutujate nagu vanus, sugu, elukoht ja haigla suurus (haigla suurus siis seetõttu, kuna osadesse haiglatesse satub rohkem ja keerulisemas tervislikus seisundis patsiente, kellele tehakse keerulisemaid protseduure).


Tulevikus loodetakse parandada pilvega ühendatud andmbaaside abil mudelite täpsust, et teha paremaid üldistusi rahva tervise trendide kohta. Selliste tehnoloogiliste saavutuste nagu pilve arvutuse Amazon Cloud Drive ja Apple iCloud kasutusele võtmine loob hea kasvulava virtuaalse infrastruktuuri loomiseks selle eesmärgi poole liikumisel ja aidata kaasa biomeditsiini uuringutes ning tervishoius.


Big data tootlikkus näidete põhjal

Mida enam ajas edasi big data areneb seda rohkem vaadatakse ja hinnatakse ka selle tulususe poolt. Kindlasti nõuab big data suuri ressursse, et seda hallata ja infot töödelda. Need ressursid on vaja aga tagasi teenida ning selles võtmes vaadatakse big data investeeringute rentaablust (ROI - Return Of Investments).


Lennukompaniid Southwest ja Delta

Ettevõtetel mis otseselt põhinevad kliendisuhetel on kvaliteetse teenuse pakkumine prioriteet number üks. Olgu siis tegu sotsiaalmeedia, kodulehe või mõne muu suhtlusviisiga. Southwest kasutab oma töös kõne analüüsi kliendi ja töötaja vahel, et kliendisuhtlus uuele tasemele viia. Lisaks kasutatakse Big Datat ka online käitumise analüüsimiseks ja personaliseeritud pakkumiste tegemiseks mille tulemuseks on olnud iga aastane kliendi lojaalsuse kasv. Delta on asunud kasutama big data-t aga hoopis teisel kliendile vajalikul moel - nimelt kliendi pagasi kaotamisel. Igal aastal registreerib Delta ettevõte 130 miljonit pagasit ning Delta oli esimene, kes läbi mobiilirakenduse hakkas pagasiinfot klientidele jagama nii, et kliendil on võimalik igal ajahetkel oma pagasi asukohta teada. Tänaseks on Delta pakutavat rakendust alla laetud üle 11 miljoni korra ning suurendatud kliendi rahulolu läbi selle, et inimene ei pean enam oma pagasi pärast muretsema, näidates Deltat kui väga kliendikeskset ettevõtet.


Financial Times

Financial Times kasutab big data-t, et klienti paremini mõista ning teeninda, pakkuda kliendile personaliseeritud reklaame ja disainida uusi tooteid lähtuvalt kogutud informatsioonist. Financial Times CEO hinnangul muutis big data nende ettevõtet täielikult. Ettevõte kasutab paljusid andmepunkte, et analüüsida kliendi sisu eelistusi, tõsta relvantsust ja personaalsust kuvatavas sisus. Seda kõike selleks, et hoida külastajaid ja liiklust lehel.


UPS Logistika

UPS toimetab igal aastal kohale üle 4 miljardi paki mida veavad kohale pea 100 000 autot. Selliste mahtude juures on big data analüüs äärmiselt vajalik ning UPS kasutab seda infot väga mitmel erineval moel, näiteks laevastiku optimeerimisel, veokitele mõeldud algoritmid mis aitavad teekonda lühendada ning näitavad ühtlasi ka kui palju üks või teine auto seisab, ennustades ette auto hooldusi ja remonte. Big Data implementeerimise hetkest on ettevõte säästnud 147 miljonit liitrit kütust ja suutnud lühendada marsruute 364 miljoni miili jagu. Järgmise sammuna näeb UPS ette big data operatiivse efektiivsuse saavutamise ka lennukitel.


Tesla

Tesla on tänapäevane musternäidis igivanas autotööstuses. Teslad on varustatud kõikvõimalike anduritega, mis saadavad infot tagasi peaarvutisse, kus seda analüüsitakse ning jagatakse teiste Tesla kasutajatega. Kui juhtub, et mõni liiklusmärk on kahjustada saanud või lihtsalt must, siis võetakse selle liiklusmärgi info Tesla põhiandmebaasist ning kuvatakse instantselt juhile. Infot, mida kliendi käest saadakse, kasutatakse et parandada ettevõtte uurimisprojekte, auto jõudlust, hooldust ning mis kõige peamine - tõstetakse kliendi rahulolu. Näiteks, teavitatakse Tesla ettevõtet kohe kui auto ei funktsioneeri nii nagu peaks ning soovitatakse kliendile kuhu ta hooldusesse peaks pöörduma. Need omadused on aidanud Teslal luua tõsise turuosa turul, kus laadimisjaamade võrgustika on alles välja arendamisel.


McDonald’s

McDonald’s on massiivne rahvusvaheline toitlusasutus, milles on üle 34 000 restorani, mis teenindavad iga päev 69 miljonit inimest 118 riigis. Ettevõttes töötab igapäevaselt 750 000 inimest, kes jagavad välja 75 burgerit igas sekundis. Seega andmete maht, mis McDonald’sil tekib, on kolossaalne (15). Jälgitakse väga suurt hulka muutujaid, eesmärgiga parandada kliendi kogemust. Jälgitakse restorani liiklust, suhtlust kliendi ja teenindaja vahel, drive-in’i läbilaskevõimet ja sessoonsust, klientide ostumustreid, kassa müügipunkti statistikat ja lisaks veel videokaameratest saadavat infot. Infot, mida eelnevatest ettappidest kogutakse, kasutatakse nii uute restoranide disainimisel, menüü koostamisel, töötajate treeningprogrammi koostamisel kui tarneahela juhtimisel. Kuigi igal maal näevad McDonald’si restoranid välja üsna ühesugused, on iga restoran natuke erinev ning seda just lokaalse turu big data-le põhinedes. McDonald’s kasutab big data-t kliendikogemuse parandamiseks ning tulemuslikkuse suurendamiseks.


Big data ohud

Big data riskid jagunevad piltlikult kaheks: risk äri jaoks ja inimese (kliendi) jaoks. Kuna big data on alles nii uus tehnoloogia, ei ole sellel kujunenud optimaalsed töömetoodikad ehk best practices. Ei ole veel selle valdkonna palju kogenud spetsialiste, kes teaksid 100% kindlusega, mida nad peavad saavutama äri jaoks ja kuidas sinna jõuda.


Riskid ettevõtete jaoks

Sellistest piirangutest tuleb big data esimene risk äri jaoks: aja ja raha üleliigne kulutamine. Kui big data arendamise algfaasis eksida pisidetailidega (näiteks äri eesmärkides jääb midagi puudu), siis võib see viga tulevikus tekitada palju kahjumit ja valeinfot, millest äri hakkab lähtuma. Sama käib iga uuringu kohta. Kui me suudame koguda meeletut hulka andmeid, aga ei suuda seda töödelda ja saada andmetest midagi kasulikku, siis kaob big data mõte üldse ära (16).


Teine risk, mis tuleb eelnevalt mainitud piirangutest, on üleliigne andmete kogumine. Kuna ei ole kvalifitseeritud spetsialiste, kes oskaksid vajalikke programme kasutada, siis eesmärkide saavutamiseks kogutakse massiliselt infot töötlemiseks. Osa sellest infost on täiesti üleliigne püstitatud eesmärgi saavutamiseks, mis omakorda teeb kogutud andmete analüüsimise keerulisemaks, kui reaalselt vaja, kuna on palju seosetut informatsiooni. Selle probleemi lahenduseks peaks tegema vastavaid koolitusi või integreerima big data mingil kujul ülikoolide õppekavasse. Näiteks hetkel ei ole TTÜ-s big data kohta ühtegi ainet, isegi mitte sissejuhatavat kursust, mis tutvustaks termineid vms (16).


Info üledoosist tuleneb ka kolmas risk, mis on vale või ebavajaliku info käsitlemine vajaliku infona, mis on muutuva osakaaluga risk. Mida rohkem infot (kaasaarvatud üleliigset), seda suurem risk. Sellised vead võivad viia analüüsi tulemused tõest kaugemale ja suunata äri statistika abil vales suunas. Samuti peab kuidagi kindlustama info tõesust ja täpsust. Näiteks võib tuua Starships Technologies pakiroboti, mida testitakse TTÜ kampuse peal. See robot ei ole suutnud aastaid iseseisvalt üle tee sõita (ja ilma õnnetusteta ei suuda ikka veel), kuna vaadates vasakule ja paremale näeb ta lehe- või lumehunnikuid ning peab neid ohuks ja jääb tee äärde ootama. Tegemist on olukorraga, kus masin saab infot, aga ei saa aru, et see on üleliigne. Tegemist ei ole küll big data-ga, kuid illustreerib hästi info konteksti puudumist. Võib tekkida ka vastupidine olukord - masin saab andmeid, kuid ei saa aru, et need on antud olukorras vajalikud. Selle roboti näitel tähendaks see seda, et auto läheneb, kuid robot hakkab ikka üle tee sõitma (17). Big data puhul on riskid suuremad kui 1 katkine robot või auto kriimustatud esiots. Kuigi tähelepanematute autojuhtide eest ei ole kaitset kellelgi, võib tegu olla ka ettevõtte suunamisega vales suunas halva andmetöötluse algoritmi tõttu (18).


Riskid tarbija jaoks

Koos big data arenguga tekib palju olulisi küsimusi, millel ei ole veel ühest vastust. Näiteks, kui ettevõte korjab Teie kohta infot, siis kellele see kuulub? Kas ettevõttele või konkreetsele isikule, keda info puudutab? Mis saab siis kui Teie kohta koguti infot, mida te ei tahaks jagada, näiteks midagi privaatset? Suureks probleemiks võib osutuda ka info väärkasutamine ja selle turvalisus. Suurfirmad, kes tormavad big data kasutamise suunas, tihti ei mõtle sellele, kuidas säilitada info turvalisust ja kuidas kaitsta seda küberkurjategijate eest, mis on suur risk nii ettevõttele kui ka inimestele, kelle kohta on info mugavalt koondatud ühte baasi. Mõte, et kuskil on olemas väga suur hulk infot, mida hoitakse mugavalt digitaalsel kujul ja mida on hea lihtne varastada ja kuritarvitada, kuna ettevõtted ei rakendanud turvameetmeid piisavalt, on üsna õudne (19).


Big data on imeline vahend info hankimiseks ja seoste loomiseks, kuid mingil hetkel võib ta hakata ametikohti kaotama. Sama moodi nagu tehaste automatiseerimine 20. sajandil võttis töid ära lihttöölistelt, kuna nad lihtsalt asendati masinatega, võib ka big data oma vahendite ja info töötlusega ametikohti kaotada, või vähemalt neid oluliselt muuta. Näiteks onkoloogi töö on tuvastada, kas inimesel on pahaloomuline kasvaja või mitte. Selleks, et selle tööga hakkama saada pidi ta minema kooli ja õppima, mis on aega ja pingutusi nõudev protsess. Sisuliselt, et vähi analüüsini jõuda, peab ta õppima 12 +10 aastat ülikoolis. Ümmarguselt võime öelda, et läheb umbes 20 aastat, et inimene suudaks vähki tuvastada. Arvutil läheb see sujuvamalt. Arendajal tuleb luua õppimise algoritm ja siduda see big data-ga. Tulemuseks on see, et arvuti töötleb inimesega võrreldes üleloomuliku kiirusega sisestatud andmed ja üle öö hakkab suhteliselt suure täpsusega ütlema, kellel on vähk ja kellel ei ole. See võtab küll aega, kuid tunduvalt vähem kui 20 aastat. Siit tekib küsimus, mida hakkab tegema see arst, kelle töö seni olemasoleval kujul ei ole enam vajalik (20)?


Veel üheks ametikoha kaotamise näiteks võib tuua taksojuhi. Hetkel on taksodes roolide taga ikka inimesed, kuid isesõitvad autod ei ole enam kauge tulevik. Google arendab iseseisvat autot juba pikemat aega ja seal ei ole koodis kirjutatud samm sammuline juhend iga võimaliku olukorra kohta või iga uue sõidu reegli jaoks. Tegemist on iseõppiva süsteemiga, millele antakse suurt hulka infot töötlemiseks. Kuna oleks ohtlik testida isesõitvaid autosid reaalsete teede peal, siis tehakse seda virtuaalselt GTA V abil. Tulemuseks on see, et väga detailselt läbimõeldud virtuaalne maailm sadade erinevate autodega ja tuhandete ettearvamatute jalakäiatega annab robotile suurt hulka infot töötlemiseks. Boonuseks on see, et ühte ja sama stsenaariumit saab läbi mängida mitu korda, et leida optimaalne lahendus probleemile. Kui kunagi legaliseeritakse isesõitvad autod, siis on arvatavasti taksojuhid mõne aja pärast kadunud (21).


Samuti on riigid huvitatud sellistest info kogusest, kuna sealt võib uurimise käigus leida midagi riigile vajalikku. Me oleme kuulnud NSA luuramisest ja info hankimisest üle maailma, kuid nad ei ole kindlasti ainukesed. Hiina arendab oma turul tegutsevate ettevõtete hindamise süsteemi, mis uurib inimese käitumist individuaalsel tasemel kui ka tema sõprade käitumist sotsiaalmeedias, et anda inimesele hinnang. See hindamine kasutab big data vahendeid suure hulga info kogumiseks ja analüüsimiseks, et saavutada võimalikult täpne hinnang inimesele või ettevõttele. Siit tuleneb veel üks vastamata kuid oluline küsimus - kus lõppeb riigi julgeoleku jaoks tõesti vajalik info hankimine ja töötlemine ja kus algab privaatsuse häirimine? Hiina turule on kindlasti hea teada, kes seal tegeleb ja mida ta teha võib, kuid ettevõtjate sõbrad, keda sotsiaalmeedias jälgitakse info kogumise eesmärgil, ei ole kindlasti nõus selle info kasutamisega (19).

Viited

1. Vikipeedia, “Andmed” https://et.wikipedia.org/wiki/Andmed

2. Bakar Munir, A., Yasin, S., Muhammad-Sukki, F. 2015. Big Data: Big Challenges to Privacy and Data Protection, World Academy of Science, Engineering and Technology International Journal of Social, Education, Economics and Management Engineering Vol:9, No:1, p.355.

3. https://research.wpcarey.asu.edu

4. http://www.fathomdelivers.com/blog/analytics/big-data-facts-and-statistics-that-will-shock-you/

5. http://www.aki.ee/sites/www.aki.ee/files/elfinder/article_files/suurandmed_ja_privaatsus.pdf

6. https://content.pivotal.io/blog/20-examples-of-roi-and-results-with-big-data

7. Vikipeedia, “Square Kilometre Array” https://en.wikipedia.org/wiki/Square_Kilometre_Array

8. Targa linna projekt MK:SMART http://www.mksmart.org/

9. Farrant, N. Big Data. Opportunities and Challenges. 2015. Faber

10. Hassanien, A.-E., Taher Azar, A., Snasel, V. Kacprzyk, J., Abawajy, J.H. Big Data in Complex Systems. 2015. Springer.

11. Aqeel, S., Beitzel, S., Jensen, E., Grossman, D., Frieder, O. 2006. On the Development of Name Search Techniques for Arabic. Journal of the American Society of Information Science and Technology 57(6)

12. Christen, P. 2006. A Comparison of Personal Name Matching: Techniques and Practical Issues. In: Sixth IEEE International Conferenece on Data Mingin Workshops, ICDM Workshops, pp. 290-294.

13. Cataldi, M., Di Caro, L., Schifanella, C. 2010. Emerging topic detection on twitter based on temporal and social terms evaluation. In: Proceedings of the Tenth International Workshop on Multimedia Data Mining, p. 4.

14. Kivimaki, M., Head, J., Ferrie, J.E., Shipley, M.J., Vahtera, J., Marmot, M.G. 2003. Sick- ness absence as a global measure of health: evidence from mortality in the Whitehall II prospective cohort study. BMJ 327(7411), 364.

15. https://datafloq.com/read/from-big-data-to-big-mac-how-mcdonalds-leverages-b/403

16. http://data-informed.com/the-5-biggest-risks-of-big-data/

17. Delfi uudised. http://www.delfi.ee/news/paevauudised/liiklus/video-kristiines-porkasid-kokku-pakirobot-ja-auto-seaduse-jargi-oli-robotil-eesoigus?id=79569736

18. https://www.youtube.com/watch?v=S3jbiPOld4w

19. https://www.datasciencecentral.com/profiles/blogs/why-is-big-data-so-dangerous

20. https://www.youtube.com/watch?v=8pHzROP1D-w

21. https://www.geek.com/tech/self-driving-cars-learn-from-the-best-gta-v-1696881/