Võrgurobotid ja nende kasutusalad: Difference between revisions

From ICO wiki
Jump to navigationJump to search
Kadtam (talk | contribs)
Kadtam (talk | contribs)
Line 1: Line 1:
==Sissejuhatus==
==Sissejuhatus==


==Mis on interneti robot?==
==Mis on bot?==


IInterneti robot (Internet bot [https://en.wikipedia.org/wiki/Internet_bot], web robots) või lühemalt öeldes bot, on algoritmide kogum, mis täidab automaatseid, korduvaid ning eelnevalt määratletud ülesandeid internetis. Praegused veebirobotid teostavad suhteliselt lihtsaid ülesandeid, mis võiva olla inimeste jaoks tüütud ja aeganõudvad. 
Interneti robot (Internet bot [https://en.wikipedia.org/wiki/Internet_bot], web robots) või lühemalt öeldes bot, on algoritmide kogum, mis täidab automaatseid, korduvaid ning eelnevalt määratletud ülesandeid internetis. Praegused veebirobotid teostavad suhteliselt lihtsaid ülesandeid, mis võiva olla inimeste jaoks tüütud ja aeganõudvad.  


Veebirobot on otsingumootorite alustalaks, mille eesmärk on teostada interneti süvaotsingut ja andmekaevamist, et sinu otsingule vasteid anda. Osa neist robotitest töötavad automaatselt ja osad käivitakse ainult konkreetse sisendi saamisel.  Automatiseeritud skriptid leiavad, analüüsivad ja esitavad saadud informatsiooni interneti veebiserveritest mitmeid kordi kiiremini kui inimene seda jõuaks teha. 
Veebirobot on otsingumootorite alustalaks, mille eesmärk on teostada interneti süvaotsingut ja andmekaevamist, et sinu otsingule vasteid anda. Osa neist robotitest töötavad automaatselt ja osad käivitakse ainult konkreetse sisendi saamisel. Automatiseeritud skriptid leiavad, analüüsivad ja esitavad saadud informatsiooni interneti veebiserveritest mitmeid kordi kiiremini kui inimene seda jõuaks teha.  
Internetis on kõige rohkem kasutust leidnud nn indekseerimiserobotid, mida tuntakse ka internetis roomajateks (web crawlers [https://en.wikipedia.org/wiki/Web_crawler]) või ka ämbliku (web-spiders) nime all.  Nende ülesandeks on koguda automaatselt infot näiteks otsimootorite jaoks, monitoorides URL-e (veebilehe aadresse), kodulehti, blogisid, foorumeid, uudisteportaale jne, indekseerides nende sisu nagu pealkirju, teateid, pildinimetusi, tekstiosa – lauseid, lausepaare, märksõnu lausetes jne. Bot’i eesmärgiks on simuleerida inimtegevust, pakkudes vahendajana teenuseid või teavet boti loonud autori(te)le [https://arvutiturve.wordpress.com/2012/05/09/mis-on-bot-ehk-interneti-robot-kuritahtlikud-bot´id-ja-head-tarkvararobotid-2/].
Internetis on kõige rohkem kasutust leidnud nn indekseerimiserobotid, mida tuntakse ka internetis roomajateks (web crawlers [https://en.wikipedia.org/wiki/Web_crawler]) või ka ämbliku (web-spiders) nime all. Nende ülesandeks on koguda automaatselt infot näiteks otsimootorite jaoks, monitoorides URL-e (veebilehe aadresse), kodulehti, blogisid, foorumeid, uudisteportaale jne, indekseerides nende sisu nagu pealkirju, teateid, pildinimetusi, tekstiosa – lauseid, lausepaare, märksõnu lausetes jne. Bot’i eesmärgiks on simuleerida inimtegevust, pakkudes vahendajana teenuseid või teavet boti loonud autori(te)le [https://arvutiturve.wordpress.com/2012/05/09/mis-on-bot-ehk-interneti-robot-kuritahtlikud-bot´id-ja-head-tarkvararobotid-2/].
Veebiroboti eesmärk peaks olema internetis oleva info väärtustamine ning kasulikuks muutmine. Üldiselt pole ka mingi uudis see, et veebilehtede põhikülastajateks ei ole inimesed vaid hoopis botid. Olgu nad siis head või halvad, kuid bot’id moodustavad natuke üle 50% kogu veebiliiklusest [https://www.theatlantic.com/technology/archive/2017/01/bots-bots-bots/515043/].
Samas on levinud ka nn pahad botid, mida kasutatakse pahatahtlikel eesmärkidel.


Enamik veebiroboteid on ohutud ja nende eesmärk on muuta Interneti info väärtuslikuks ning kasulikuks. Samas on levinud ka nn pahad robotid, mida kasutatakse pahatahtlikel eesmärkidel.


====Pahad botid====
====Pahad botid====
Kuigi sooviks rääkida ainult bot’de heast poolest, siis kahjuks peame natuke ka peatuma ka pahadel bottidel.
Pahatahtlik bot seevastu on automaatselt leviv õelvaraline robot, mis otsib internetist monitoorimise teel haavatavaid ja kaitsmata arvuteid või paigaldatakse turvavigadega veebilehtedele trooja, uss jne, millel viibides samuti nakatatakse arvutid märkamatult pahavarasse, saates sellest kohe automaatselt teate kuritegeliku bot´i loonud inimesele. Nakatatud arvuti abil saab küberkurjategija (botmaster) haarata kaugjuhtimise teel kogu kontrolli kasutaja arvuti üle ja vastavalt eesmärgile salvestada klahvivajutusi, koguda paroole või finantsteavet, teostada identiteedivargust, käivitada DDoS rünnakuid, saata rämpsposti või levitada kontrolli all olevast arvutist teistele kasutajatele edasi arvutiusse, viiruseid, troojaid jm pahavara [https://arvutiturve.wordpress.com/2012/05/09/mis-on-bot-ehk-interneti-robot-kuritahtlikud-bot´id-ja-head-tarkvararobotid-2/].
Nakatatud arvuteid nimetatakse ka zombie-arvutiteks ja ja nende abil üritatakse omakorda nakatada servereid ja internetivõrku ühendatud teisi arvuteid ning luua sellise rünnaku abil botnet-võrgustik. Tõesti, pahade bottide puhul räägitakse rohkem robot võrgustikust.
Botnetiks ehk robotvõrguks (robot network) nimetatakse küberkurjategijate poolt kontrollitavat arvutikogumit, mis, samal ajal kui pahaaimamatud omanikud mängivad, surfavad või muid igapäevaseid toimetusi teevad, pommitab mõnd veebiserverit tühiste päringutega, kuni see enam koormuse all vastu ei pea, serveerib porno- või piraattarkvarakollektsiooni, nakatab uusi arvuteid ja saadab laiali spämmi. Kontrolli alla saamiseks rünnatakse arvutit kas mõne turvaaugu kaudu (eriti kui arvutis on vananenud ja paikamata tarkvara), sagedamini aga pahavara abil, mis satub teie arvutisse kas kiirsuhtlusprogrammi või elektronposti kaudu või siis kuritahtlikke veebilehti külastades [http://www.arvutikaitse.ee./?page_id=826]
Botnetti võib kuuluda miljoneid arvuteid, viimasel ajal aga näivad kurjategijad arvavat, et kõige optimaalsem ja ohutum on pidada väikesi, paarikümnest tuhandest arvutist koosnevaid botnette, millest aga täpse rünnaku jaoks piisab täiesti [http://www.arvutikaitse.ee./?page_id=826].
Tavaliselt arvutikasutaja ei oska kahtlustada seesuguse tarkvara olemasolu oma arvutis, sest pahavara toimetab arvutis märkamatult ega anna endast ekraanil kuidagi teada. Samas on saad netis suht kiirelt juhtnööre, kuidas veenduda, et pahavara pole sinu arvutisse sattunud [https://us.norton.com/internetsecurity-malware-what-are-bots.html].


====Head botid====
====Head botid====

Revision as of 03:38, 10 December 2017

Sissejuhatus

Mis on bot?

Interneti robot (Internet bot [1], web robots) või lühemalt öeldes bot, on algoritmide kogum, mis täidab automaatseid, korduvaid ning eelnevalt määratletud ülesandeid internetis. Praegused veebirobotid teostavad suhteliselt lihtsaid ülesandeid, mis võiva olla inimeste jaoks tüütud ja aeganõudvad.

Veebirobot on otsingumootorite alustalaks, mille eesmärk on teostada interneti süvaotsingut ja andmekaevamist, et sinu otsingule vasteid anda. Osa neist robotitest töötavad automaatselt ja osad käivitakse ainult konkreetse sisendi saamisel. Automatiseeritud skriptid leiavad, analüüsivad ja esitavad saadud informatsiooni interneti veebiserveritest mitmeid kordi kiiremini kui inimene seda jõuaks teha. Internetis on kõige rohkem kasutust leidnud nn indekseerimiserobotid, mida tuntakse ka internetis roomajateks (web crawlers [2]) või ka ämbliku (web-spiders) nime all. Nende ülesandeks on koguda automaatselt infot näiteks otsimootorite jaoks, monitoorides URL-e (veebilehe aadresse), kodulehti, blogisid, foorumeid, uudisteportaale jne, indekseerides nende sisu nagu pealkirju, teateid, pildinimetusi, tekstiosa – lauseid, lausepaare, märksõnu lausetes jne. Bot’i eesmärgiks on simuleerida inimtegevust, pakkudes vahendajana teenuseid või teavet boti loonud autori(te)le [3].

Veebiroboti eesmärk peaks olema internetis oleva info väärtustamine ning kasulikuks muutmine. Üldiselt pole ka mingi uudis see, et veebilehtede põhikülastajateks ei ole inimesed vaid hoopis botid. Olgu nad siis head või halvad, kuid bot’id moodustavad natuke üle 50% kogu veebiliiklusest [4]. Samas on levinud ka nn pahad botid, mida kasutatakse pahatahtlikel eesmärkidel.


Pahad botid

Kuigi sooviks rääkida ainult bot’de heast poolest, siis kahjuks peame natuke ka peatuma ka pahadel bottidel.

Pahatahtlik bot seevastu on automaatselt leviv õelvaraline robot, mis otsib internetist monitoorimise teel haavatavaid ja kaitsmata arvuteid või paigaldatakse turvavigadega veebilehtedele trooja, uss jne, millel viibides samuti nakatatakse arvutid märkamatult pahavarasse, saates sellest kohe automaatselt teate kuritegeliku bot´i loonud inimesele. Nakatatud arvuti abil saab küberkurjategija (botmaster) haarata kaugjuhtimise teel kogu kontrolli kasutaja arvuti üle ja vastavalt eesmärgile salvestada klahvivajutusi, koguda paroole või finantsteavet, teostada identiteedivargust, käivitada DDoS rünnakuid, saata rämpsposti või levitada kontrolli all olevast arvutist teistele kasutajatele edasi arvutiusse, viiruseid, troojaid jm pahavara [5].

Nakatatud arvuteid nimetatakse ka zombie-arvutiteks ja ja nende abil üritatakse omakorda nakatada servereid ja internetivõrku ühendatud teisi arvuteid ning luua sellise rünnaku abil botnet-võrgustik. Tõesti, pahade bottide puhul räägitakse rohkem robot võrgustikust. Botnetiks ehk robotvõrguks (robot network) nimetatakse küberkurjategijate poolt kontrollitavat arvutikogumit, mis, samal ajal kui pahaaimamatud omanikud mängivad, surfavad või muid igapäevaseid toimetusi teevad, pommitab mõnd veebiserverit tühiste päringutega, kuni see enam koormuse all vastu ei pea, serveerib porno- või piraattarkvarakollektsiooni, nakatab uusi arvuteid ja saadab laiali spämmi. Kontrolli alla saamiseks rünnatakse arvutit kas mõne turvaaugu kaudu (eriti kui arvutis on vananenud ja paikamata tarkvara), sagedamini aga pahavara abil, mis satub teie arvutisse kas kiirsuhtlusprogrammi või elektronposti kaudu või siis kuritahtlikke veebilehti külastades [6]

Botnetti võib kuuluda miljoneid arvuteid, viimasel ajal aga näivad kurjategijad arvavat, et kõige optimaalsem ja ohutum on pidada väikesi, paarikümnest tuhandest arvutist koosnevaid botnette, millest aga täpse rünnaku jaoks piisab täiesti [7].

Tavaliselt arvutikasutaja ei oska kahtlustada seesuguse tarkvara olemasolu oma arvutis, sest pahavara toimetab arvutis märkamatult ega anna endast ekraanil kuidagi teada. Samas on saad netis suht kiirelt juhtnööre, kuidas veenduda, et pahavara pole sinu arvutisse sattunud [8].

Head botid

Erinevate chatbotide võrdlus

Selleks, et võrrelda nutikaid abimehi vaatame neid natuke lähemalt ja tegime nendega mõned katsed, mis näitavad, kui hästi üks või teine nendest toimib ja mis raskusi tekitab.


Siri

Siri on Apple poolt loodud intelligentne isiklik abimees(naine), kes aitab kasutajal erinevaid toiminguid kiiremini teha. Näiteks aitab Siri sõnumeid saata, kõnesid vastuvõtta ja kalendrist sündmusi vaadata või neid sinna lisada. Siri rakendus võeti kasutusele veebruaris 2010 ja kuulub Apple tarkvara juurde. Sirit on võimalik kasutada iPhone'is, iPad'is ja iPod touch'is. Sirit eraldi seadistama ei pea.


Kuidas Sirit kasutada? Siri poole pöördumiseks on mitu varianti:

  • Kodu ehk "Home" nupule vajutamine
  • Külgnupule ehk "Side" nupule vajutamine
  • "Hei Siri" ütlemisel. Antud funktsiooni kasutamiseks tuleb telefoni seadistuste all antud funktsioon sisse lülitada.


Siri kasutamisel erinevate iPhone'i versioonide puhul võivad esineda mõned väikesed erinevused. iPhone 6 või uuema versiooni puhul peab all hoidma näiteks kodu ehk "Home" nuppu. iiPhone X puhul tuleb vajutada külgnppu ehk "Side".

Sirit on võimalik kasutada 21 erinevas keeles ja 36 erinevas riigid. Eesti keelt nende hulgas veel ei ole.[9]

Apple on viimasel ajal ka Siri edasiarendusse panustanud. Viimaseid suuremaid Siri uuendusi on see, et Siri tõlgib ühest keelest teise reaalajas. Kasutaja ütleb lause näiteks inglise keeles ja Siri ütleb antud lause tõlke soovitud keeles. [10]


Cortana

Cortanat kirjeldatakse veebis, kui digitaalagenti, kes aitab kasutajal toiminguid kiiremini läbi häälkäskluste teha. Cortana võeti 2015 jaanuar kasutusele uue Windows 10 ühe rakendusena. Cortanaga suhtlemise alustamiseks tuleb kasutajal sisestada otsingukasti küsimus või valida mikrofon ja suhelda Cortanaga. Hea on see, et kirjavahetuse pidamine Cortanaga toimib alati, kuid häälkõne jaoks on vaja mikrofoni. [11] Sarnaselt Sirile on ka Cortanas võimalik seadistada "Hei, Cortana" käskulus, mille peale Cortana käivitub.

Cortana võimaldab:

  • Anda kasutajale meeldetuletusi aja, koha või inimeste põhjal
  • Saata e-kirju ja sisestada tekste
  • Hallata kalendrit ja vajadusel seda ajakohastada
  • Nimekirjade loomist ja haldamist
  • Chatis vestelda
  • Leida fakte, faile, kohti ja infot
  • Avada oma süsteemis kõik rakendused

Cortana on saadaval ainult teatud riikides / regioonides ja mõned Cortana funktsioonid ei pruugi kõikjal kätte saadaval olla. Hetkel on Cortana kättesadav 13 regioonis sealhulgas 8-s keeles. [12]


Googel Assistant

Rakendus Google Assistant on sarnane abimees nagu Siri või Cortana, kuid mõeldud siis Android telefonidele. Google Assistant'i käivitamine on lihne, vajutades kas Kodu ehk Home nupule või siis lihtsalt ödeldes "Ok Google".

Google Assistanti kaudu on võimalik saata sünnipäeva kaarti, kui parasjagu ei saa sõrmedega nuppe vajutada, siis läbi häälkäskluste on võimalik helistada ja paluda Google Assistandil mängida oma lemmik muusikat. Seda on võimalik kasutada igal ajal ja igal pool. Uuemates telefonides on Google Assistant juba sisse ehitatud, kuid olemas on ka rakendus "Google Assistant". Antud rakenduse installeerimiseks peavad olema täidetud järgmised miiinimumnõuded:Google Search v7.11 või uuemad ja miinimummälu nõuded siiski vastama Google Assistant nõuetele.

Google Assistant'i abil on võimalik teha järgmisi toiminguid [13]:

  • Teha kiireid telefonikõnesid ("Helista emale")
  • Saata tekstisõnumeid ("Tekst Sara ma jään hiljaks")
  • Määrata meeldetuletuseid ("Meeldetuletus Laurale sünnipäeva kingitus")
  • Määrata kalendrisündmuseid ("Kalendrisündmus kohtumine Karliga homme 7-9")
  • Muusika esitamine ("Esita jazzmuusika YouTube'is")
  • Navigeerida kohti ("Võta mulle suund koju")
  • Ilmateade ("Kas ma pean tänavihmavarju kaasa võtma?")
  • Värskeimate uudiste saamine ("Räägi mulle uudised")


Alexa

Alexa on sarnane abmees nagu eelmainitud 3, kuid kuulub Amazonile. Alexa on integreeritud paljudesse Amazoni teenustesse ja neid saab kasutada selliste toodetega nagu Amazonase Echo ja Amazon Fire TV.

Alexalt on võimalik küsida erinevaid küsimusi ja selleläbi peetakse ühendust pilevepõhise teenusega. Amazon on loonud Alexa Voice Service (AVS), et jäljendada tegelikke vestlusi, kuid kasutaja kasutab intuitiivseid häälkäsklusi, et seda teenust teatud ülesannete täitmiseks kasutada. "Alexa" on lihtsalt "äratatud sõna", mis teavitab teenust, et hakata oma häält kuulama. "Alexa Voice Service (AVS) on Amazoni intelligentne hääletuvastus ja loomuliku keele mõistmise teenus, mis võimaldab häälkõnesid kasutada, mis tahes ühendatud seadet, millel on mikrofon ja kõlar." [14]

Kuigi Alexa on ametlik nimi Amazoni hääleassistendile, siis samas on võimalik Alexa nimi ka ära muuta. See on eriti kasulik juhul, kui teil on peres inimene nimega Alexa.


Chatbotidega läbi viidud testid

Selleks, et kõige paremini mõista erinevate chatbots'ide funktsionaalsust ja töövõimekust viisime Siri, Cortana, Google Assistanti ja Alexaga läbi järgmised testid. Nii testi küsimused kui testide tulemused on esitatud alljärgnevas tabelis. Testiküsimused oleme koostanud ise lähtudes sellest, et oleks kaetud erinevad funktsioonid.



Siri testimise käigus tehtud kuvatõmmised:


Cortana testimise käigus tehtud kuvatõmmised:


Testitulemuste kokkuvõte

Siia vaja tekst lisada


Millised tehnoloogiad on veebirobotite taga ning kuidas nad õpivad?

Masinõpe

Masinõpe (Machine Learning) on arvutiteaduse haru, mis annab arvutile võime õppida, olemata selleks otseselt programmeeritud [15]. Kui programmeerimisel on muidu paika pandud programmi eesmärk ja ka kõik täpsed sammud selle saavutamiseks, siis masinõppe puhul seatakse arvuti probleemi ette ja arvuti ise leiab sellele lahenduse. Näiteks, kui ülesandeks on koerte piltidelt ära tundmine, siis ei anta talle konkreetset käsku analüüsida pildil olevat esmalt vurrude, siis nina, kõrvade ja saba põhjal, vaid ta õpib neid ära tundma tuhandete koerapiltide läbivaatamise teel.

Masinõpet kasutatakse väga laiaulatuslikult ülesannete juures, kus disainida ja programmeerida selgeid ja hästitoimivaid algoritme on keeruline või lausa võimatu. Selliste ülesannete hulka kuuluvad näiteks e-kirjade ja spämmi filtreerimine, ebatavalise käitumise tuvastamine (näiteks illegaalsed operatsioonid rahaga, süsteemi sissemurdmised jms), näotuvastus jne.

Masinõppe algoritmid jaotatakse tavaliselt juhendatud, juhendamata ja stiimulõppeks.

Juhendatud õppe algoritmid toetuvad uute andmete analüüsimisel varem õpitule ning selle najalt ennustavad midagi. See algoritm suudab võrrelda oma ennustust ka õige tulemusega ning selle põhjal parandada oma ennustusmudelit.

Juhendamata õppe algoritme kasutatakse, kui alginfo ei ole kuidagi klassifitseeritud ega määratletud ning selle eesmärk on leida andmekogumitest struktuuri. Juhendamata algoritm ei ennusta midagi, vaid analüüsib andmeid ning leiab nende vahel seoseid. Juhendamata algoritme kasutatakse näiteks soovitusmootorites.

Pooljuhendatud algoritmid jäävad nende kahe vahele ning kasutavad nii varasemalt määratletud kui määratlemata andmeid. See võimaldab õppimist muuta oluliselt täpsemaks.

Stiimulõpe on meetod, kua algoritm suhtleb ümbritseva keskkonnaga ning õnnestunud tegude korral saab preemiat, näiteks mängus punkte kogudes või õiget reklaami soovitades. Preemiate põhjal õpibki programm, millised on need teod, mida tasub korrata [16].


Sügavõpe

Sügavõpe (Deep Learning) on üks masinõppe harusid, mis on inspireeritud inimajust. See koosneb neurovõrkudest, milles on rohkem kui üks neuronikiht. Andmed läbivad iga kihti ning iga järgnev kiht teostab sisendi järjest keerulisemat analüüsi ning edastab saadud tulemuse järgmisele kihile. Nagu inimajugi, tuleb sügavõpe toime väga erinevate ja keeruliste probleemide lahendamisega.

Sügavõpet kasutavad näiteks Google ja Apple oma hääle- ja pildituvastusalgoritmides, selle abil otsustavad Netflix ja Amazon, mida kasutaja järgmiseks võiks tahta vaadata või osta [17].


Loomuliku keele töötlemine

Loomuliku keele töötlemine (Natural Language Processing ehk NLP) on masinõppe haru, mis uurib seda, kuidas arvuti interpreteerib inimkeelt. Erinevalt tavalisest sõnaprotsessorist, mis käsitleb teksti pelgalt sümbolite jadana, arvestab NLP keele hierarhlist struktuurI: sõnad moodustavad fraase, fraasid lauseid ning laused kannavad edasi mõtteid [18]. Tänu sellele arusaamisele saab seda kasutada robotites kõnekeele kirjapanekuks, automaatseks keeltevaheliseks tõlkimiseks, aga ka näiteks sihtturunduse tegemiseks. Loomuliku keele töötlemine on arvutile keeruline, sest see on harva täpne ja puhtalt kõneldud. Inimkeele mõistmiseks ei piisa ainult sõnadest aru saamisest, vaid arvuti peab mõistma ka konteksti ning seda, kuidas sõnad koos moodustavad tähenduse. Kuigi inimesele on keele õppimine võrdlemisi lihtne, siis on loomuliku keele ebastandartsus see, mis muudab selle töötlemise arvuti jaoks keeruliseks. NLP algoritmid baseeruvad masinõppe algortmidel ning selle asemel, et ette on antud tohutu reeglite kogumik, analüüsib arvuti ise tohutul hulgal näiteid. Näiteks selleks, et õppida tundmatute sõnapaaride vastavusi (näiteks cat = gato), uurisid Google’i teadurid sõnapaaride koosesinemise mustreid (näiteks esineb bed tihti ühes lauses sõnaga sleep). Selle meetodi aluseks oli hüpotees, et sarnaseid sõnu kasutatakse mõlemas keeles sarnastes kontekstides. Nii luges Google’i arvutiprogramm tuhandeid lehekülgi näiteks hispaanikeelset teksti, mille alusel õppis selgeks paljude tundmatute sõnakoosluste esinemise. Siis kordas ta sama protseduuri inglise keeles. Inglise ja hispaania sõnade andmemustrite vastavusse viimiseks võttis ta appi pisikese sõnaraamatu, mis andis täpsed vastavused vaid mõnetuhande sõna vahel ning nende alusel sai ta vastavusse viia ka ülejäänud 95 000 sõnapaari [Laan, Andres. Tehisintellekt: loomadest ja masinatest. 2017 lk 123]