Andmeteadus meie ümber

From ICO wiki
Revision as of 16:02, 4 May 2022 by Antvai (talk | contribs) (→‎Kuidas andmekaeve algoritmid töötavad?)
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
Jump to navigationJump to search

Autorid: Janek Järvpõld, Lemme Velleõu, Ahti Blumkvist, Mehis Kasonen, Ants Vain


Sissejuhatus

Maailmas toodetakse järjest enam andmeid ning oluliseks on muutunud nende andmete süstemaatiline katalogiseerimine ja analüüsimine ehk teisisõnu andmeteadus. Käesolevas kursusetöös püüame kokkuvõtvalt kirjeldada ja tuua näiteid 5 peamisest andmeteaduse valdkonnast ning kirjeldada, kuidas ja kus neid valdkondi meie igapäevases elus rakendatakse. Meie valikusse jäid sellised andmeteaduse teemad nagu kõnetuvastus, suunitletud reklaam, otsingumootorid, pildituvastus ja suurandmete analüüsist finantssektoris, et näiteks pettureid tuvastada.


Andmeteadus kõnetuvastuses

Mis on kõnetuvastus?

Kõnetuvastus on tehnoloogia, mille abil muudetakse kõne tekstiks. Kõnetuvastus võimaldab näiteks dokumentide dikteerimist, kõne- ja videosalvestuste transkribeerimist ning kõne abil arvutite ja seadmetega suhtlemist. Eestikeelne kõnetuvastus on jõudnud reaalsete rakendusteni, mida kasutavad näiteks Põhja-Eesti Regionaalhaigla radioloogid, samuti mitmed Eesti meediamonitooringufirmad raadio- ja telesaadete automaatseks transkribeerimiseks [1]. Eristatakse kahte tüüpi tehnoloogiat. Ühte nimetatakse kõnetuvastuseks ja teist hääletuvastuseks. Kõnetuvastus on kõnekeele sõnade tuvastamiseks ja hääletuvastus on biomeetriline tehnoloogia isiku hääle tuvastamiseks.

Kuidas kõnetuvastus töötab?

Kõnetuvastussüsteemid kasutavad kõne tuvastamiseks algoritme. Programm muudab mikrofoni salvestatud heli kirjakeeleks, millest arvutid ja inimesed aru saavad. Tuleb järgida mõningaid samme:

  • Analüüsida heli;
  • Jagada heli osadeks;
  • Muuta heli arvutis loetavasse vormingusse;
  • Kasutada algoritmi, et sobitada kõige sobivama tekstiesitlusega.

Tarkvaraalgoritmid, mis töötlevad ja korraldavad heli tekstiks, on koolitatud erinevate kõnemustrite, kõnestiilide, keelte, dialektide, aktsentide ja fraaside järgi. Tarkvara eraldab ka kõneheli taustamürast, mis sageli signaaliga kaasneb [2].

Kõnetuvastuse omadused ja rakendusvaldkonnad

Head kõnetuvastusprogrammid võimaldavad kasutajatel kohandada vastavalt oma vajadustele. Tarkvara peab pöörama tähelepanu erilistele sõnadele ning andma neile kaalud. Sõnad mida kasutatakse sageli või mis on vestluse teema jaoks ainulaadsed. Tarkvara peab kõnest suutma eemaldada ümbritseva müra. Ilma selleta pole kõnetuvastust võimalik teha. Lisaks peab programm suutma märgistada kõnes osalejad. Samuti on oluline ebatsensuursete sõnade filtreerimine. Kõnetuvastust võib leida paljudes tänapäevastes seadmetes ja rakendustes. Allpool on mõned näited.

  • Nutiseadmed - Nutiseadmetele on lisatud häälkäsklused otsimiseks ja -valimiseks.
  • Samuti kaasaegsetel teleritel on mõned häälkäskluse funktsioonid.
  • Haridus – Keeleõppes kasutatakse kõnetuvastus tarkvara. Tarkvara analüüsib kasutaja kõnet ning annab soovituse selle parandamiseks.
  • Kasutajatugi – Automaatsed häälassistendid kuulava klientide päringuid ja pakuvad lahendusi.
  • Kõnede transkriptsioon - kõikjal kus seda peetakse vajalikuks (kohtud, koolid, haiglad, valitsusasutused jne.).
  • Käed-vabad suhtlus – autojuhid kasutavad hääljuhtimist navigeerimissüsteemile käskluste andmisel.

Kõnetuvastusalgoritmid

Markovi peitmudel – kasutatakse iseseisvates süsteemides, kus olek on osaliselt jälgitav või kui kogu otsuse tegemiseks vajalik informatsioon ei ole mikrofonile koheselt kättesaadav. Selle näiteks on akustiline modelleerimine, kus programm peab staatilise tõenäosuse abil sobitama keeleüksused helisignaalidega [3].

Kunstlikud närvivõrgud - Närvivõrk on sõlmede võrk, mis on ehitatud sisendkihi, paljudest erinevatest kihtidest koosneva peidetud kihi ja väljundkihi abil. Kõigil ühendustel on erinev kaal ja järgmisesse sõlme saadetakse ainult teatud läveni jõudnud teave. Kui sõlm peab valima kahe sisendi vahel, valib ta selle sõlme sisendi, millega tal on kõige tugevam ühendus [4].

N-grams - See lihtne lähenemine keelemudelitele loob jadale tõenäosusjaotuse. Näitena võiks tuua algoritmi, mis vaatleb paar viimast öeldud sõna, hindab ligikaudselt kõne näidise ajalugu ja kasutab seda järgmise väljaöeldud sõna või fraasi tõenäosuse määramiseks [5].

Kõnetuvastuse plussid ja miinused

Kõnetuvastuse kasutamise plussideks võib nimetada:

  • Masina ja inimese vaheline suhtlus saab toimuda vestluskõnena;
  • Tarkvara on suhteliselt lihtne installeerida seadmetesse;
  • Programmi kasutamine on tehtud lihtsaks;
  • Pidev täiustamine;

Tehisintellekti sisaldavad kõnetuvastussüsteemid muudavad aja jooksul tõhusamaks ja hõlpsamini kasutatavaks. Kui süsteemid analüüsivat kõnet, siis tarkvara protsessi tulemusena genereeritakse kõne kohta rohkem andmeid. Sellega täiustavad süsteemid oma töötlusprotsesse. Kõnetuvastusega on tegeletud mitu aastakümmet, kuid veel on ületamata mõningased probleemid. Nendeks on peamiselt:

  • Jõudlus – Süsteemid ei pruugi olla võimelised sõnu täpselt jäädvustama häälduse erinevuste või taustamüra eemaldamise puudumise tõttu;
  • Ümbritseva müra eemaldamine võib olla keeruline. Mõnikord on inimese häält võimatu tuvastada. Inimestel on aktsent mille tõttu on kõne tuvastamine raskendatud;
  • Kiirus – Kõne töötlemine võib aega võtta, kui kõne ei ole selge;
  • Riistavara – Kõne tuvastamine sõltub kasutatavast salvestusseadmest.

Kõnetuvastus Eestis ja eesti keeles

Eestis on kõnetuvastusega tegelenud Tallinna Tehnikaülikool, mis on välja töötanud vabavaralise kõnetuvastuspaketi Kaldi. Projekti eestvedajaks on vanemteadur Tanel Alumäe. TTÜ kõnetuvastussüsteemi näol on tegemist eesti keele pikkade kõnesalvestuste tuvastussüsteemiga, mis põhineb vabavaralisel kõnetuvastuspaketil Kaldi. TTÜ kõnetuvastussüsteemi võimekuse saab iga huviline panna proovile veebikeskkonnas [1]. Kõnetuvastussüsteemi kasutavad Eestis näiteks radioloogid, teadlased ja ajakirjanikud. Riigikogu võttis 14.09.2020 aastal kasutusele stenografeerimise süsteemi Hans, mille arendas Eesti IT-ettevõte Finestmedia. Süsteem kasutab TTÜ-s loodud kõnetuvastustehnoloogiat. Süsteemi arendatakse pidevalt [6]. 2019. aasta keeleteokonkursil võidutsesid keeletehnoloogia teod, peaauhind läks jagamisele Tallinna Tehnikaülikooli kõnetuvastuse ja Tartu Ülikooli masintõlke vahel [7]. Allolev tabel näitab eestikeelse kõnetuvastuse kvaliteedi progressi projekti algusest alates. Toodud on sõnavigade osakaal protsentides mitme erinevat tüüpi testvalimi puhul, kasutades nn offline režiimis kõnetuvastust (väiksem number on parem) [8].

Tabel 1. Eestikeelse kõnetuvastuse kvaliteedi areng läbi aastate.
Kõne tüüp 2014 2015 2016 2017
Raadio vestlussaated 16.9 15.7 12.4 9.9
Konverentsikõned 23.5 22.5 17.9 13.9
Aktuaalne Kaamera 19.6 17.1 15.5 9.6
Spontaanne kõne 39.9 31.6 22.4 17.6


Suunitletud reklaam

Suunitletud reklaami olemus

Reklaamid on tänapäeval paratamatu osa veebist ning enamus neist on suuremal või vähemal määral meile suunitletud. Reklaamide suunitlemine ehk sihtimine võtab arvesse erinevaid aspekte kasutaja kohta ning pakub talle tooteid ning teenuseid, mis võiks talle enim huvi pakkuda. Selle protsessi eesmärgiks on viia kokku õige pakkuja ning nõudja turul. Ajalooliselt on reklaamide sihtimine kindlale publikule eksisteerinud pikalt enne uue meedia saabumist. Enne interneti levikut kasutati selleks vaid teisi kanaleid nagu trükimeediat (ajalehed ja ajakirjad), postreid ja reklaamtahvleid, audiot (raadio), televisiooni ning füüsilisi otsepostitusi (kirjade ja postkaartide saatmine). Neid kanaleid nimetatakse ka traditsiooniliseks meediaks. Reklaamid traditsioonilises meedias on ettevõtete jaoks kulukad. Näiteks 4 nädala reklaamtahvli (ingl. k. billboard) rent New Yorki Time Square’il 2018. aastal maksis 2,5 miljonit dollarit [9]. Sellel tahvlil on vaieldamatult lai haare arvestades kui palju turiste igapäevaselt sellest asukohast läbi käivad. Kuid lähemal analüüsil on tegu väga ebatäpse sihtimisega kui püstitada küsimused nagu: “Kui palju sealt läbi käivaid inimesi vaatab just selle reklaami hetkel tahvlile?” “Kas inimesed, kes sealt läbi käivad on huvitatud tootest, mida reklaamitakse?” jne.

Suunitletud reklaam internetis

Alates interneti laiahaardelisest levikust hakati aina rohkem uurima kuivõrd tulus ning efektiivne on reklaam traditsioonilises meedias versus uues meedias. Bergemann ja Bonatti on näiteks välja töötanud matemaatilise mudeli, kuidas hinnata reklaamide sihtimise võimekust erinevates reklaamikanalites ning kuivõrd kuluefektiivne on selle tulemus [10]. Empiiriliselt on tõestatud, et uue meedia võimekus reklaame sihtida on oluliselt parem kui traditsioonilises meedias ning sellest tulenevalt on interneti levik mõjutanud traditsioonilise meedia hindu. Seda on kindlasti ka mõjutanud traditsioonilise meedia haarde vähenemine. Samas on ka välja tulnud, et reklaamimine erinevate kanalite kaudu kinnistab toote teadlikkust ning atraktiivsust tarbija jaoks ning reklaami nägemine mitmel korral pigem soodustab selle konverteerumist ostuks.[11] Reklaamide suunitlemine on internetis oluliselt lihtsam kui traditsioonilise meedia puhul tänu sellele, et internetis ringi liikumise alusel on võimalik tarbija kohta koguda rohkem ning täpsemat informatsiooni, mille järgi teda kategooriatesse jaotada ning kuvada talle pakkumisi, millele ta on kõige vastuvõtlikum.

Reklaami sihitamine

Sihtgruppide koostamine suunitletud reklaamide pakkumiseks võtab arvesse mitmesuguseid parameetreid [12]:

  • Demograafiline sihtimine - vanim ja enimkasutatud kontseptsioon. Tarbijaid defineeritakse vanuse, soo, sissetuleku, ameti ja perekonna suuruse järgi
  • Sisuline sihtimine - on rohkem seotud toote kui tarbijaga. Kasutajale näidatakse reklaame, mis omavad otsest seost tarbitava sisuga. Näiteks kosmeetika reklaamid ilublogi juures.
  • Käitumuslik sihtimine - reklaamide kuvamine vastavalt tarbija interneti kasutuse ajaloole. Näiteks kasutajale pakutakse youtube’i vaadates veebikaubamaja tooteid, mida ta on eelnevalt külastanud.
  • Geograafiline sihtimine - reklaamide kuvamine vastavalt tarbija asukohale. 
  • Päevaosa sihtimine - reklaamide kuvamine kindlal perioodil päevas. See on leidnud kasutust peamiselt raadio ning televisiooni puhul, kuid ka näiteks mobiili reklaamides. Näiteks saadavad mõned kojuveo rakendused push sõnumeid mobiilidele lõuna ning õhtusöögi aegadel.
  • Huvide põhine sihtimine - Interneti kontekstis on see sarnane käitumusliku sihtimisega. Tarbija huvi indeksit arvutatakse vastavalt kui tihti ta kindla teemaga seotud lehti külastab, kaua seal viibib ning kas leht lisatakse järjehoidjatesse.
  • Ostude põhine sihtimine - tarbija ostukäitumise järgi veebis uute reklaamide kuvamine. Hiljuti välja töötatud reklaamide suunitluse meetod, mis on aktuaalne just internetis ning arvestab lisaks tarbija ostudele ka psühholoogilisi aspekte nagu brändilojaalsus, kas tarbija kaldub impulssostudele jne.

Igal eelmainitud reklaamide sihtimise meetodil on oma aeg ja koht turunduses ning nad erinevad eelkõige oma efektiivsuse ning hinna poolest (st. kuivõrd lihtne on andmeid koguda).

Sihitud reklaamid Facebooki näitel

Kaks vaieldamatut giganti sihitud sisu/reklaamide pakkumises tarbijale on Google ja Facebook. Nende edu põhjus on lihtne - nende teenuste kasutamisel annab tarbija enda kohta vabatahtlikult informatsiooni ning selle info alusel on loodud algoritmid, mis loovad aina täpsemaid kasutaja profiile. Arvestades, et näiteks Facebookil on 2022. aastaks üle miljardi aktiivse kasutaja, siis analüüsitav andmehulk on arvestatav ning kasvab eksponentsiaalselt kasutajate arvu tõusuga. Facebook oli 2021. aasta seisuga suurima andmevaramu omanik, mis sisaldab üle 300 petabaiti suurandmeid. Selleks, et suhelda sellise andmehulgaga töötas Facebook välja eraldi SQL mootori nimega Presto, mille abil tehakse varamusse üle 30 000 päringu päevas. Samuti kasutatakse seda ka masinõppeks ehk selle abil õpib Facebooki sihtimise algoritm aina täpsemalt üksikkasutaja profiili koostama ning teda kategooriatesse jagama. [13] Facebooki tarbijate sihtimise algoritmi kasutab nii Facebook ise kui ka Instagram - need kuuluvad mõlemad nüüd ühise brändi Meta alla. Samuti on kasutusel ühine reklaamide haldusplatvorm, mis võimaldab sama reklaammaterjali avaldada mõlemal platvormil. See on üks intelligentsemaid lahendusi sisu ja reklaamide serveerimiseks ning teinud aastatega olulisi edusamme. Samuti on selle andmeanalüüsi peale ehitatud efektiivne turundusmudel, mis võimaldab ettevõtjatel saavutada väiksemate kuludega suurendada oluliselt jälgede (impressions) konverteerimist ostudeks. Oluline ei ole ainult sattuda võimalikult suure publiku silme alla vaid sihtgrupini, kes suurema tõenäosusega sooritab ka reklaami alusel ostu. [14] Lisaks ettevõtete soovidele reklaamide sihtimisel võtab Facebooki algoritm reklaamide näitamisel arvesse ka lisafaktoreid nagu reklaampostituse kvaliteet ning kasutaja eelnevat suhtlust sarnaste reklaamidega. Kõnealuste algoritmit kood on alati ärisaladus - selle töötamise üldpõhimõtted on kirjeldatud platvormi enda reklaammaterjalides ning kasutajapoolsete testide tulemusena. See, kuidas käib reaalne elu kapoti all ei ole ettevõtteväliselt teada kellelegi. [15]

Sihitud reklaamide ohud ja nende reguleerimine

Sihitud reklaamidega kaasnevad veebis aga ka tõsised ohud, kui ettevõtted kasutavad neid ebaausatel viisidel, et leida haavatavaid sihtgruppe ning levitada eksitavat või valeinformatsiooni, mis aktiivselt kahjustab tarbijat. Näiteks võivad MLM (püramiidskeem) ettevõtted sihtida finantsraskustes inimesi (töötud, üksikemad jne) või dieedi preparaatide tootjad toitumishäiretega inimesi. Samuti on moraalne hall ala poliitilised reklaamid ning LGBT kogukonna sihtimine kristliku propagandaga. [16] Seoses veebiturunduse eksponentaalse kasvuga viimastel aastakümnetel on vaikselt hakanud järgi jõudma sellele ka seadusandlus ning tarbijate teadlikkus. Reklaamidel sotsiaalmeedia platvormidel levitatav tasuline sisu peab olema vastavalt märgistatud ning eristatav orgaanilisest sisust. Näiteks on Facebooki sponsoreeritud sisu detailvaates võimalik isegi näha, et millistel põhjustel algoritm seda sisu tarbijale näitab ning teha valik kas samalaadset sisu soovitakse näha ka edaspidi. Välja on töötatud mitmed veebilehitseja lisad nagu Ad-Blocker, mille abil on võimalik blokeerida enamus reklaamist internetis. Ning lõppude lõpuks on keskmine internetikasutaja teadlikum ning küünilisem talle pakutava sisu suhtes ükskõik millist kanalit kaudu. Kokkuvõtlikult võib öelda, et suurandmete analüüs ning selle alusel reklaamide sihtimine on suur ning tulus äri ning selle arengusse on agressiivselt panustanud suured tehnoloogia gigandid nagu Google ning erinevad sotsiaalmeedia platvormid. Sellest tulenevalt on reklaamsisu veebis oluliselt personaalsem ning aktuaalsem igale tarbijale. Aga nagu iga süsteemi puhul on leitud ka võimalused kuidas seda ekspluateerida omakasu eesmärgil.


Andmeteadus ja otsingumootorid

Otsingumootorite olemus

Interneti otsingumootorite ja andmeteaduse olemuse sarnasus sõltub meetoditest, mida mõlemad kasutavad ning valdkondadest, kuhu meetodid kuuluvad. Ühisosaks on matemaatika, statistika ning selle alaliigid. Mõlemad on rohkemal või vähemal määral seotud informaatikaga, veebitehnoloogiatega ning võrgutehnoloogiatega, kuid andmeteadus keskendub olemasolevatest andmetest uute teadmiste tuletamisse. Peamine ühisosa peitub andmete süstematiseerimises. Siin kirjeldatud algoritmid ja meetodid on ainult väike osa reaalselt otsingumootorites kasutusel olevatest lahendustest. Google otsingumootor kasutab hinnanguliselt üle 200 algoritmi, nt Panda, Penguin, Hummingbird, Mobile, RankBrain, Medic, Bert. Projektinimede taga peituvad matemaatilised ja statistilised meetodeid ning algoritmide kogumid on kommertsiaal-lahendustes lähedalt kaitstud ärisaladus. Küll aga on tänu patenteerimisele ning teadustööle teada mitmed meetodid ja algoritmid, mida teostustasandil reaalselt kasutatakse. Allpool tuleb juttu mõnedest interneti otsingumootorite töö kategooriatest ning põhiprintsiipidest nagu andmete omandamine, indekseerimine ja hindestus ning mõningatest algoritmidest ning matemaatilistest teoreemidest, mida info töötluseks kasutatakse.

Indekseerimine otsingumootorites

Indekseerimine on olemuselt vana nähtus (ca 5000 aastat). Interneti otsingumootorite töö aluseks on indeksite kasutamine. Internetis oleva lehe sisu indekseeritakse, piltlikult tähendab see suurt sõnaraamatut. Sisestades otsingumootorisse võtmesõna, otsitakse sõnaraamatu võtmesõnale vastavad väärtused (internetileheküljed), mis on eelneva indekseerimise tulemusel moodustunud.

caption
caption

Pilt 1. Ülemine pilt kajastab kujuteldavat veebi 3 veebilehega ( 1, 2 ja 3). Alumine pilt illustreerib, kuidas otsingusõnad veebilehtede kaupa indekseeritakse. [17]

Üksikute sõnade puhul (nt ‘cat dog’) tehakse kaks nimekirja (1, 3) ja (2, 3) ning moodustatakse nimekirjade ühisosa (3). Fraaside otsimiseks kasutatakse otsingumootorite puhul jutumärke, tähistamaks et võtmesõnad peavad esinema koos. Seetõttu omistatakse igale sõnale lehe indekseerimisel väärtus. Pilt 1 näitab, et otsingu tulemusel moodustub kaks andmekogumit (1-2, 3-2) ja (1-3, 3-7). Sobiva vastuse leidmiseks kasutab otsingumootor eelnevat meetodit, leides kogumi elementide esimese positsioon (lehe indeksite) ühisosa ning seejärel, teades et “cat dog” asetsevad kõrvuti, kaks teineteisega kõrvuti olevat numbrit. Sobivaks tulemuseks on lehekülg 1. Miljonite võimalike tulemuste kuvamine otsustatakse relevantsuse järgi. Üheks lehe olulisuse otsustamise meetodiks on NEAR päring, mida otsingumootor kasutaja eest varjatult teeb. NEAR meetodi põhimõte seisneb selles, et tüüpiliselt on leheküljed, millel esinevad otsingufraasi sõnad teineteisele lähemal, otsijale kasulikumad. Sarnaselt lähestikustele päringutele kasutavad otsingumootorid metasõnasid, indekseerides lisaks sõnadele ka näiteks HTML-i <> tag-ide positsioonid ning võrreldes võti-väärtuspaare on võimalik hinnata, kas otsitav sõna või fraas sisaldub nt lehe pealkirjas. Lisaks tag-idele on võimalik seda kasutada hüperlinkide sisu, piltide metaandmete või muu sisu järjendisse lisamiseks. Võtmesõna esinemine nt pealkirjas võib omakorda tõsta lehekülje relevantsust indeksis. [17]

Hindestamine otsingumootorites

Relevantsuse otsustamise juures oli suurimaks edasiviivaks jõuks L. Page’i ja S. Brin’i PageRank (PR) algoritm [18]. Enne Google võidukäiku töötas prioritiseerimine hüperlinkide kokku lugemise teel: leheküljed, millele kõige rohkem hüperlinkidega viidati, olid otsingu tulemuste seas eespool. PageRank lisas statistikal põhineva summutusfaktori d ning hakkas arvesse võtma seda, milline oli edasi viitava lehe kaal (weight). Teisisõnu olid lehed, millele nt Yahoo! pealeht viitas, kõrgema PR väärtusega. [18] Juhul kui hüperlingid moodustavad aga suletud süsteemi, siis on võimalik, et algoritm jääb veebilehti indekseerides tsüklisse, mille tulemusel suureneb tsüklis osalevate lehtede väärtus lõpmatuseni. Selle olukorra vältimiseks võttis PR kasutusele summutusväärtuse d, mis PR-i alguspäevil oli vaikimisi 15%. Vaikeväärtust kasutatakse koos random surfer algoritmiga, mis tähendab, ühelt lehelt navigeerib suvalisele teisele lehele hüperlingi kaudu nn surfaja ja igal hüppel ühelt lehelt teisele, on tõenäosus 0.85, et navigeerimine lõpetatakse ning alustatakse uuesti suvaliselt valitud lehelt. See peaks simuleerima keskmist interneti kasutajat. Nii arvutatakse lehtede PR väärtused ning ühtlasi kasutatakse autoritaarsuse kui ka hüperlinkide hulga ideed. [17]

Otsingumootorid andmeteaduses

I.Y. Song ja Y. Zhu poolt välja pakutud andmeteaduse elutsüklimudeli (pilt 2) põhjal järgivad otsingumootorid andmete käitlemisel sarnaseid tööpõhimõtteid. Andmete ettevalmistamise faasis toimub andmete hankimine ja hindamine, puhastamine, teisendamine ning andmete kvaliteedi kontrollimine. [19]

caption
caption

Pilt 2. Andmeteaduse elutsükkel. [19]

Eelpool toodu eest vastutavad veebirobotid e ämblikud (web crawler), kes hüperlinkide kaudu veebilehtede vahel liiguvad ning lehtede sisu automaatselt indekseerivad, järgides robots.txt reegleid. Ämblikud kasutavad GET ja POST päringuid, korduvkülastuste puhul võrreldakse HEAD päringu viimase muutuse (Last-Modified) väärtust, seega ei ole alati vaja kogu veebilehe sisu uuesti küsida. Üheks indekseerimise meetrikaks on lehe vanus, mida arvutatakse integraalfunktsioonina. Lisaks kasutavad veebiotsingumootorid pidevalt uuenduvate meediumite nagu uudised, blogid, videod indekseerimiseks RSS “lugejate” abi. Internetist leitavate HTML, XML, PDF, MS Word ja PowerPoint dokumentide konverteerimise eest tekstikujule vastutavad erinevad utiliidid. [20]

Song & Zhu mudeli neljas osa - mudeli planeerimine - on kõige lähemalt seotud erinevate matemaatiliste meetoditega. Mudeli planeerimine Song & Zhu järgi hõlmab meetodite, tehnikate ja töövoo kindlaks tegemist. Peamiste muutujate valimist ja nendevaheliste korrelatsioonide määramist. Veebi otsingumootorite puhul on mudeli planeerimine ning andmete ettevalmistamine lähedalt seotud. Enamus otsingumootoreid arvutavad välja relevantsuse tõenäosuse, kuid andmete saamiseks on ka teisi mudeleid. Vanimad on Boole’i ja vektorruumi mudel, mis on tänapäevaks asendatud tõenäosuslike mudelitega. Boole’i mudel jaotab veebilehed kindlatesse kategooriatesse, nt kasulik, kasutu, ebakindel ning kasutab operaatoreid nagu AND, OR, NOT. Tänapäeval on Boole’i mudeli puhul täpsete vastete saamiseks kasutusel erinevad meetodid (proximity operator, wildcard characters, regulaaravaldised) [20]. Koostöös elutsükli eelmise tasandi elemendi, andme klassifikaatoriga, toimub andmehulga edasine töötlus.

Klassifikaatorid, mida veebilehtede otsingumootori kasutatakse, jagunevad kaheks: klassifikatsiooni algoritmideks ja rühmitamise algoritmideks. Esimesel juhul on tegu järelevalvega õppel põhinevate tehnikatega, millega klassifitseeritakse dokumendid ette-määratud siltide põhjal. Nendeks siltideks on tüüpiliselt aktuaalsed kategooriad “sport”, “poliitika”, “äri” jne. Teisteks enam-levinud klassifikatsiooni näideteks on dokumentide eraldamine spam-ist ja dokumentide mitte-sisulise osa identifitseerimine, nt reklaam. Teisel juhul on tegu järelvalveta õppel põhinevate meetoditega. Rühmad (klastrid) ei ole ette määratud, seega on ka klassifikatsiooniga võrreldes rühmitamise eesmärgid hägusemad. Pärast rühmitamist toimub andmete hindamine (evaluation). Rühmad jagunevad monoteetilisteks ja polüteetilisteks. Levinud rühmitamise algoritmid on hierarhiline, k-keskmiste ja k-lähima naabri rühmitamine. [20]

Talletatud andmetest temaatilise informatsiooni saamiseks (retrieval) on kasutusel mitmeid erinevaid mudeleid. Üheks oluliseks mudeliks on spämmi identifitseerimine ning andmete puhastamine. Selleks on kasutusel tingimuslik tõenäosus P(A|B) ja Bayesi teoreem otsustamaks kategooriate üle, samuti mitmemuutuja-Bernoull’i valem ja binoom-muutuja, normaaljaotuse tihedusfunktsioon ning SVM-id (support vector machines) [20]. Konteksti loomiseks tõenäosusel põhinevate mudelite puhul on kasutusel Markovi mudel, mis on integreeritud ka PageRank-is, kuid otsingumootorites kasutatakse laiemalt ka HMM-i (Hidden Markov Model). [20], [21]

Interneti otsingumootorid tegelevad, sarnaselt andmeteaduselegi, suurandmetest väärtuslike mustrite tuvastamise ning kaevandamisega, esitades kasutajale viite andmete asukohale, kuid ka ise erinevate allikate andmeid graafidena kokku võttes. Otsingumootorite töös ei ole Song ja Zhu poolt välja pakutud andmemudeli elutsükli etappide piirid rangelt määratletud. Nii võib kasutada andmete ettevalmistamist, mudeli planeerimist ja ehitamist läbisegi, korrates kolmandat ja neljandat astet tsükliliselt Samuti ei ole välistatud paralleliseerimine.


Andmeteadus ja pildituvastus

Pildituvastuse areng ja olemus

Pildituvastus ehk arvuti oskus piltidelt ja videotelt objekte tuvastada tekkis külltki ruttu peale esimeste arvutite kasutuselevõttu. Pildituvastuse eesmärk on jäljendada inimeste võimet objete tajuda ja neid tuvastada. Objektid võivad asuda üksiku pildi peal või pildiseeriate peal, erinevatest vaatepunktidest tehtud piltide peal või tegu võib olla ka näiteks mitmemõõtmeliste andmetega, mida toodavad meditsiinilised seadmed (skannerid). [22] 1960. aastate lõpus hakati ülikoolides tegelema pildituvastuse (ing. k. computer vision) arendamisega seoses tehisintellekti (ing. k. artificial intelligence) uurimisega. Tehisintellekti eesmärgiks oli (on) ehitada robotid, mis suudaksid käituda inimesesarnaselt ning selle üheks osaks on objektide tuvastamine ja analüüsimine. 1966. aasta MIT suveprojekti raames arvati, et selle saavutamiseks piisab lihtsalt sellest, kui roboti külge panna kaamera ja käskida robotil kirjeldada, mida ta näeb [23]. Aastakümneid hiljem võime öelda, et selleks on vaja palju enamat.

Erinevalt tavalisest pilditöötlusest soovib pildituvastus saavutada objekti kolmemõõtmelist kuju ning 1970. aastatel töötatigi välja mitmed tänapäevalgi kasutust leidvad algoritmid ja meetodid (nt piirjoonte tuvastus, joonobjektide sildistamine või objekti liikumise ennustamine). 1980. aastatel võeti pildituvastusel kasutusel mitmed matemaatlised analüüsimeetodid ja kvantitatiivsed näitajad. 1990. aastad tõid arenguid objektide 3D rekonstrueerimise vallas – võeti kasutusele juba teistes uurimisvaldkondades (nt fotogramm-meetrias) teada-tuntud meetodi (nt kaamera kalibreerimisega seotud meetodid). 1990.aasta lõpus tomusid kiired arengud arvutigraafika ja pildituvastuse vallas – pildipõhine renderdamine, panoraampiltide kokku “õmblemine” jms. [24]

Pildituvastusel võib olla palju laiem kasutusvaldkond, kui arvata oskamegi. Näiteks võib pildituvastust kasutada taaraautomaatides ribakoodide skaneerimisel aga ka väga keerulistes tehisintellekti projektides, kus püütakse jäljendada päriselulist inimkäitumist. Järgnevalt vaatamegi levinumaid piltituvastuse rakendusvaldkondi.

Teksti tuvastamine piltidelt

Tekstituvastuse algusajaks võib märkida isegi arvutieelse aja – 20. sajandi alguses leiutas Emanuel Goldberg masina, mis suutis tähti lugeda ja selle konverteerida telegraafkoodiks. Hiljem kasutas ta oma leiutist mikrofilmide peal, püüdes tuvastada nende pealt tekstilõike. 1931. aastal sai ta oma leiutatud masinale patendi, mille hiljem omandas IBM. [25]

Tänapäeval kutsutakse taolist meetodit optiliseks tähetuvastuseks (ing. k. optical character recognition (OCR)). Nutitelefonid – ja prillide tulekuga on internetiga ühendatud seadmed võimelised kasutama OCR-i meetodit piltidel, mida jäädvustatakse seadme enda kaameraga. Ka seadmed, milles endas pole OCR võimekust, kasutavad siiski OCR API-t, et piltidelt teksti ära tunda [26] . Tekstituvastus on tänapäevastes rakendustes väga laialt levinud, isegi niivõrd, et me enam ei mõtle selle peale. Näiteks tõkkepuuga parklasse sisenedes on väga suur tõenäosus, et just seal on kasutusel OCR meetod minu auto numbrimärgi kindlaks tegemisel. Või reisile minnes kui lennujaamas peate passi skaneerima, siis taustal toimub ribakoodi tuvastamine ja selle alusel informatsiooni leidmine minu isiku kohta.

Paljudes arhiivides on vajalik vanu paberdokumente skaneerida ning ka seal on kasutusel erinevad programmid (nt Google Docs OCR, ABBYY FineReader, Transym), mis suudavad skaneeritud dokumendilt kas tähti või lausa tekstiridu tuvastada [27].

Objektide tuvastamine piltidelt

Enamusele seostub pildituvastus just objektituvastusega. Olgu selleks siis näiteks auto, liiklusmärk või ka inimene. Objektituvastusega on tegeletud samuti esimeste arvutite kasutuselevõtust ja tehisintellekti uurimisest alates. Üldjoontes jagunevad objektituvastusmeetodid kaheks: närvivõrkudel ja mittenärvivõrkudel põhinevad meetodid. Viimane tähendab seda, et vajalik on objektide (mida soovitakse tuvastada) eelnev defineerimine kasutades selleks erinevaid meetodeid (nt Viola-Jones objektituvastusmeetod [28] või SIFT (ingl. k. Scale-invariant feature tranformation) [29]) ning saadud tulemust klassifitseeritakse näiteks SVM (ingl. k. Suppert Vector Machine) [30] meetodi abil kindlatesse kategooriatesse.

Närvivõrkudel põhinevad objektituvastusmeetodid suudavad aga nö alguses lõpuni teha objekti tuvastamise, ilma et oleks vajalik objektide eelnev defineerimine. Enamus närvivõrkudel põhinevaid objektituvastusmeetodeid töötab CNN (ingl. k. convolutional neural network) [31] põhjal.

Objektituvastuse alla lähevad ka näiteks näo- ja isikutuvastusmeetodid. Viimane nõuab aga korralikku ja andmerikast baasi iga isiku kohta. “Heaks” näiteks taolise süsteemi rakendamisel on Hiina, kes on süstemaatiliselt jälginud läbi turvakaamaerate inimeste liikumisi ja ehitanud üles väga laiaulatusliku süsteemi, millesse salvestatakse pea kõikide inimeste andmed, kes kaamerate vaatevälja satuvad. 2019. aastal lekkinud info kohaselt salvestab Hiina päevas ca 6.8 miljardit kirjet sellesse andmebaasi, mis on aluseks inimestele preemia- ja karistuspunktide määramisel [32].

Pildianalüüs meditsiinis

Kui meil on põhjust sattuda arsti juurde, siis pole üldsegi välistatud (oleneb muidugi arstile sattumise põhjusest), et ka meie keha peal kasutatakse pildianalüüsi meetoteid. Tegelikult on meditsiinivaldkond küllaltki suur rakendusvaldkond ning meditsiinilised uuringud võivad toota suurel hulgal pildimaterjali, mille läbi vaatamine ja töötlemine puhtalt inimsilmaliselt pole mõistlik ja kohati ka võimalik. Näiteks MRT (ingl. k. Magnent resonance imaging (MRI)), mis kasutab magnetvälja, et teha inimkehast väga detailseid pilte (nt ajust või siseorganitest) ning mille hilisem analüüs võib anda vastuse aju veresoonkonna haiguste või maksakasvaja kohta. Selleks, et arstidel oleks lihtsam saadud andmeid analüüsida, toimub andmete eelnev klassifitseerimine või näiteks mürainfo vähendamine. Meditsiinis on hulga teisi seadmeid, mille abil inimkeha uuritakse ja mis toodavad suurtes kogustes pildimaterjali, mida siis arvutil teatud algoritmi abil lastakse analüüsida (nt ultralaine pildid või röntgen ülesvõtted). [33]

Isejuhtivad sõidukid

Isejuhtivad masinad on kindlasti põnev nähtus, sest nad sisaldavad väga palju erinevat tehnoloogiat, mis peab suutma koos toimida. Isejuhtivad masinad peavad suutma enda ümbritsevat keskkonda tajuda piisavalt hästi, et teha õigeid otsuseid (kas pidurada, keerata vasakule või sõita edasi). Isejuhtivaid masinaid saab jagada 5-e kategooriasse [34]:

  • Tase 0 – autonoomsus puudub;
  • Tase 1 – käed roolil/jagatud vastutus;
  • Tase 2 – käed roolilt ära;
  • Tase 3 – juht (sõitja) ei pea ise enam silmadega jälgima, kuidas masin toimetab (ing. k. eyes off).
  • Tase 4 - juht (sõitja) ei pea ise enam mõtlema sellele, kuidas masin toimetab (ing. k. mind off).
  • Tase 5 – rool on valikuline aksessuaar auto juures.


Mõistagi on lõppeesmärgiks saavutada tase 5. 2021. aastal testis Toyota tase 4 autot Tokio olümpiakülas [35] ning Hondast sai esimene autotootja, kes sai ametliku tase 3 kinnituse oma toodetud masinale [36].

Ka Eestis on näiteks TTÜ arendamas isejuhtivat masinat [37] ning sõjatööstusettevõte Milrem on arendanud isesõitva roomiku [38], mis on isegi maailma mastaabis küllaltki unikaalne. Eesti ettevõte Starship Technologies arendab pakiroboteid, mis läbi tuisu ja tormi meile toitu kohale toovad (mis pole kindlasti nende peaeesmärgiks) [39].

Isejuhtivad masinad hõlmavad endast lisaks pildianalüüsile ka tekstituvastust (nt kiiruspiirangute märgid) ning sensoritena kasutatakse kaameraid, radareid ja lidareid. Mis teeb kokku ühe keeruka süsteemi, mille (edukas) koostoimimine pole kindlasti kergete ülesannete killast. Ka tänapäevased kõrgtehnoloogilised raketid on sellised, mis ei lenda etteantud koordinaadile vaid pigem teatud piirkonda ning toetudes mitmete sensorite (sh piltide) andmetele, leitakse analüüsi tulemusena õige sihtmärk üles [40].

Seega kokkuvõtteks saab öelda, et pildituvastus on meie ümber rohkem kui oskame esmapilgul arvata. Alustades taaraautomaatidest ja lõpetades kõrgtehnoloogiliste meditsiiniseadmete ja isesõitvate autodega. Kindlasti on siinkohal paslik märkida, et tähtis on silmas pidada inimeste privaatsust ning koguda andmeid ainult siis, kui neid on vaja. Teisest küljest teevad inimesed ise mitmete sotsiaalmeediapostituste abil võimalikuks tekitada arvutisüsteemidel inimese kohta küllaltki detailne profiil. Ehk siinkohal peaks mõtlema, miks ja mida me interneti paiskame.


Finantsandmete ja analüüsi võimendamine krediitkaardiriskide ja pettuste ohjamiseks

Krediidiriski olemus andmemaailmas

Pangandussektoris pakutakse tänapäeval kohandatud finantsteenuste andmiseks aina uudsemaid lahendusi. Hetkel võtab uuem generatsioon inimestest üha enam kasutusele digitaalseid makselahendusi ja sellega kaasnevalt peavad pangad tegema tehisintellektil põhinevate andmehalduslahendusi oma andmevoogudest üsna sisukaid järeldusi - selleks et saaks isikupärastada oma tarbijate seotust erinevate riskidega. Pole ebatavaline, kui finantsasutustes valitakse tihti ka andmete kogumise ja töötlemise kombineeritud lähenemisviisi, toimub mõne protsessi digiteerimise, automatiseerimise ja olemasolevatele süsteemide pidev uuendamine.[41]

Andmete kasv on digitaalpangandusse juurde toonud kaasa mahukate andmehulkade haldamise ja selle kaasnevate riskide hindamise töö. Näiteks on statistika järgi liitunud rohkem madalama sissetulekuga rühmi, seega võib krediitkaarditööstus ette näha potentsiaalset tarbijabaasi liitumisel kasvavat krediidiriski. Pankade jaoks on vajalik määrata selliste inimrühmade krediidiriski andmemudelite järgi, et ka potentsiaalse “riske tõotavad” kliendid saaksid kasutada võimalikke finantsteenuseid. Tõhusalt rakendatud andmesüsteem aitab ka turunduse ja müügi osakonda vahel teha koostööd krediidiriski osakonnaga, et pakkuda teenuseid uutele tarbijasegmentidele ja vähendada krediitkaartide kasutamisest tingitud riske.[42]

Krediidiriski analüüsimisel ja hindamisel on kasutusel näiteks mustrite tuvastamise kogum, mis võimaldab ennustada kliendi kohta, kas laen tasutakse õigeaegselt tagasi või mitte. Oluline on andmetöötluse tõhusus ja täpsus. Siinjuures on krediidiskoori loomisel kliendi hindamisel keskendutud peamiselt rikkumistele, kus toetutakse andmekogule kas laene makstakse tagasi või mitte.[42]

Seega on viimastel aastatel kasvanud kõige olulisemate pangandussektorite ning finantsasutuste andmetöötluse kriteeriumite hulk, mis on olnud maksejõuetusest tingitud kahjust ja puudulike riskipositsioode hindamisest.

Krediidiriskide leidmine igapäeva andmekogudest

Arvutitehnoloogia edusammudega on muutunud tänapäeval andmete kogumine ja selle töötlemine – institutsioonides on suurenenud nõudlus erinevate andmete analüüsi ja andmete klassifitseerimise järele. Masinõppe ja andmekaeve raskendamine on selles valdkonnas kõige populaarsemad tehnikad. Näiteks kasutatakse tehisintellekti varjatud seosete leidmiseks klientide juures, aitamaks paljastada andmebaasis esinevad kasutus- või käitumismustreid [42]. Sellist süsteemi nimetataksegi andmekaevesüsteemiks.

Panganduses oli pikka aega puuduv (krediidi) reitingumudelite täpsus ja seega oli laenuandjatel raske ennustada laenuvõtja suhtumist laenu regulaarsele tagasimaksmisele või maksejõuetuse tõttu täitmata jätmisele. Ehk täpsete tulemuste saamiseks on tänapäevaste edukate krediidiskoori saamiseks kasutusele võetud erinevad andmekaeve mudelid, mis võimaldavad ettevõtetel paremini hinnata investeerimisriske ja üksikute klientide riskiprofiili. Panganduse valdkonnas on analüütikud püüdnud lahendada klientide krediidiriski hindamise probleemi, kasutades igaüks erinevat lähenemistehnikat ja igaüks neist on püüdnud esitada üha täpsemat andmekaeve mudelit.

Näiteks on Lähis-Ida pangandussüsteemis kasutusel andmekaevesüsteem, mida saab liigitada staatilisks ja dünaamiliseks. Staatilised andmed viitavad fikseeritud andmekogumile või andmetele, mis jäävad pärast kogumist samaks. Dünaamilised andmed seevastu muutuvad pärast salvestamist pidevalt, et säilitada nende terviklikkus.[43]

Olulisemad andmekaeve algoritmide ning süsteemide kirjeldused

Alljärgnevalt on toodud mõned peamised andmekaevalgoritmid, mis on kasutusel ka finantssektoris. Tegu pole lõpliku nimekirjaga vaid autori valikuga.

ANFIS - Adaptiivne võrgupõhine hägusate järelduste süsteem (Adaptive Network-based Fuzzy Inference System)

ANFIS on adaptiivsete “võrkude” klass, mis hõlmab nii närvivõrke kui ka häguse loogika põhimõtteid. Närvivõrgud kasutavad tulevaste väärtuste ennustamiseks andmekogumit, mis genereeritakse juhtsignaalide või sisendite poolt. Lühidalt öeldes kasutab häguloogika parima võimaliku mudeli loomiseks matemaatilise ennustamisjõu ja inimese subjektiivsuse kombinatsiooni. Kuigi seda ei peeta inimeste interaktiivsuse komponendi tõttu masinõppeks, on hägusloogika laiendus piiranud inimese subjektiivsust ja lisanud hägusloogika skeemile tehisnärvivõrgu ennustamisvõimet. Seda lähenemisviisi nimetatakse adaptiivseteks neuro-fuzzy järeldussüsteemideks (ANFIS).[44]

ANN - Kunstlik närvivõrk (Artificial Neural Network)

Kunstlik närvivõrk (ANN) on süvaõppe algoritm, mis tekkis ja arenes välja inimaju bioloogiliste närvivõrkude ideest. Katse simuleerida inimaju tööd kulmineeruski ANN-i tekkega. ANN töötab väga sarnaselt bioloogiliste närvivõrkudega, kuid ei sarnane täpselt selle toimimisega. ANN-algoritm aktsepteerib sisendina ainult numbrilisi ja struktureeritud andmeid. Struktureerimata ja mittenumbriliste andmevormingute (nt pilt, tekst ja kõne) aktsepteerimiseks kasutatakse vastavalt konvolutsioonilisi närvivõrke (CNN) ja rekursiivseid närvivõrke (RNN).[45]

FS / FSS – Hägusstatistika süsteem (Fuzzy statistics system)

Häguloogika tuleneb mitmeväärtusliku andmeloogika uurimisest. Kui tavaline loogika tegeleb absoluutse tõe väidetega (nt "Kas see objekt on punane?"), siis hägusloogika käsitleb subjektiivsete või suhteliste määratlustega komplekte, nagu "lühike", "suur" või "ilus". Sellega püütakse jäljendada viisi, kuidas inimesed probleeme analüüsivad ja otsuseid langetavad – ehk viisil, mis tugineb pigem ebamäärastele või ebatäpsetele väärtustele kui absoluutsele tõele või valele. Hägustatistika viitab tavaliselt hägusale hulgateooriale – mitmetähenduslike, ebatäpsete või subjektiivsete andmete käsitlemisele ning traditsioonilise andmestatistikameetodi kombinatsioonile. Praktikas võimaldavad need kogumid olla kõik "tõelise" tingimuse osalised väärtused. Selle asemel, et nõuda, et kõik väited oleksid absoluutselt tõesed või absoluutselt valed, nii nagu klassikalises loogikas, võivad hägusloogikas tõeväärtused olla mis tahes väärtused nulli ja ühe vahel. Selline väärtuste kogum loob algoritmidele võimaluse teha teistsuguseid otsuseid andmevahemikke vahel, mis pole ära määratud kindla “1” või “0” baasil.[46]

MLP - Mitmekihiline Perceptron võrk (Multilayer Perceptron network)

Mitmekihilised pertseptronid või lühidalt MLP-d on klassikaline närvivõrgu tüüp. Need koosnevad ühest või ka mitmest neuronikihist. Andmed sisenevad alguses sisendkihti, seal võib olla üks või mitu “varjatud kihti” ja saadud ennustused saadetakse väljundkihile. MLP-d sobivad klassifitseerimise prognoosimisprobleemide lahendamiseks, kui sisenditele on määratud andme klass või “silt” (label). Sisuliselt on need loodud (tagasimineku) regressiooniprognoosiga seotud probleemide jaoks, kus sisendite kogumi alusel ennustatakse reaalväärtuse suurust. Andmed esitatakse sageli tabelivormingus, näiteks CSV-failis või arvutustabelis.[47]

BN - Bayesi võrgud (Bayesian networks) Bayesi võrgud on tõenäosusliku graafilise mudeli tüüp, mida saab kasutada andmete ja/või eksperdi arvamuse põhjal erinevate mudelite koostamiseks. Selliseid mudeleid saab kasutada näiteks keerukate ülesannete lahendamisel: kõrvalekallete või anomaaliate tuvastamine, diagnostika tegemine, automatiseeritud ülevaade protsessidest, ajas läbitud andmete järgi ennustamine ja otsuste tegemine ebakindlates tingimustes. Seda on kasutatud peamiselt nelja peamise analüütikavaldkonnas – kirjeldava analüütika, diagnostilise analüüsi, prognoosiva analüüsi ja ettekirjutava analüüsi osas.[48]

SVM - Toetav vektormasin (Support vector machine)

Tugivektorimasinad (SVM-id) on juhendatud õppemeetodite kogum, mida kasutatakse klassifitseerimiseks, regressiooniks ja kõrvalekallete tuvastamiseks. Tugivektorimasinate eelised on järgmised: Tõhus suurte mõõtmetega ruumides. Endiselt efektiivne juhtudel, kui mõõtmete arv on suurem kui proovide arv.[49]

Kuidas andmekaeve algoritmid töötavad?

Väärkasutuse tuvastamisel analüüsib ning võrdleb süsteem omavahel tavalisi ning võltsitud tehinguid, sealt edasi ka tuvastab teadaolevad või leitud pettused. Andmesüsteemis võetakse aluseks mõned “normaalsed tehingud”, mida kasutatakse masinõppes tehisintellekti poolt, et võrrelda anomaaliaid, millega on suur potentsiaal avastada uusi pettusi. Hiljuti tekkis uus meetod, mis kasutab anomaaliate tuvastamise tehnikat. Meetodis eraldatakse kaardiomanik igapäevaste summeeritud ostude loomupärase mustri krediitkaardi kasutuse ajasloost ning kasutab sellist mustrit varasemaks pettuste tuvastamiseks. Andmed võetakse algsest tehinguandmebaasist ja võrreldakse saadud anomaaliaga, kasutades sealjuures hägusate seoste reeglite kaevandamisel saadud tulemusi või väljundeid.

Näiteks on leitud, et BN annab parema tulemuse kui ANN, mõlemaid meetodeid kasutatakse pettuste tuvastamiseks. BN-I meetod on väga tõhus ja optimeerib täitmisaega ning vähendab liigset reeglite genereerimist. Esialgne info iga sissetuleva tehingu kohta saab arvutada, kasutades mitut truefactor tõendit reeglipõhisest komponentidest. Andmete treenimiseks närvivõrgus kasutatakse enamasti aga tugivektori masinat (SVM-i). Seda kasutatakse uute tehingute ennustamiseks, kas tegemist on pettusega või mitte. Murekohaks on praegune aina kasvav pettuste ja identiteedivarguste oht, kuna isegi rangete juurdepääsutõkete ning sh nutikamate tarbijate korral on andmevargused pidev oht ja krediitkaarditööstus ka seetõttu pidevalt kannatab.

Krediitkaarditeenuseid pakkuvatel finantsasutustel on suur väljakutse kaitsta oma tarbijate andmeid ja vähendada ohtu, et andmed satuks küberkurjategijate kätte, seetõttu peaks koostööd tegema ainult usaldusväärsete teenuspakkujate või partneritega, kes selliseid andmebaase haldavad. Riskikontrolli saab oluliselt parandada analüütiliste tehnikate, näiteks krediidi kogumise analüüsi ja järgmise põlvkonna stressitestide kasutamist.

Krediitkaardi andmestikus on kõige olulisem siduda omavahel süsteemid või tehnikad, et toimiks andmete täpne töötlemine, millega tuvastamaks potentsiaalseid pettusega seotud isikuid või krediidiriskid. Mitme süsteemi korraga kasutamisel võib andmehulkade suurenemisel kaasneda mälumahu kasutusmahu vajadus. Seetõttu on neid süsteeme vaja pidevalt ka uuendada. Selliste süsteemide, andmekaeve ja algoritmide edendamise eesmärk ongi leida reaalajas pettustehinguid (suure voogedastusega reaalajas) esinevate andmete jaoks.

Kokkuvõtvalt andmekaevest finantssektoris

Tehisintellekti ja masinõppe ajastul on praegu analüüsitööriistad jõudnud ka finantsmaailmas täiesti uuele tasemele. Krediitkaardipettuste avastamine on muutumas oluliseks uurimisteemaks, kuna erinevat tüüpi rünnakud sagenevad murettekitava kiirusega. Sellega võitlemiseks on võetud kasutusele suure andmemahu töötlemiseks erinevaid algoritme ning andmekaevesüsteeme, et saada reaalajas andmeid erinevatest allikatest.

Erinevaid andmete hankimise mudeleid ning süsteeme saab kasutada pangapettuste vastu võitlemiseks, tagamaks seesuguste pettuste õigeaegse avastamise. Andmeanalüütika võib pakkuda terviklikku lahendust, mis lahendab kõik taolised väljakutsed.

Käsitsivigade vähendamiseks on saadaval automatiseeritud tööriistad, mis säästab oluliselt aega ja vaeva. Lisaks sellele saab ettevõte keskenduda oma peamistele ärivaldkondadele; hoiatab asjaosalisi õigeaegsel ja säästes sellistest ohtudest kaasnevaid tohutuid kulusid ja hoiab kokku ressussi.


Kokkuvõte

Nagu eelolevast lühikesest ülevaatest näha saab, siis andmeteadus on tõesti lai valdkond. Pidevalt andmeid juurde tootvas maailmas on oluline nende andmetega midagi mõistlikku peale hakata ja inimestele kasu toota. Andmeteadust rakendame me kaudselt igapäevaselt, näiteks internetist otsides või tasulisse parklasse sisse sõites, kus meie auto registreerimismärk tuvastatakse ja salvestatakse. Mõneti tüütud reklaamid internetilehitsejates on samuti üks näide andmeteaduse ja suurandmete rakendamisest, et just meile (teenuse pakkuja arvates küll) kõige õigem reklaam suunata. Samuti on järest enam rõhku pandud andmete analüüsimisele finantssektoris, et avastana näiteks krediidipettureid või muid kahtlaseid tehinguid.


Viidatud allikad

  1. https://taltech.ee/uudised/aasta-keeleteoks-valiti-taltechi-konetuvastus-ja-tartu-ulikooli-masintolge." Kasutatud 02.05.2022.
  2. https://www.techtarget.com/searchcustomerexperience/definition/speech-recognition." Kasutatud 02.05.2022.
  3. https://en.wikipedia.org/wiki/Speech_recognition#Models,_methods,_and_algorithms." Kasutatud 02.05.2022.
  4. https://itchronicles.com/speech-to-text/speech-recognition-algorithm." Kasutatud 02.05.2022.
  5. https://www.techtarget.com/searchcustomerexperience/definition/speech-recognition." Kasutatud 02.05.2022.
  6. https://www.riigikogu.ee/pressiteated/muu-pressiteade-et/riigikogus-on-kasutusel-uus-istungite-stenografeerimise-susteem." Kasutatud 02.05.2022.
  7. https://taltech.ee/uudised/aasta-keeleteoks-valiti-taltechi-konetuvastus-ja-tartu-ulikooli-masintolge." Kasutatud 02.05.2022.
  8. https://www.keeletehnoloogia.ee/et/ekt-projektid/konetuvastus-2." Kasutatud 02.05.2022.
  9. David Thomas, 11.02.2018 Digital Marketing vs. Print Marketing Cost Analysis https://medium.com/@nsitesearch/digital-marketing-vs-print-marketing-a-cost-analysis-dc53231cacae. Kasutatud 28.04.2022.
  10. Dirk Bergemann, Alessandro Bonatti 2010 Targeting in Advertising Markets: Implications for Offline vs. Online Media , Cowles Foundation Discussion paper nr 1758 https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.164.7197&rep=rep1&type=pdf. Kasutatud 28.04.2022.
  11. Ambarish Chandra, Ulrich Kaiser, (2014). Targeted Advertising in Magazine Markets and the Advent of the Internet http://individual.utoronto.ca/achandra/mansci_july_2014.pdf. Kasutatud 28.04.2022.
  12. Plummer J. , Rappaport S. , Hall T. , Barocci R.  The Online Advertising Playbook 2007 John Wiley & Sons, Inc. Kasutatud 28.04.2022.
  13. Wetzler M., 16.02.2021 Architecture Of Giants: Data Stacks At Facebook, Netflix, Airbnb, And Pinterest https://keen.io/blog/architecture-of-giants-data-stacks-at-facebook-netflix-airbnb-and-pinterest. Kasutatud 28.04.2022.
  14. Cherepakhin I.  5.11.2021 Facebook Ads vs Instagram Ads: 6 Key Considerations For Budgeting https://www.searchenginejournal.com/facebook-or-instagram-advertising/425430/#close. Kasutatud 28.04.2022.
  15. Digivizer 27.05 2020 Your Guide to Social Media Ad Algorithms https://digivizer.com/blog/your-guide-to-social-media-ad-algorithms/ Kasutatud 28.04.2022.
  16. Nudson R. 9.04.2020 When targeted ads feel a little too targeted https://www.vox.com/the-goods/2020/4/9/21204425/targeted-ads-fertility-eating-disorder-coronavirus Kasutatud 28.04.2022.
  17. 17.0 17.1 17.2 MacCormick, John. Nine Algorithms that Changed the Future. Princeton and Oxford. 2012. 232 lk.
  18. 18.0 18.1 Sergey Brin, Lawrence Page. The anatomy of a large-scale hypertextual Web search engine. Computer Networks and ISDN Systems 30 (1998) 107-117. https://snap.stanford.edu/class/cs224w-readings/Brin98Anatomy.pdf. Kasutatud 31.04.2022
  19. 19.0 19.1 Song, I-Y, & Zhu, Y. (2017), "Big Data and Data Science: Opportunities and Challenges of iSchools", Journal of Data and Informaton Science, Vol. 2 No. 3, lk 1-18. https://doi.org/10.1515/jdis-2017-0011. Kasutatud 31.04.2022
  20. 20.0 20.1 20.2 Croft, W. Bruce, Donald Metzler, Trevor Strohman. (2010). Search Engines. Information Retrieval in Practice. Addison Wesley. Toim. Michael Hirsch. 547 lk. Kasutatud 31.04.2022
  21. Rai, Prerna, Arvind Lal. International Journal of Computer Applications (0975 – 8887) Volume 138 – Nr.9, märts 2016. https://www.ijcaonline.org/research/volume138/number9/rai-2016-ijca-908942.pdf. Kasutatud 31.04.2022
  22. Murphy, Mike. "Star Trek's "tricorder" medical scanner just got closer to becoming a reality". Kasutatud 29.04.2022
  23. Papert, Seymour (1966-07-01). "The Summer Vision Project". MIT AI Memos (1959 - 2004). hdl:1721.1/6125. Kasutatud 29.04.2022
  24. Richard Szeliski (30 September 2010). Computer Vision: Algorithms and Applications. Springer Science & Business Media. pp. 10–16. ISBN 978-1-84882-935-0. Kasutatud 29.04.2022
  25. d'Albe, E. E. F. (July 1, 1914). "On a Type-Reading Optophone". Proceedings of the Royal Society A: Mathematical, Physical and Engineering Sciences. 90 (619): 373–375. Kasutatud 29.04.2022
  26. "Extracting text from images using OCR on Android". June 27, 2015. Archived from the original on March 15, 2016. Kasutatud 29.04.2022
  27. Assefi, Mehdi (December 2016). "OCR as a Service: An Experimental Evaluation of Google Docs OCR, Tesseract, ABBYY FineReader, and Transym". ResearchGate. Kasutatud 29.04.2022
  28. Viola, Jones: Robust Real-time Object Detection, IJCV 2001 Lk 1 ja 3. Kasutatud 29.04.2022
  29. Lowe, David G. (1999). "Object recognition from local scale-invariant features" (PDF). Proceedings of the International Conference on Computer Vision. Vol. 2. pp. 1150–1157. doi:10.1109/ICCV.1999.790410. Kasutatud 29.04.2022
  30. Cortes, Corinna; Vapnik, Vladimir N. (1995). "Support-vector networks" (PDF). Machine Learning. 20 (3): 273–297. CiteSeerX 10.1.1.15.9362. doi:10.1007/BF00994018. S2CID 206787478. Kasutatud 29.04.2022
  31. Valueva, M.V.; Nagornov, N.N.; Lyakhov, P.A.; Valuev, G.V.; Chervyakov, N.I. (2020). "Application of the residue number system to reduce hardware costs of the convolutional neural network implementation". Mathematics and Computers in Simulation. Elsevier BV. 177: 232–243. doi:10.1016/j.matcom.2020.04.031. ISSN 0378-4754. S2CID 218955622. Convolutional neural networks are a promising tool for solving the problem of pattern recognition. Kasutatud 29.04.2022
  32. https://www.cnet.com/news/politics/in-china-facial-recognition-public-shaming-and-control-go-hand-in-hand/. Kasutatud 29.04.2022
  33. https://qims.amegroups.com/article/view/70834/html. Kasutatud 29.04.2022
  34. SAE International (30 April 2021). "Taxonomy and Definitions for Terms Related to Driving Automation Systems for On-Road Motor Vehicles (SAE J3016)". Archived from the original on 20 December 2021. Retrieved 25 December 2021. Kasutatud 29.04.2022
  35. River Davis (2 August 2021). "Hyperdrive Daily: The Driverless Shuttle Helping Toyota Win Gold". Bloomberg News. Kasutatud 29.04.2022
  36. "Honda to Begin Sales of Legend with New Honda SENSING Elite". Kasutatud 29.04.2022
  37. https://iseauto.taltech.ee/meedia/. Kasutatud 29.04.2022
  38. https://www.delfi.ee/artikkel/72451695/milrem-esitleb-maailma-esimest-hubriidajamiga-mehitamata-roomikut?. Kasutatud 29.04.2022
  39. https://www.starship.xyz/. Kasutatud 29.04.2022
  40. https://en.wikipedia.org/wiki/Missile_guidance. Kasutatud 29.04.2022
  41. https://jfin-swufe.springeropen.com/articles/10.1186/s40854-019-0121-9. Kasutatud 03.05.2022
  42. 42.0 42.1 42.2 https://www.sciencedirect.com/science/article/pii/S1877050918309347. Kasutatud 03.05.2022
  43. https://pipeline.zoominfo.com/marketing/dynamic-data. Kasutatud 03.05.2022
  44. https://towardsdatascience.com/a-tutorial-on-artificial-neuro-fuzzy-inference-systems-in-r-19987bfd8ccd. Kasutatud 03.05.2022
  45. https://towardsdatascience.com/an-introduction-to-artificial-neural-networks-5d2e108ff2c3. Kasutatud 03.05.2022
  46. https://www.statisticshowto.com/fuzzy-statistics/ https://www.investopedia.com/terms/f/fuzzy-logic.asp. Kasutatud 03.05.2022
  47. https://machinelearningmastery.com/when-to-use-mlp-cnn-and-rnn-neural-networks/#:~:text=Multilayer%20Perceptrons%2C%20or%20MLPs%20for,also%20called%20the%20visible%20layer. Kasutatud 03.05.2022
  48. https://www.sciencedirect.com/topics/mathematics/bayesian-network#:~:text=A%20Bayesian%20network%20(BN)%20is,corresponding%20random%20variables%20%5B9%5D. Kasutatud 03.05.2022
  49. https://www.sciencedirect.com/topics/engineering/radial-basis-function-network#:~:text=Radial%20basis%20function%20(RBF)%20networks,approximation%20and%20faster%20learning%20speed. Kasutatud 03.05.2022