Andmeteadus meie ümber

From ICO wiki
Jump to navigationJump to search

Autorid: Janek Järvpõld, Lemme Velleõu, Ahti Blumkvist, Mehis Kasonen, Ants Vain

Sissejuhatus

Maailmas toodetakse järjest enam andmeid ning oluliseks on muutunud nende andmete süstemaatiline katalogiseerimine ja analüüsimine ehk teisisõnu andmeteadus. Käesolevas kursusetöös püüame kokkuvõtvalt kirjeldada ja tuua näiteid 5 peamisest andmeteaduse valdkonnast ning kirjeldada, kuidas ja kus neid valdkondi meie igapäevases elus rakendatakse. Meie valikusse jäid sellised andmeteaduse teemad nagu kõnetuvastus, suunitletud reklaam, otsingumootorid, pildituvastus ja andmeteadus krediitkaardi pettuste tuvastamisel.

Andmeteadus kõnetuvastuses

Mis on kõnetuvastus?

Kõnetuvastus on tehnoloogia, mille abil muudetakse kõne tekstiks. Kõnetuvastus võimaldab näiteks dokumentide dikteerimist, kõne- ja videosalvestuste transkribeerimist ning kõne abil arvutite ja seadmetega suhtlemist. Eestikeelne kõnetuvastus on jõudnud reaalsete rakendusteni, mida kasutavad näiteks Põhja-Eesti Regionaalhaigla radioloogid, samuti mitmed Eesti meediamonitooringufirmad raadio- ja telesaadete automaatseks transkribeerimiseks [1]. Eristatakse kahte tüüpi tehnoloogiat. Ühte nimetatakse kõnetuvastuseks ja teist hääletuvastuseks. Kõnetuvastus on kõnekeele sõnade tuvastamiseks ja hääletuvastus on biomeetriline tehnoloogia isiku hääle tuvastamiseks.

Kuidas kõnetuvastus töötab?

Kõnetuvastussüsteemid kasutavad kõne tuvastamiseks algoritme. Programm muudab mikrofoni salvestatud heli kirjakeeleks, millest arvutid ja inimesed aru saavad. Tuleb järgida mõningaid samme:

  • Analüüsida heli;
  • Jagada heli osadeks;
  • Muuta heli arvutis loetavasse vormingusse;
  • Kasutada algoritmi, et sobitada kõige sobivama tekstiesitlusega.

Tarkvaraalgoritmid, mis töötlevad ja korraldavad heli tekstiks, on koolitatud erinevate kõnemustrite, kõnestiilide, keelte, dialektide, aktsentide ja fraaside järgi. Tarkvara eraldab ka kõneheli taustamürast, mis sageli signaaliga kaasneb [2].

Kõnetuvastuse omadused ja rakendusvaldkonnad

Head kõnetuvastusprogrammid võimaldavad kasutajatel kohandada vastavalt oma vajadustele. Tarkvara peab pöörama tähelepanu erilistele sõnadele ning andma neile kaalud. Sõnad mida kasutatakse sageli või mis on vestluse teema jaoks ainulaadsed. Tarkvara peab kõnest suutma eemaldada ümbritseva müra. Ilma selleta pole kõnetuvastust võimalik teha. Lisaks peab programm suutma märgistada kõnes osalejad. Samuti on oluline ebatsensuursete sõnade filtreerimine. Kõnetuvastust võib leida paljudes tänapäevastes seadmetes ja rakendustes. Allpool on mõned näited.

  • Nutiseadmed - Nutiseadmetele on lisatud häälkäsklused otsimiseks ja -valimiseks.
  • Samuti kaasaegsetel teleritel on mõned häälkäskluse funktsioonid.
  • Haridus – Keeleõppes kasutatakse kõnetuvastus tarkvara. Tarkvara analüüsib kasutaja kõnet ning annab soovituse selle parandamiseks.
  • Kasutajatugi – Automaatsed häälassistendid kuulava klientide päringuid ja pakuvad lahendusi.
  • Kõnede transkriptsioon - kõikjal kus seda peetakse vajalikuks (kohtud, koolid, haiglad, valitsusasutused jne.).
  • Käed-vabad suhtlus – autojuhid kasutavad hääljuhtimist navigeerimissüsteemile käskluste andmisel.

Kõnetuvastusalgoritmid

Markovi peitmudel – kasutatakse iseseisvates süsteemides, kus olek on osaliselt jälgitav või kui kogu otsuse tegemiseks vajalik informatsioon ei ole mikrofonile koheselt kättesaadav. Selle näiteks on akustiline modelleerimine, kus programm peab staatilise tõenäosuse abil sobitama keeleüksused helisignaalidega [3].

Kunstlikud närvivõrgud - Närvivõrk on sõlmede võrk, mis on ehitatud sisendkihi, paljudest erinevatest kihtidest koosneva peidetud kihi ja väljundkihi abil. Kõigil ühendustel on erinev kaal ja järgmisesse sõlme saadetakse ainult teatud läveni jõudnud teave. Kui sõlm peab valima kahe sisendi vahel, valib ta selle sõlme sisendi, millega tal on kõige tugevam ühendus [4].

N-grams - See lihtne lähenemine keelemudelitele loob jadale tõenäosusjaotuse. Näitena võiks tuua algoritmi, mis vaatleb paar viimast öeldud sõna, hindab ligikaudselt kõne näidise ajalugu ja kasutab seda järgmise väljaöeldud sõna või fraasi tõenäosuse määramiseks [5].

Kõnetuvastuse plussid ja miinused

Kõnetuvastuse kasutamise plussideks võib nimetada:

  • Masina ja inimese vaheline suhtlus saab toimuda vestluskõnena;
  • Tarkvara on suhteliselt lihtne installeerida seadmetesse;
  • Programmi kasutamine on tehtud lihtsaks;
  • Pidev täiustamine;

Tehisintellekti sisaldavad kõnetuvastussüsteemid muudavad aja jooksul tõhusamaks ja hõlpsamini kasutatavaks. Kui süsteemid analüüsivat kõnet, siis tarkvara protsessi tulemusena genereeritakse kõne kohta rohkem andmeid. Sellega täiustavad süsteemid oma töötlusprotsesse. Kõnetuvastusega on tegeletud mitu aastakümmet, kuid veel on ületamata mõningased probleemid. Nendeks on peamiselt:

  • Jõudlus – Süsteemid ei pruugi olla võimelised sõnu täpselt jäädvustama häälduse erinevuste või taustamüra eemaldamise puudumise tõttu;
  • Ümbritseva müra eemaldamine võib olla keeruline. Mõnikord on inimese häält võimatu tuvastada. Inimestel on aktsent mille tõttu on kõne tuvastamine raskendatud;
  • Kiirus – Kõne töötlemine võib aega võtta, kui kõne ei ole selge;
  • Riistavara – Kõne tuvastamine sõltub kasutatavast salvestusseadmest.

Kõnetuvastus Eestis ja eesti keeles

Eestis on kõnetuvastusega tegelenud Tallinna Tehnikaülikool, mis on välja töötanud vabavaralise kõnetuvastuspaketi Kaldi. Projekti eestvedajaks on vanemteadur Tanel Alumäe. TTÜ kõnetuvastussüsteemi näol on tegemist eesti keele pikkade kõnesalvestuste tuvastussüsteemiga, mis põhineb vabavaralisel kõnetuvastuspaketil Kaldi. TTÜ kõnetuvastussüsteemi võimekuse saab iga huviline panna proovile veebikeskkonnas [1]. Kõnetuvastussüsteemi kasutavad Eestis näiteks radioloogid, teadlased ja ajakirjanikud. Riigikogu võttis 14.09.2020 aastal kasutusele stenografeerimise süsteemi Hans, mille arendas Eesti IT-ettevõte Finestmedia. Süsteem kasutab TTÜ-s loodud kõnetuvastustehnoloogiat. Süsteemi arendatakse pidevalt [6]. 2019. aasta keeleteokonkursil võidutsesid keeletehnoloogia teod, peaauhind läks jagamisele Tallinna Tehnikaülikooli kõnetuvastuse ja Tartu Ülikooli masintõlke vahel [7]. Allolev tabel näitab eestikeelse kõnetuvastuse kvaliteedi progressi projekti algusest alates. Toodud on sõnavigade osakaal protsentides mitme erinevat tüüpi testvalimi puhul, kasutades nn offline režiimis kõnetuvastust (väiksem number on parem) [8].

Tabel 1. Eestikeelse kõnetuvastuse kvaliteedi areng läbi aastate.
Kõne tüüp 2014 2015 2016 2017
Raadio vestlussaated 16.9 15.7 12.4 9.9
Konverentsikõned 23.5 22.5 17.9 13.9
Aktuaalne Kaamera 19.6 17.1 15.5 9.6
Spontaanne kõne 39.9 31.6 22.4 17.6


Suunitletud reklaam

Suunitletud reklaami olemus

Reklaamid on tänapäeval paratamatu osa veebist ning enamus neist on suuremal või vähemal määral meile suunitletud. Reklaamide suunitlemine ehk sihtimine võtab arvesse erinevaid aspekte kasutaja kohta ning pakub talle tooteid ning teenuseid, mis võiks talle enim huvi pakkuda. Selle protsessi eesmärgiks on viia kokku õige pakkuja ning nõudja turul. Ajalooliselt on reklaamide sihtimine kindlale publikule eksisteerinud pikalt enne uue meedia saabumist. Enne interneti levikut kasutati selleks vaid teisi kanaleid nagu trükimeediat (ajalehed ja ajakirjad), postreid ja reklaamtahvleid, audiot (raadio), televisiooni ning füüsilisi otsepostitusi (kirjade ja postkaartide saatmine). Neid kanaleid nimetatakse ka traditsiooniliseks meediaks. Reklaamid traditsioonilises meedias on ettevõtete jaoks kulukad. Näiteks 4 nädala reklaamtahvli (ingl. k. billboard) rent New Yorki Time Square’il 2018. aastal maksis 2,5 miljonit dollarit [9]. Sellel tahvlil on vaieldamatult lai haare arvestades kui palju turiste igapäevaselt sellest asukohast läbi käivad. Kuid lähemal analüüsil on tegu väga ebatäpse sihtimisega kui püstitada küsimused nagu: “Kui palju sealt läbi käivaid inimesi vaatab just selle reklaami hetkel tahvlile?” “Kas inimesed, kes sealt läbi käivad on huvitatud tootest, mida reklaamitakse?” jne.

Suunitletud reklaam internetis

Alates interneti laiahaardelisest levikust hakati aina rohkem uurima kuivõrd tulus ning efektiivne on reklaam traditsioonilises meedias versus uues meedias. Bergemann ja Bonatti on näiteks välja töötanud matemaatilise mudeli, kuidas hinnata reklaamide sihtimise võimekust erinevates reklaamikanalites ning kuivõrd kuluefektiivne on selle tulemus [10]. Empiiriliselt on tõestatud, et uue meedia võimekus reklaame sihtida on oluliselt parem kui traditsioonilises meedias ning sellest tulenevalt on interneti levik mõjutanud traditsioonilise meedia hindu. Seda on kindlasti ka mõjutanud traditsioonilise meedia haarde vähenemine. Samas on ka välja tulnud, et reklaamimine erinevate kanalite kaudu kinnistab toote teadlikkust ning atraktiivsust tarbija jaoks ning reklaami nägemine mitmel korral pigem soodustab selle konverteerumist ostuks.[11] Reklaamide suunitlemine on internetis oluliselt lihtsam kui traditsioonilise meedia puhul tänu sellele, et internetis ringi liikumise alusel on võimalik tarbija kohta koguda rohkem ning täpsemat informatsiooni, mille järgi teda kategooriatesse jaotada ning kuvada talle pakkumisi, millele ta on kõige vastuvõtlikum.

Reklaami sihitamine

Sihtgruppide koostamine suunitletud reklaamide pakkumiseks võtab arvesse mitmesuguseid parameetreid [12]:

  • Demograafiline sihtimine - vanim ja enimkasutatud kontseptsioon. Tarbijaid defineeritakse vanuse, soo, sissetuleku, ameti ja perekonna suuruse järgi
  • Sisuline sihtimine - on rohkem seotud toote kui tarbijaga. Kasutajale näidatakse reklaame, mis omavad otsest seost tarbitava sisuga. Näiteks kosmeetika reklaamid ilublogi juures.
  • Käitumuslik sihtimine - reklaamide kuvamine vastavalt tarbija interneti kasutuse ajaloole. Näiteks kasutajale pakutakse youtube’i vaadates veebikaubamaja tooteid, mida ta on eelnevalt külastanud.
  • Geograafiline sihtimine - reklaamide kuvamine vastavalt tarbija asukohale. 
  • Päevaosa sihtimine - reklaamide kuvamine kindlal perioodil päevas. See on leidnud kasutust peamiselt raadio ning televisiooni puhul, kuid ka näiteks mobiili reklaamides. Näiteks saadavad mõned kojuveo rakendused push sõnumeid mobiilidele lõuna ning õhtusöögi aegadel.
  • Huvide põhine sihtimine - Interneti kontekstis on see sarnane käitumusliku sihtimisega. Tarbija huvi indeksit arvutatakse vastavalt kui tihti ta kindla teemaga seotud lehti külastab, kaua seal viibib ning kas leht lisatakse järjehoidjatesse.
  • Ostude põhine sihtimine - tarbija ostukäitumise järgi veebis uute reklaamide kuvamine. Hiljuti välja töötatud reklaamide suunitluse meetod, mis on aktuaalne just internetis ning arvestab lisaks tarbija ostudele ka psühholoogilisi aspekte nagu brändilojaalsus, kas tarbija kaldub impulssostudele jne.

Igal eelmainitud reklaamide sihtimise meetodil on oma aeg ja koht turunduses ning nad erinevad eelkõige oma efektiivsuse ning hinna poolest (st. kuivõrd lihtne on andmeid koguda).

Sihitud reklaamid Facebooki näitel

Kaks vaieldamatut giganti sihitud sisu/reklaamide pakkumises tarbijale on Google ja Facebook. Nende edu põhjus on lihtne - nende teenuste kasutamisel annab tarbija enda kohta vabatahtlikult informatsiooni ning selle info alusel on loodud algoritmid, mis loovad aina täpsemaid kasutaja profiile. Arvestades, et näiteks Facebookil on 2022. aastaks üle miljardi aktiivse kasutaja, siis analüüsitav andmehulk on arvestatav ning kasvab eksponentsiaalselt kasutajate arvu tõusuga. Facebook oli 2021. aasta seisuga suurima andmevaramu omanik, mis sisaldab üle 300 petabaiti suurandmeid. Selleks, et suhelda sellise andmehulgaga töötas Facebook välja eraldi SQL mootori nimega Presto, mille abil tehakse varamusse üle 30 000 päringu päevas. Samuti kasutatakse seda ka masinõppeks ehk selle abil õpib Facebooki sihtimise algoritm aina täpsemalt üksikkasutaja profiili koostama ning teda kategooriatesse jagama. [13] Facebooki tarbijate sihtimise algoritmi kasutab nii Facebook ise kui ka Instagram - need kuuluvad mõlemad nüüd ühise brändi Meta alla. Samuti on kasutusel ühine reklaamide haldusplatvorm, mis võimaldab sama reklaammaterjali avaldada mõlemal platvormil. See on üks intelligentsemaid lahendusi sisu ja reklaamide serveerimiseks ning teinud aastatega olulisi edusamme. Samuti on selle andmeanalüüsi peale ehitatud efektiivne turundusmudel, mis võimaldab ettevõtjatel saavutada väiksemate kuludega suurendada oluliselt jälgede (impressions) konverteerimist ostudeks. Oluline ei ole ainult sattuda võimalikult suure publiku silme alla vaid sihtgrupini, kes suurema tõenäosusega sooritab ka reklaami alusel ostu. [14] Lisaks ettevõtete soovidele reklaamide sihtimisel võtab Facebooki algoritm reklaamide näitamisel arvesse ka lisafaktoreid nagu reklaampostituse kvaliteet ning kasutaja eelnevat suhtlust sarnaste reklaamidega. Kõnealuste algoritmit kood on alati ärisaladus - selle töötamise üldpõhimõtted on kirjeldatud platvormi enda reklaammaterjalides ning kasutajapoolsete testide tulemusena. See, kuidas käib reaalne elu kapoti all ei ole ettevõtteväliselt teada kellelegi. [15]

Sihitud reklaamide ohud ja nende reguleerimine

Sihitud reklaamidega kaasnevad veebis aga ka tõsised ohud, kui ettevõtted kasutavad neid ebaausatel viisidel, et leida haavatavaid sihtgruppe ning levitada eksitavat või valeinformatsiooni, mis aktiivselt kahjustab tarbijat. Näiteks võivad MLM (püramiidskeem) ettevõtted sihtida finantsraskustes inimesi (töötud, üksikemad jne) või dieedi preparaatide tootjad toitumishäiretega inimesi. Samuti on moraalne hall ala poliitilised reklaamid ning LGBT kogukonna sihtimine kristliku propagandaga. [16] Seoses veebiturunduse eksponentaalse kasvuga viimastel aastakümnetel on vaikselt hakanud järgi jõudma sellele ka seadusandlus ning tarbijate teadlikkus. Reklaamidel sotsiaalmeedia platvormidel levitatav tasuline sisu peab olema vastavalt märgistatud ning eristatav orgaanilisest sisust. Näiteks on Facebooki sponsoreeritud sisu detailvaates võimalik isegi näha, et millistel põhjustel algoritm seda sisu tarbijale näitab ning teha valik kas samalaadset sisu soovitakse näha ka edaspidi. Välja on töötatud mitmed veebilehitseja lisad nagu Ad-Blocker, mille abil on võimalik blokeerida enamus reklaamist internetis. Ning lõppude lõpuks on keskmine internetikasutaja teadlikum ning küünilisem talle pakutava sisu suhtes ükskõik millist kanalit kaudu. Kokkuvõtlikult võib öelda, et suurandmete analüüs ning selle alusel reklaamide sihtimine on suur ning tulus äri ning selle arengusse on agressiivselt panustanud suured tehnoloogia gigandid nagu Google ning erinevad sotsiaalmeedia platvormid. Sellest tulenevalt on reklaamsisu veebis oluliselt personaalsem ning aktuaalsem igale tarbijale. Aga nagu iga süsteemi puhul on leitud ka võimalused kuidas seda ekspluateerida omakasu eesmärgil.


Andmeteadus ja otsingumootorid

Otsingumootorite olemus

Interneti otsingumootorite ja andmeteaduse olemuse sarnasus sõltub meetoditest, mida mõlemad kasutavad ning valdkondadest, kuhu meetodid kuuluvad. Ühisosaks on matemaatika, statistika ning selle alaliigid. Mõlemad on rohkemal või vähemal määral seotud informaatikaga, veebitehnoloogiatega ning võrgutehnoloogiatega, kuid andmeteadus keskendub olemasolevatest andmetest uute teadmiste tuletamisse. Peamine ühisosa peitub andmete süstematiseerimises. Siin kirjeldatud algoritmid ja meetodid on ainult väike osa reaalselt otsingumootorites kasutusel olevatest lahendustest. Google otsingumootor kasutab hinnanguliselt üle 200 algoritmi, nt Panda, Penguin, Hummingbird, Mobile, RankBrain, Medic, Bert. Projektinimede taga peituvad matemaatilised ja statistilised meetodeid ning algoritmide kogumid on kommertsiaal-lahendustes lähedalt kaitstud ärisaladus. Küll aga on tänu patenteerimisele ning teadustööle teada mitmed meetodid ja algoritmid, mida teostustasandil reaalselt kasutatakse. Allpool tuleb juttu mõnedest interneti otsingumootorite töö kategooriatest ning põhiprintsiipidest nagu andmete omandamine, indekseerimine ja hindestus ning mõningatest algoritmidest ning matemaatilistest teoreemidest, mida info töötluseks kasutatakse.

Indekseerimine otsingumootorites

Indekseerimine on olemuselt vana nähtus (ca 5000 aastat). Interneti otsingumootorite töö aluseks on indeksite kasutamine. Internetis oleva lehe sisu indekseeritakse, piltlikult tähendab see suurt sõnaraamatut. Sisestades otsingumootorisse võtmesõna, otsitakse sõnaraamatu võtmesõnale vastavad väärtused (internetileheküljed), mis on eelneva indekseerimise tulemusel moodustunud. caption

Pilt 1. Ülemine pilt kajastab kujuteldavat veebi 3 veebilehega ( 1, 2 ja 3). Alumine pilt illustreerib, kuidas otsingusõnad veebilehtede kaupa indekseeritakse. [17]

Viidatud allikad

  1. https://taltech.ee/uudised/aasta-keeleteoks-valiti-taltechi-konetuvastus-ja-tartu-ulikooli-masintolge." Kasutatud 02.05.2022.
  2. https://www.techtarget.com/searchcustomerexperience/definition/speech-recognition." Kasutatud 02.05.2022.
  3. https://en.wikipedia.org/wiki/Speech_recognition#Models,_methods,_and_algorithms." Kasutatud 02.05.2022.
  4. https://itchronicles.com/speech-to-text/speech-recognition-algorithm." Kasutatud 02.05.2022.
  5. https://www.techtarget.com/searchcustomerexperience/definition/speech-recognition." Kasutatud 02.05.2022.
  6. https://www.riigikogu.ee/pressiteated/muu-pressiteade-et/riigikogus-on-kasutusel-uus-istungite-stenografeerimise-susteem." Kasutatud 02.05.2022.
  7. https://taltech.ee/uudised/aasta-keeleteoks-valiti-taltechi-konetuvastus-ja-tartu-ulikooli-masintolge." Kasutatud 02.05.2022.
  8. https://www.keeletehnoloogia.ee/et/ekt-projektid/konetuvastus-2." Kasutatud 02.05.2022.
  9. David Thomas, 11.02.2018 Digital Marketing vs. Print Marketing Cost Analysis https://medium.com/@nsitesearch/digital-marketing-vs-print-marketing-a-cost-analysis-dc53231cacae. Kasutatud 28.04.2022.
  10. Dirk Bergemann, Alessandro Bonatti 2010 Targeting in Advertising Markets: Implications for Offline vs. Online Media , Cowles Foundation Discussion paper nr 1758 https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.164.7197&rep=rep1&type=pdf. Kasutatud 28.04.2022.
  11. Ambarish Chandra, Ulrich Kaiser, (2014). Targeted Advertising in Magazine Markets and the Advent of the Internet http://individual.utoronto.ca/achandra/mansci_july_2014.pdf. Kasutatud 28.04.2022.
  12. Plummer J. , Rappaport S. , Hall T. , Barocci R.  The Online Advertising Playbook 2007 John Wiley & Sons, Inc. Kasutatud 28.04.2022.
  13. Wetzler M., 16.02.2021 Architecture Of Giants: Data Stacks At Facebook, Netflix, Airbnb, And Pinterest https://keen.io/blog/architecture-of-giants-data-stacks-at-facebook-netflix-airbnb-and-pinterest. Kasutatud 28.04.2022.
  14. Cherepakhin I.  5.11.2021 Facebook Ads vs Instagram Ads: 6 Key Considerations For Budgeting https://www.searchenginejournal.com/facebook-or-instagram-advertising/425430/#close. Kasutatud 28.04.2022.
  15. Digivizer 27.05 2020 Your Guide to Social Media Ad Algorithms https://digivizer.com/blog/your-guide-to-social-media-ad-algorithms/ Kasutatud 28.04.2022.
  16. Nudson R. 9.04.2020 When targeted ads feel a little too targeted https://www.vox.com/the-goods/2020/4/9/21204425/targeted-ads-fertility-eating-disorder-coronavirus Kasutatud 28.04.2022.