Andmeteadus meie ümber: Difference between revisions

From ICO wiki
Jump to navigationJump to search
Antvai (talk | contribs)
Antvai (talk | contribs)
Line 57: Line 57:


{| class="wikitable" style="margin:auto"
{| class="wikitable" style="margin:auto"
|+ Caption text
|+ '''Tabel 1.''' Eestikeelse kõnetuvastuse kvaliteedi areng läbi aastate.
|-
|-
! Kõne tüüp !! 2014 !! 2015 !! 2016 !! 2017
! Kõne tüüp !! 2014 !! 2015 !! 2016 !! 2017

Revision as of 12:13, 4 May 2022

Autorid: Janek Järvpõld, Lemme Velleõu, Ahti Blumkvist, Mehis Kasonen, Ants Vain

Sissejuhatus

Maailmas toodetakse järjest enam andmeid ning oluliseks on muutunud nende andmete süstemaatiline katalogiseerimine ja analüüsimine ehk teisisõnu andmeteadus. Käesolevas kursusetöös püüame kokkuvõtvalt kirjeldada ja tuua näiteid 5 peamisest andmeteaduse valdkonnast ning kirjeldada, kuidas ja kus neid valdkondi meie igapäevases elus rakendatakse. Meie valikusse jäid sellised andmeteaduse teemad nagu kõnetuvastus, suunitletud reklaam, otsingumootorid, pildituvastus ja andmeteadus krediitkaardi pettuste tuvastamisel.

Andmeteadus kõnetuvastuses

Mis on kõnetuvastus?

Kõnetuvastus on tehnoloogia, mille abil muudetakse kõne tekstiks. Kõnetuvastus võimaldab näiteks dokumentide dikteerimist, kõne- ja videosalvestuste transkribeerimist ning kõne abil arvutite ja seadmetega suhtlemist. Eestikeelne kõnetuvastus on jõudnud reaalsete rakendusteni, mida kasutavad näiteks Põhja-Eesti Regionaalhaigla radioloogid, samuti mitmed Eesti meediamonitooringufirmad raadio- ja telesaadete automaatseks transkribeerimiseks [1]. Eristatakse kahte tüüpi tehnoloogiat. Ühte nimetatakse kõnetuvastuseks ja teist hääletuvastuseks. Kõnetuvastus on kõnekeele sõnade tuvastamiseks ja hääletuvastus on biomeetriline tehnoloogia isiku hääle tuvastamiseks.

Kuidas kõnetuvastus töötab?

Kõnetuvastussüsteemid kasutavad kõne tuvastamiseks algoritme. Programm muudab mikrofoni salvestatud heli kirjakeeleks, millest arvutid ja inimesed aru saavad. Tuleb järgida mõningaid samme:

  • Analüüsida heli;
  • Jagada heli osadeks;
  • Muuta heli arvutis loetavasse vormingusse;
  • Kasutada algoritmi, et sobitada kõige sobivama tekstiesitlusega.

Tarkvaraalgoritmid, mis töötlevad ja korraldavad heli tekstiks, on koolitatud erinevate kõnemustrite, kõnestiilide, keelte, dialektide, aktsentide ja fraaside järgi. Tarkvara eraldab ka kõneheli taustamürast, mis sageli signaaliga kaasneb [2].

Kõnetuvastuse omadused ja rakendusvaldkonnad

Head kõnetuvastusprogrammid võimaldavad kasutajatel kohandada vastavalt oma vajadustele. Tarkvara peab pöörama tähelepanu erilistele sõnadele ning andma neile kaalud. Sõnad mida kasutatakse sageli või mis on vestluse teema jaoks ainulaadsed. Tarkvara peab kõnest suutma eemaldada ümbritseva müra. Ilma selleta pole kõnetuvastust võimalik teha. Lisaks peab programm suutma märgistada kõnes osalejad. Samuti on oluline ebatsensuursete sõnade filtreerimine. Kõnetuvastust võib leida paljudes tänapäevastes seadmetes ja rakendustes. Allpool on mõned näited.

  • Nutiseadmed - Nutiseadmetele on lisatud häälkäsklused otsimiseks ja -valimiseks.
  • Samuti kaasaegsetel teleritel on mõned häälkäskluse funktsioonid.
  • Haridus – Keeleõppes kasutatakse kõnetuvastus tarkvara. Tarkvara analüüsib kasutaja kõnet ning annab soovituse selle parandamiseks.
  • Kasutajatugi – Automaatsed häälassistendid kuulava klientide päringuid ja pakuvad lahendusi.
  • Kõnede transkriptsioon - kõikjal kus seda peetakse vajalikuks (kohtud, koolid, haiglad, valitsusasutused jne.).
  • Käed-vabad suhtlus – autojuhid kasutavad hääljuhtimist navigeerimissüsteemile käskluste andmisel.

Kõnetuvastusalgoritmid

Markovi peitmudel – kasutatakse iseseisvates süsteemides, kus olek on osaliselt jälgitav või kui kogu otsuse tegemiseks vajalik informatsioon ei ole mikrofonile koheselt kättesaadav. Selle näiteks on akustiline modelleerimine, kus programm peab staatilise tõenäosuse abil sobitama keeleüksused helisignaalidega [3].

Kunstlikud närvivõrgud - Närvivõrk on sõlmede võrk, mis on ehitatud sisendkihi, paljudest erinevatest kihtidest koosneva peidetud kihi ja väljundkihi abil. Kõigil ühendustel on erinev kaal ja järgmisesse sõlme saadetakse ainult teatud läveni jõudnud teave. Kui sõlm peab valima kahe sisendi vahel, valib ta selle sõlme sisendi, millega tal on kõige tugevam ühendus [4].

N-grams - See lihtne lähenemine keelemudelitele loob jadale tõenäosusjaotuse. Näitena võiks tuua algoritmi, mis vaatleb paar viimast öeldud sõna, hindab ligikaudselt kõne näidise ajalugu ja kasutab seda järgmise väljaöeldud sõna või fraasi tõenäosuse määramiseks [5].

Kõnetuvastuse plussid ja miinused

Kõnetuvastuse kasutamise plussideks võib nimetada:

  • Masina ja inimese vaheline suhtlus saab toimuda vestluskõnena;
  • Tarkvara on suhteliselt lihtne installeerida seadmetesse;
  • Programmi kasutamine on tehtud lihtsaks;
  • Pidev täiustamine;

Tehisintellekti sisaldavad kõnetuvastussüsteemid muudavad aja jooksul tõhusamaks ja hõlpsamini kasutatavaks. Kui süsteemid analüüsivat kõnet, siis tarkvara protsessi tulemusena genereeritakse kõne kohta rohkem andmeid. Sellega täiustavad süsteemid oma töötlusprotsesse. Kõnetuvastusega on tegeletud mitu aastakümmet, kuid veel on ületamata mõningased probleemid. Nendeks on peamiselt:

  • Jõudlus – Süsteemid ei pruugi olla võimelised sõnu täpselt jäädvustama häälduse erinevuste või taustamüra eemaldamise puudumise tõttu;
  • Ümbritseva müra eemaldamine võib olla keeruline. Mõnikord on inimese häält võimatu tuvastada. Inimestel on aktsent mille tõttu on kõne tuvastamine raskendatud;
  • Kiirus – Kõne töötlemine võib aega võtta, kui kõne ei ole selge;
  • Riistavara – Kõne tuvastamine sõltub kasutatavast salvestusseadmest.

Kõnetuvastus Eestis ja eesti keeles

Eestis on kõnetuvastusega tegelenud Tallinna Tehnikaülikool, mis on välja töötanud vabavaralise kõnetuvastuspaketi Kaldi. Projekti eestvedajaks on vanemteadur Tanel Alumäe. TTÜ kõnetuvastussüsteemi näol on tegemist eesti keele pikkade kõnesalvestuste tuvastussüsteemiga, mis põhineb vabavaralisel kõnetuvastuspaketil Kaldi. TTÜ kõnetuvastussüsteemi võimekuse saab iga huviline panna proovile veebikeskkonnas [1]. Kõnetuvastussüsteemi kasutavad Eestis näiteks radioloogid, teadlased ja ajakirjanikud. Riigikogu võttis 14.09.2020 aastal kasutusele stenografeerimise süsteemi Hans, mille arendas Eesti IT-ettevõte Finestmedia. Süsteem kasutab TTÜ-s loodud kõnetuvastustehnoloogiat. Süsteemi arendatakse pidevalt [6]. 2019. aasta keeleteokonkursil võidutsesid keeletehnoloogia teod, peaauhind läks jagamisele Tallinna Tehnikaülikooli kõnetuvastuse ja Tartu Ülikooli masintõlke vahel [7]. Allolev tabel näitab eestikeelse kõnetuvastuse kvaliteedi progressi projekti algusest alates. Toodud on sõnavigade osakaal protsentides mitme erinevat tüüpi testvalimi puhul, kasutades nn offline režiimis kõnetuvastust (väiksem number on parem) [8].

Tabel 1. Eestikeelse kõnetuvastuse kvaliteedi areng läbi aastate.
Kõne tüüp 2014 2015 2016 2017
Raadio vestlussaated 16.9 15.7 12.4 9.9
Konverentsikõned 23.5 22.5 17.9 13.9
Aktuaalne Kaamera 19.6 17.1 15.5 9.6
Spontaanne kõne 39.9 31.6 22.4 17.6

Viidatud allikad