Talk:Meeskond:Scraper

From ICO wiki

Retsensioon meeskonna Scraper analüüsile meeskonnalt XYZ

Positiivsed küljed

Blogist tuleb välja, et tööplaan ja -jaotus on üles ehitatatud süstemaatilselt ja loogiliselt, analüüs on ilusti alamteemadeks jaotatud. Samuti on hästi välja toodud tööetapid ja kasutatavad tehnoloogiad. Hea, et olete läbi mõelnud, millist arendusmustrit plaanite kasutada. Analüüsi suurteks plussideks on oma oskuste mõistlik hindamine (tasakaal must-have ja nice-to-have featuride vahel) ja mõistlik riskide hindamine. Prototüübi must-have-features´i väljatoomine on hea mõte. Uudiste ilmumisaja valik oleks kindlasti kasulik näiteks meediauuringute läbiviimisel.

Väike vahemärkus analüüsi loetavuse/arusaadavuse kohta: “IDEE” bloki all olev kirjeldus “Teeme web scraper'i, mis laeb alla lehekülgede html failid…” on küll ülimalt oluline ja selgitab hästi, kuidas rakendus töötab, aga tekitab esimese ideed kirjeldava blokina pigem segadust. Segadus laheneb “Miks ja milleks?” alamteemat lugema hakates. Arusaadavuse huvides võiks eismeses “idee” blokis kohe öeldud olla, et rakendus on mõeldud meediaportaalide info sorteerimiseks.

Üldiselt jätab analüüs põhjaliku ja mitmekülgse mulje kuid mõned kohad siiski on, mida võiks veel läbi mõelda ja täpsustada. Kohati jääb mulje, et projekti on pandud kokku mitu vastandlikku ideed ja pole päris selge, kuidas need ühes rakenduses koos peaksid eksisteerima - sellest pikemalt konstruktiivse kriitika all.

Konstruktiivne kriitika

Rakendus ei pruugi teenida oma eesmärki. Kui eesmärk on leida kõige olulisemad teemad, siis olulised teemad on need, mida kajastatakse mitme päeva või nädala jooksul. Kas teemade ja märksõnade populaarsust mõõdetakse viimase 24 tunni jooksul, viimase nädala või viimase kuu jooksul? Kas kasutaja saab ise ajavahemikku valida? Kui avaldatakse sama teema kohta käivaid artikleid ja analüüse, siis ei pruugi tulla nende omavaheline seotus välja vaid paari märksõna otsides.

Fake-uudiste tuvastamine ja blokeerimine on hea mõte, kuid teostamise mõttes ülimalt raske. Tänapäeval räägitakse, kuidas isegi inimeste endi jaoks muutub võltsuudiste tuvastamine järjest raskemaks. Selle script'iga lahendamine võib osutuda seega väga keeruliseks ja tuua kaasa rohkelt vigaseid tulemusi. Samas on ka autorid ise selle välja toonud kui ühe raskeima ja ajamahukaima ülesande rakenduse loomisel - leiame, et selline analüüsitulemus on asjakohane.

Rakenduse eesmärk on vältida sisutühje ja kollaseid uudiseid. Kui rakenduse eesmärk on korraga kuvada kõige populaarsemad artiklid ja samas vältida kollaseid uudiseid, siis kuidas rakendus käitub, kui kõige populaarsemad artiklid on kollased uudised?

Samuti pole täpselt aru saada, mis teeb uudise rakenduse jaoks populaarseks: kas viimasel ajal tihedalt kasutatav märksõna või uudise lugejate arv?

Rakendus kuvab uudise, kui märksõnal on ajaloolisest keskmisest suurem esinemissagedus. aga mis siis saab, kui teema on pidevalt pildis ja mingi murrang toob kaasa ainult marginaalse märksõna esinemissageduse suurenemise? Kas rakendus kuvaks tähtsa uudise või mitte?

Keelevalik toimub radio buttoni abil, mis viitab ühele ja ainsale valikule, aga kas kasutajal on võimalik näha uudiseid vaheldumisi kahes või enamas keeles? Teatud sama kirjapildiga sõnad võivad küll eesti ja inglise keeles erineva sisuga artikleid välja tuua, aga tüütu oleks rakenduse kasutamisega nullist alustada, kui tahad näha teistes keeltes artikleid. Samuti tasuks läbimõtlemist, miks saab valida ainult ühes keeles kirjutatud, aga mitme riigi uudisteportaalidest pärinevaid uudiseid.

Soovitused

  • Tuleks määratleda aeg, mille jooksul uudiste esinemissagedust otsitakse.
  • Tuleks määratleda, kas artikli populaarsus sõltub märksõna esinemissagedusest või lugejate arvust.
  • Artiklite ja uudiste otsing võiks olla seotud mitme märksõnaga.

Vastus retsensioonile

Arutasime tagasisidet ja mõtlesime, et paneme oma vastuse kohe siia kirja.

Täname kaasamõtlemise ning tagasiside eest.

Mis puutub uudiste populaarsuse mõõtmisesse, siis ajaperioodi valik, mille jooksul uudiseid jälgida ning mille põhjal analüüsi teostada, on antud rakenduse jaoks tõepoolest väga oluline.

Samas tuleb aga arvestada ka asjaoluga, et tegemist on päris elust pärit andmetega ning see teeb täpse algoritmi ja kasutatava mudeli prognoosimise enne reaalsete andmetega tutvumist enamasti väga keeruliseks ning ajamahukaks tööks, millest pahatihti palju kasu ei ole. Selle töö tegemine siis kui on võimalik reaalsete andmetega tutvuda, on tavaliselt oluliselt efektiivsem ning vähem ajamahukas.

Kuid kuna juhuslikult oleme sarnaste andmetega veidi ka enne töötanud ning ajaperioodi valikule sai tähelepanu pööratud, siis võib sellest siinkohal ka veidi pikemalt kirjutada.

Esiteks veidi tasuta, mis on tarvilik selleks, et perioodivalikut teha ning mõista mida populaarsus tähendab. Uudiste lugejate arv on tavaliselt uudisteportaali ärisaladus, mida vaevalt nad teistega jagada tahavad. Seetõttu peame populaarsust mõõtma kaudseid meetodeid kasutades. Võib proovida leida kui paljud inimesed on antud artiklit sotsiaalmeedias jaganud või kui palju on antud uudisel kommentaare, samuti oleks heaks näitajaks kui palju antud uudis lehel aega ja ruumi saab ning kui kõrgele ta portaali uudistehierarhias tõuseb, kuid selle hindamine on juba küllalt keeruline ülesanne. Seetõttu kasutame näitajana märksõna esinemist teksides ning eeldame seeläbi, et portaal toodab hetkel olulisest, kuumast ja klikke püüdvast teemast, mis seeläbi portaalile ka reklaamitulu toob, ka enam uudiseid kui teistest teemadest.

Statistiliselt on uudiste sageduse mõõtmiseks kaks võimalust kas mõõta sõnade absoluutset esinemissagedust ehk lugeda teatud perioodi jooksul avaldatud uudiste tekstidest või pealkirjadest kui tihti seal mõni sõna või sõna paar esineb või suhtelist sagedust ehk leida kui paljudes antud perioodil avaldatud uudistes sõna või sõnapaar esines ning jagada see arv kõikide perioodil avaldatud uudiste arvuga. Mõlemal meetodil on oma positiivsed ning negatiivsed küljed.

Absoluutarvu kasutamine eeldab näiteks ajas konstantset uudisvoogu. Päriselus on avaldatud uudiste arv aga pahatihti kõikuv – lihsaima näitena võib tuua pühapäeval ilmuvate uudiste ning esmaspäeval avaldatavate uudiste arvu võrdlemine. Kui ajaperioodiks on aga nädal siin on probleemne näiteks jõulu nädal, eriti kui 23. detsember peaks langema esmaspäevale ning sisulisel koosneb kogu nädal vaid puhkepäevadest ning uudistetoimetused on tühjad. Suuremas plaanis on probleemiks uudsite arvu kõikumine ka aastate lõikes, mis sõltub suuresti reklaamiraha hulgast turul, erinevate uudiskeskkondade ühinemistest, uute tekkimistest ja konkurentsist, kuna online ajakirjandus on tegelikult reklaamiraha funktsioon. Ehk kui reklaamiraha on palju, on raha ka sisu tootmiseks rohkem ning kui reklaamiraha väheneb peab ka sisu poolt kokku tõmbama. Samas on absoluutarvu kasutamisel ka eeliseid näiteks on sellest kasutajal väga lihtne aru saada.

Suhtelise sageduse kasutamine tagab tulemuste parema võrreldavuse. Selle hea töötamise eelduseks on suur ja stabiilne valim uudiseid ning sellega on taas seotud paljud probleemid, mis tulevad ette ka absoluutarvu kasutamise puhul. Samuti on suhtelise (ja veidi ka absoluutse) näitaja puhul probleemiks ka erinevate allikate võrreldavus kui üks portaal toodab nädalas 5000 ja teine 200 uudist ning mõlemad avaldavad mingil teemal ühe uudise, siis kuidas antud suhtelisi sagedusi omavahel võrrelda.

Ajaperioodi valik sõltub lõpuks paljuski reaalsetest andmetest ning nende omadustest, kuid ülalmainitud põhjustel arvame, et minimaalseks ajaperioodiks on üks nädal või mõni selle n-kordne.

Mis puutub kollaste ning valeuudiste tuvastamisse, siis see sõltub väga palju sellest kuidas valeuudised defineerida. Sellest definitsioonist sõltub ka tehniline teostus ja selle keerukus. Paraku on ka sellel teemal tõstatatud küsimustele väga raske enne reaalste andmetega tutvumist ning võimalike lahenduste reaalset läbiproovimist vastata küsimusele, kuidas ja mille põhjal me uudiseid klassifitseerima või klasterdama hakkame. Võib vast vaid lisada, et proovime siinkohal lähtuda põhimõttest, et rakenduse eesmärgiks on meediaportaalide info sorteerimine süstematiseerimine ja infomüra vähendamine kasutajale.

Hetkel, ilma reaalsete andmetega tutvumist usume, et suur murrang ei too kaasa märksõna esinemissageduse marginaalset tõusu. Näiteks Taavi Rõivas on ikka meedias pidevalt figureerinud, kuid usume, et kui reaalseid andmeid vaatame, siis viimasel ajal on see number oluliselt suurem kui ajalooline keskmine.

Juhul kui populaarseim on kollane uudis, siis rakendus kuvab selle kui populaarseima kuna see on see, mis inimesi sel hetkel kõige enam huvitab. Samas nagu analüüsis kirjutasime on kasutajal võimalus kasutada uudiste portaali valikut ning alateema valikut juhul kui kollased uudised teda ei huvita.

Keelevaliku muutmise mõte on iseensest väga huvitav, eeldaks otsingu sidumist mingi eesti-inglise-eesti sõnaraamatuga või sidumist Google translatega. Samas on keele loogika väga keeruline ning kontekst väga oluline. Seetõttu kui panna kasvõi suure Google tõlkimiprogrammi märksõnad nagu Jüri Ratas või Apple ning antud tulemuste järgi uudiseid otsida siis vaevalt see kasutajakogemus sellest võidab ning paremat tõlkimismootorit me antud kursuse raames tuleb tunnistada ka teha ei oska.