Digikultuuri säilitamine

From ICO wiki

Sissejuhatus

Nii päris- kui ka digitaalmaailmas luuakse pidevalt andmeid ning nagu füüsilises maailmas võib olla andmete loomisel piiravaks faktoriks füüsiline ruum, siis ka digitaalses maailmas on piirav faktor andmekandjal olev andmemaht. Erinevus digitaalse ja füüsilise maailma andmete vahel on paljuski see, et internetis tahame me andmeid üsna tihti ning kiiresti kätte saada. Seetõttu lisanduvad faktorid nagu interneti kiirus, andmete suurus (mis mõjutab andmete kvaliteeti) ning kättesaadavus (näiteks kui serverid on maas). Digikultuuri säilitamise all räägime me andmete liikumisest, nende kvaliteedi muutusest ning (pikaajalisest) säilitamisest.

Failide jagamine

Pilv

The Cloud.[1]

Cloud[2], mis eesti keeles tähendab pilve, on internetiühendusel ligipääsetav server. Pilv kui selline, on majutatud data keskustesse üle maailma ja on hea lahendus näiteks firmadele, kes ei soovi ise omada kohapeal serverit füüsilisel kujul. Pilv on põhjuseks, miks me saame uuest seadmest logida sisse oma kasutajasse ja seal on kõik see olemas, mis oli ka teises seadmes. Näiteks võib tuua Instagrami, Facebooki ja Gmaili, kõigis neis on kogunenud info, mis salvestatakse pilve ja on ligipääsetav, kui sul on selleks õigused. Firmadele võib olla kasulik minna üle pilve süsteemile, kuna sellega saaks hoida kokku kulude pealt, nimelt ei pea siis hooldama oma enda serveri süsteemi, ning hõlpsustab ka firmasisest andmete liigutamist.

Kuidas Cloud(Pilv) töötab?

Pilvandmetöötlus on võimalik virtualiseerimis tehnoloogia tõttu, mis lubab luua virtuaalse masina, mis käitub nagu ta oleks oma riistvaraga arvuti. Kui rakendada virtuaalset masinat õigesti, on ta oma füüsilisest isikust täiesti eraldi ja ei pääse üksteise lokaalsetele failidele ligi.


DropBox vs Google Drive

DropBox[3] on üks populaarsemaid pilve süsteeme turul. DropBox on varustatud automaatse salvestusega, mis tagab, et ei kaoks failid ära kergelt, lisaks ühildub hästi teiste platvormidega ja saab kasutada ka neti puudumisel. Küll aga puudub neil tugev kaitse oma andmete suhtes, ning on sattunud mõningate rünnakute ohvriks. Ka otsingu võimalused on neil kehvad, et leida kindlat faili.


Google Drive[4] eelisteks DropBoxi ees on juba näiteks mäluruumi suurus, kus DropBox annab 2GB aga Google Drive 15GB. Siin tasub ka ära märkida, et Google Drive jagab selle 15GB erinevate google teenuste vahel, seega olenevalt muude teenuste tarbimisest, võib olla maht mõjutatud. Samuti on paremad tasulised versioonid Google Drives, ning oma hinna eest saab rohkem. Kõiges muus peab sammu DropBoxiga, üle teiste platvormide võimalused, kohene ühilduvus, teiste inimestega kontakti loomine ja palju muud.

Torrent

Torrent logo.[5]

Torrentimine[6] on faili jagamis viis kus, fail saadetakse inimeselt inimesele (peer-to-peer). failid ise on killustunud ja ei asu kõik ühes kohas, nimelt on nad jaotatud mitmete teiste arvutite vahel ja selleks, et nad kätte saada, on vaja eraldi programmi, mis leiaks need ja saadaks need soovijale ja paneks ka tükid kokku. Torentimisega kaasneb vähe riske, kuna ei lae midagi alla otse netist, siiski võib olla pahatahtlike inimesi, kes üritavad ka seda teed mööda nakatada teiste arvuteid. Üldiselt on aga tõenäosus siiski väike, kuna inimesed annavad märku, kui on midagi valesti.

Usenet

Usenet logo.[7]

Usenet[8] on üks vanimaid võrgustike, mis sai alguse aastal 1979 kahe Duke ülikooli üliõpilase poolt. Algselt kasutati Useneti USA ülikoolide vahel uudiste, informatsiooni ja uurimistööde jagamiseks. Nüüdseks ajaks on see arenenud palju suuremaks ja võimsamaks ning täiuslikumaks platvormiks, mida kasutavad miljonid inimesed. Platvormil jagatakse väga erinevat informatsiooni nii öelda uudiste gruppides ja iga kasutaja saab luua ka uusi uudisgruppe. See on endiselt ülemaailmne piiranguteta foorum arutlusteks ja info jagamiseks.

DDL

Direct download[9] või otse allalaadimine, on enamasti hüpertekst, mis viib otse allalaadimis lehele kus saab hõlpsasti alla laadida soovitud faili. Sellisel meetodil jagatakse ka palju faile, mis on illegaalsed erinevatel põhjustel, ning kuna see on ühes kohas koos, on seda ka lihtsam takistada. Firmad kasutavad seda meetodit, et klientidele kiiresti edastada soovitud faile. Näiteks videokaardi firmad saaksid edastada manuale ja ka linke, et laadida alla muud tarkvara, mis pole illegaalne. See on ka üks lihtsamaid viise faile jagada, kuna on lihtsasti ligipääsetav.

P2P

Soulseek logo.[10]

Soulseek[11] “Soulseek is an ad-free, spyware free, just plain free file sharing network for Windows, Mac and Linux. Our rooms, search engine and search correlation system make it easy for you to find people with similar interests, and make new discoveries!” Soulseek on platvorm kus peamiselt jagatakse muusikat, kuid on ka võimalused jagada muid asju. Ajalooliselt on seal jagatud väga erineva maitse ja taustaga muusikat, mis sisaldab ka demosid ja väljastamata lugusid tuntud kui ka tundmatutelt artistidelt.

DC++ logo.[12]

DC++[13] Dc++ on samuti platvorm, kus saab jagada fail, Dc++ on suutnud enda alla võtta umbes 90% kogu liiklusest, mis toimub peer-to-peer viisil.

Data Hoarding

Andmete meeletu kogumine (data hoarding) on huvitav konsept, mida viivad tihti läbi individuaalid või vahest ka väiksemad suletud grupid. Tavaliselt ei tehta suuri kogumikke avalikuks, sest tihti on need andmed saadud illegaalselt (piraatlus). Mingil määral on see vastuoluline andmete kogumise eesmärgiga, mis on vanade (ning uute) loomingute säilitamine, et need oleks tulevikus inimestele vabalt kättesaadavad. Säilitada üritatakse kõiksugu meediumeid nagu filmid, laulud, ajakirjad jne. On palju huvilisi, kes tõmbavad alla filme, tele-sarju ning ka lihtsalt interneti videoid ning säilitavad need oma kõvakettale või spetsiaalsesse serverisse, et neid siis kunagi hiljem taas-vaadata või perele/sõpradele jagada. Ka laule kogutakse, kuid veidi vähem. Laule saab paljuski kuulata tasuta Youtube'st ning Spotifyst, kuid siiski tegeletakse nende kogumisega, sest nii on võimalik olla mitte-sõltuv teistest platvormidest ning ka säilitada parem helikvaliteet.

Telekanalid

Paljud televiisoris jooksvad programmid on finantseeritud riigi või telekanali enda poolt. Tuleb välja, et kõik sellised seriaalid ning programmid hoitakse telekanalite arhiivides alles ning neile on võimalik mingitel juhtudel ligi saada. Näiteks on kanalil BBC olemas arhiiv kõigest, mida nad on näidanud alates aastast 2007. Sellele saavad ligi kõik töötajad ning neil on võimalik vaadata tele-programme ning kuulata raadio-programme. Ühendkuningriikides on olemas arhiiv, kus on olemas üle kahe miljoni tele- ja raadio-programmi üle 75-lt erinevalt UK vabakanalilt. Sellele on võimalik ligi saada ainult Ühendkuningriikidest ning on peamiselt mõeldud õppe eesmärgil (sellele saavad ligi üle 120 ülikooli ning kõrgkooli).

Ajalehed ja ajakirjad

Digitaalsetel ajalehtedel/ajakirjadel on olemas hõlpsasti ligipääsetavad arhiivid, ning olenevalt teenusepakkujast on need kas tasuta või tasulised. Näiteks saab Delfi arhiivi vaadata tasuta ning artikleid on lihtne filtreerida ajavahemiku ning teema järgi. Ajalehtede, mis on digitaliseeritud, kättesaadavus võib varieeruda. Näiteks on New York Times digitaliseeritud aastast 1851 ning vanemaid väljaandeid saab vaadata ainult tasu eest. Lehel worldradiohistory.com on võimalik lugeda digitaliseeritud ajalkirju erinevatel televisiooni, raadio jms teemade. Antud lehel olevad väljaanded on ühe inimese poolt kokku ostetud või korjatud, samuti on talle ka saadetud annetusi (nii rahalisi kui ka väljaandeid endeid). Ära digitaliseeritud väljaanded on kas hoiustatud kuskil laos või viidud taaskasutusse.

Kommuunid

Andmete kogumisega tegelevatel inimestel on olemas ka omad kommuunid, kus esitatakse küsimusi, aidatakse üksteist ning jagatakse linke, kogemusi ning huvitavaid leide. Tuntuimad on näiteks r/DataHoarder ja r/musichoarder redditis ning Discordis. Kommuunide peamine eesmärk on üksteise toetamine, sest kõik liikmed jagavad sarnast huvi. Näiteks otsis redditi kasutaja u/ch00f taga üht vana filmi, mille selle looja ilmselt tahtlikult hävitas.[14] Kommuuni liikmed asusid appi ning aitasid selle üles leida interneti avarustest. Siiski on ka teisane eesmärk, mis on suurtemate projektide jaoks abiliste leidmine. Näiteks on olemas projekt, kus paluti inimeste abi, et säilitada Yahoo gruppe, sest tuli teade, et need Yahoo grupid pannakse kinni.[15] Paar kuud tagasi tuli teade, et üks vana telekanal tuleb tagasi ning redditis võttis üks kasutaja ette plaani koguda kokku kõik selle kanali vana materjal, nii palju kui seda leidub. Ka sellel projektile leiti mitmeid abilisi r/DataHoarder kommuunist.[16]


Crowdfunding (ühisrahastus projektid)

Crowdfunding oma olemuselt on protsess, kus suvalised inimesed maailmas, kel on huvi, saavad panustada oma raha, et anda panus mõne uue asju loomisel, vana asja säilitamisel või lihtsalt aidata kedagi raskel ajal.

Digitaliseerimine

Digitaliseerimine võib olla vahel üsna ajakulukas ning kallis. Sellisel juhul vaadatakse vahel üldrahva poole, et leida huvilisi, kes oleks nõus panustama midagigi. Näiteks toimus 2017. aastal Cornell University audio-visuaalse arhiivide digitaliseerimine, mille jooksul küsiti huviliste abi. Kokku oli 123 panustajat ning kokku koguti üle 16,000 dollari, mis oli üle tuhande dollari seatud eesmärgist. Digitaliseeritud filmid on nüüd vaadatavad kõigile.[17] Kickstarter on üks tuntumaid platvorme, kus inimesed saavad seada üles ühisrahastus projekte. Sellel platvormil leidub ka eraldi sektsioon taastus-projektidele, kus nii digitaliseeritakse kui ka taastatakse vanu filme, laule, kirju, maju, jne.

Taastamine

Music Preservation Society (MPS) tegeleb haruldaste ja klassikaliste vinüülide taastamisega. Inimestel on võimalus annetada raha omal valikul projektidele ning kui miinimum rahaline nõue ületatakse, pannakse projekt töösse. Annetajatel on võimalus saada vinüülid endale.

Andmete kvaliteedi langus

Andmete ringluse etapid, kus kvaliteet võib langeda on loomine ja jagamine. Nendes etappides langeb kvaliteet peamiselt inimeste ebaadekvaatsusest, teadmatusest ning eeldusest, et hoitakse aega kokku. Lisaks võib öelda, et hävitamise etapis langeb kvaliteet nulli, kuna andmed kaovad tervikuna.

Kvaliteedi langus andmete loomisel

Andmete loomine selles kontekstis ei tähenda mitte uue originaalteose (dokument, video, vms) loomist, vaid füüsilistel meediumitel asuvate andmete valmistamist hoiustamiseks/jagamiseks. Kui lähtematerjal on rariteetne või unikaalne, peab nägema vaeva, et säilitada seda parimas kvaliteedis. Kuid üldiselt inimestel lihtsalt ei ole selle saavutamiseks kannatust ning vahel levib arvamus, et küll keegi teine selle kunagi ära teeb – mõnikord ei teadvustata materjali unikaalsust või tähtsust.

  • Digiteerima – Analoogmeediumilt andmeid digimeediumile teisendama.
Digiteeritakse pilte, raamatuid, vinüülplaate, magnetlinte ja kassette.
  • Rebima (to rip) – Digitaalsisu konteinerist väljavõtma.
Rebitakse plaate (ja voogesitusteenuseid). Vahel kasutatakse terminit ebakorrektselt ka vinüülplaadi digiteerimise kohta.

Digiteerimine

Analoogne siinuslaine ning kaheksa kvantimistasandiga digiteeritud laine.[18]

Digiteerida on üldiselt raskem kui rebida. Digiteerimine vajab tihti kalleid ja spetsialiseeritud seadmeid ning palju aega (näiteks vinüüli digiteerimine võtab aega sama kaua kui vinüülplaadi mängimisaeg). Lisaks võib digiteerimisel väikseimagi parameetri muutmisel kvaliteet oluliselt erineda, kuna analoogsignaalile avaldavad mõju lõpmatult paljud füüsilised parameetrid. Analoogmaterjalist pole ka võimalik salvestada täpset digitaalset koopiat, kuna toimub pidevsignaali redutseerimine diskreetsignaaliks ehk lõpmatute väärtuste kaardistamine konkreetsesse vahemikku, mis toob kaasa kadusi.[19] Kõige arusaadavamalt seotud helilainetega, kuid käib ka näiteks kaameraga pildistamise või piltide skanneerimise kohta.

Reaalselt on tehnoloogilised lahendused piisavalt head, et digiteerida tavainimese tajule piisava kvaliteediga, eeldusel, et inimesed tunnevad tehnoloogiat ja mõjusaid parameetreid ning neil on vastavad vahendid ja aega (sama käib ka rebimise kohta). Rohkem digiteeritakse iseseisvalt vinüülplaate ja pilte ning teiste meediumite jaoks kasutatakse digiteerimisteenuseid (nt. PhotoPoint, Audioabi, Ratus või hästi varustatud raamatukogu).

Vinüülplaat

Vinüülsalvestuse päritolufail (~1200€ komplekt)

Vinüülplaadi digiteerimiseks on vaja plaadimängijat (turntable), helipead (cartridge), eelvõimendit (preamp), analoog-digitaalmuundurit (ADC) ning helisalvestus ja -redigeerimistarkvara. Konfiguratsioone, seadmeid ja programme on tohutult palju, kuid eelmainitud on põhikomplekt. Näiteks võib eraldiseisva ADC asemel kasutada arvutisse sisseehitatud muundurit, kuigi seda ei ole soovitatud teha, sest enamasti on sisseehitatud muunduri kvaliteet eraldiseisvast märksa madalam. Lisaks kasutatakse enne digiteerimist vinüülplaadi ja helipea puhastajaid ning peale digiteerimist tarkvara, millega võetakse välja esinenud klõpsud/pragin (clicks/crackle). Peab ka jälgima, et plaati mängitakse õige pöörlemiskiirusega (33, 45, 78), muidu tuleb salvestus aeglasem/kiirem. Lisaks, mida rohkem on plaati mängitud (või tehtud ebaõnnestunud digiteerimiskatseid) seda halvemaks muutub helikvaliteet. Kvaliteedi languse kiirus sõltub plaadimängija ja helipea kvaliteedist, kuid üldiselt hakkab kvaliteet langema umbes 100st mängust. Kokkuvõttes sõltub salvestuse kvaliteet väga palju kulutatud rahast ja digiteerija teadmistest vastava riistvara seadistamisel ja tarkvaraga opereerimisel. Digiteerimise variatsiooni tõttu, võrreldes rebimisega, võib vinüüli digiteerimist pidada mänguliseks tegevuseks.

Vinüülsalvestuste juurde kuulub tavaliselt päritolu fail (lineage.txt), kus on info kasutatud digiteerimiskomplekti kohta ning vahel digiteerija isikupärane logo/disain. Lisaks võib päritolu faili järgi arvutada kokku komplekti hinna.

Järmistes näidetes on lisaks helifailidele toodud ka spektrogrammid, mida tihti kasutatakse heli visuaaliseerimisel ja kvaliteedi hindamisel. Spektogrammi X-telg on aeg, Y-telg on helisagedus ja Z-telg (ehk värviskaala) on helitugevus. Kahjuks ei loe enamasti spektogrammilt piisava täpsusega välja helitugevuse resolutsiooni, mis on ka kvaliteedi määramisel tähtis. Spektrogrammide välimus sõltub helitöötluse ja -salvestamise protsessist ning tihendusest, kui tihendamisel esinevad kaod. Spektogrammide lugemine on nüansirikas ja tihedalt seotud muusikastiiliga, kuid on mõned üldised näpureeglid kvaliteetse faili äratundmiseks:

Järgmiste punktide korral tuleb meeles pidada, et kui spektrogrammi mingi osa on seotud muusika omapäraga (näiteks laulu sees ongi kasutatud nelinurklaine effekti, mis esineb spektrol pidevate joontena) ei ole see madala kvaliteedi indikaator.
Tuleb ka meeles pidada, et tegu on kvaliteedimõõtmisviisiga, mis ei pruugi vastata sellele, kuidas keegi inimene laulu kvaliteeti tajub, näilise kvaliteedi teadasaamiseks tuleb laulu kuulata.
  • Kõrgemate helisageduste juures olev "must taevas" ei hõlma üle 40% kõrgusest.
  • Ei sisalda selgelt eristatavaid pidevaid jooni ega värviüleminekuid.
  • Kõrgeimate helisageduste juures ei esine eraldatud "sinist pilve".
(Tavaliselt esineb, kui mõõtesagedus on liiga tihe, kuna salvestatakse ka kõrgemaid helisagedusi,[20] mida laul ei pruugi sisaldada.)
(Võib ka esineda kadudega tihendamisel, kuna visatakse välja kõrge sagedusega helid, mida inimene ei pruugi kuulda.)
  • Enamus värvid jäävad tumesinise ja kollase vahele.
  • Kõrgemate helisageduste juures ei esine sakke.
  • Värviüleminekud on sujuvad.


Näide ebakvaliteetsest vinüülsalvestusest, kus on kuulda praginat. (Anorexia Nervosa - Sister September)

Pidevad jooned ~30kHz ~96kHz, pidev värviüleminek ~20kHz ning esinevad suur must taevas ja selle sees ka sinine pilv.


Vinyl-Bad.png


Näide kvaliteetsest vinüülsalvestusest, salvestatud lehe ääres välja toodud komplektiga. (Dire Straits - Sultans of Swing)

Esineb piisavalt väike must taevas.


Vinyl-Good.png

Rebimine

Rebimisteenused üldiselt puuduvad, põhiliselt rebitakse iseseisvalt plaate (CD, SACD, DVD, BD). Siin punktis muutub tavakasutaja jaoks olukord kirjuks. Igal eelmainitud plaaditüübil on oma viis, kuidas seda kvaliteetselt rebida.

CD

CUETools DB logi plaadi laulude kohta.
EAC rebimislogi üldinfo.
EAC rebimislogi ühe laulu info.
60% rebimislogi.

CD-d on eelmainitud plaaditüüpidest kõige lihtsam rebida. Kuigi mõned plaadilugejad on kvaliteetsemad,[21] toimib rebimine ükskõik millise lugejaga. Rebimiseks on ka palju programme, kuid peamiselt kasutatakse kolme põhilist, mis oma lisafunktsionaalsusega aitavad toota kvaliteetsemaid andmeid: EAC (Windows), XLD (Mac), Whipper (Linux). Nende funktsionaalsus on enamjaolt sama, kuid konfiguratsioonid erinevad (näiteks EAC soovitatud konfiguratsioon). Eelmainitud programmid võimaldavad rebida nn “turvalises režiimis”, mis loeb andmeid plaadilt mitu korda, elimineerides lugemisvead.[22] Turvaline režiim kindlustab küll kvaliteedi, kuid olenevalt plaadi seisust võtab kordades kauem aega. Teised rebijad/mängijad üldiselt vigu ignoreeririvad, kuna tihti osutuvad vead kuulajale märkamatuks, kuid arhiveerimise eesmärgil peab ikka korrektse koopia saamiseks kasutama asjakohaseid programme. Lisaks toetavad eelmainitud programmid (üht või mõlemat) kontrollsummade andmebaase AccurateRip ja CUETools DB. Kui kasutaja on rebinud plaadi, laetakse andmebaasi plaadi kontrollsummad ning kontrollitakse neid andmebaasis olemasolevate vastu. Mida rohkem inimesi on saanud sama tulemuse, seda suurem võimalus, et rebitud andmed on korrektsed. CUETools DB saab mõnel juhul parandada ka vigaseks jäänud andmeid.[23] Eelmainitud rebimisprogrammid toodavad oma tegevuse põhjal ka rebimislogi, mis sisaldab rebimismetoodika kohta infot ja mille järgi võib hinnata kui suur võimalus on, et rebitud heli on biti täpsusega. Logisse lisatakse ka kontrollsummaandmebaasi(de) tulemused.

Rebimislogide jaoks on olemas logikontrollijad (log checker), mis hindavad protsendiliselt kui head rebimismetoodikat kasutati. Ideaalne logi on 100% skooriga, kehtiva logi kontrollsummaga ning laulude kontrollsummad mõlemas kontrollsummaandemaasis vähemalt paar korda.

SACD

Hübriidse SACD kihid.[24]

SACD on Sony väljatöötatud plaaditüüp, mis saab kanda rohkem andmeid ja kõrgemas kvaliteedis heli kui CD.[25] Seepärast (peamiselt mitme helikanali toe tõttu) eelistatakse plaati jazz ja klassikalise muusika jaoks.[25] Enamasti koosneb plaat kahest kihist, tavaline CD kiht ja SACD kiht. CD kihti saab mängida/rebida samamoodi nagu tavalist CD-d, kuid SACD kiht vajab erilist plaadimängijat ja tarkvara, kuna kasutab teist audiokodderingut, nimelt DSD-d (CD kasutab PCM-i). Varem sai SACD plaate rebida ainult PlayStation 3 videomängukonsooli konkreetsete mudelitega.[26] Nüüd on aga võimalik rebida ka arvutiga,[27] kuid ainult plaadilugejatega, millel on SACD tugi.[28] Lisaks puuduvad SACD kontrollsummaandmebaasid ning rebimistarkvara ei tooda sama kvaliteetseid logisid kui CD rebimistarkvara.

Kvaliteedi langus andmete jagamisel

Jagamisel võib andmete kvaliteet langeda, kui saadetakse, kas kadudega tihendatud formaadis või koopia asemel salvestus (pilt ekraanist kuvatõmmise asemel või helisalvestus muusikafaili asemel). Esimesel juhul on tihti probleemiks aeglane internetiühendus või vähene kettaruum. Teisel juhul sobiva failijagamisteenuse leidmise raskus ja/või telefoniga pildistamise/salvestamise lihtsus.

Toored / tihenduseta andmed – Originaalsed andmed üks üheses esituses.

  • Originaalse kvalideetiga.
  • Ruumi raiskav.
Tuntumad formaadid: PCM, WAV ja DSD.
Siia alla kuuluvad ka näiteks otse sensorilt saadud andmed.

Kadudega tihendus – Andmete kokkupakkimine, arvates välja inimesele mittetajutavad andmed.

  • Madalama kvaliteediga.
  • Rohkem ruumi säästev.
Tuntumad formaadid: MP3, OPUS, AAC, JPG, H.264/5 ja VP8/9.
Kadudega tihendatud andmed on nagu lõppprodukt, mida ei tohiks redigeerida ja ülesalvestada ega teisendada teise formaati, kuna mitmekordsel kadudega tihendusel kaod suurenevad veelgi. Näiteks JPG faili muutmine Photoshopis ja ülesalvestamine on hävitav operatsioon, kuid PNG failiga samamoodi tegutsemine pole. Kuigi vahel teisendatakse kadudega formaadist kadudeta formaati, kuna originaalne formaat ei ole laialdaselt toetatud, näiteks vanade videomängukonsoolide heliformaadid.

Kadudeta tihendus – Andmete kokkupakkimine, säilitades mittetajutavad andmed.

  • Originaalse kvalideetiga.
  • Vähem ruumi säästev.
Tuntumad formaadid: FLAC, ALAC, APE, PNG. Kadudeta videokodeeringud ei ole nende suuruse tõttu üldkasutuses ja on vähetuntud, kuigi kaduteda variandid eksisteerivad ka H.264/5 ja VP9 kodeeringutel.[29]
Kadudeta tihendatud andmeid saab redigeerida ja ülesalvestada või teisendada teise kadudeta formaati lisakadude tekkimiseta. Näiteks saab FLAC faili kadudeta konverteerida WAV failiks.

Eelmainitud seosel, et kadudega tihendatud andmed on halvema kvaliteediga kui kadudeta tihendatud andmed ei pea alati paika, kuna kvaliteet sõltub tugevalt ka materjali loomisprotsessist, pilditöötluses näiteks kaamerast ja/või värvitasakaalu tuunimisest ning muusikatöötluses mikrofonist ja/või helitöötlusest.


Näide näiliselt ebakvaliteetsest kadudeta tihendatud salvestusest (FLAC 16bit 44kHz / CD kvaliteet). (ABBA - Waterloo "Alternate Mix")

Kitsas ja hele värvispektrer ning pidev värvivahetus ~18kHz.


Format-Bad.jpg


Näide näiliselt kvaliteetsest kadudega tihendatud salvestusest (MP3 128kbps / ~ Spotify keskmine kvaliteedivalik). (芝麻Mochi - 僕が死のうと思ったのは)

Pidev joon ~16kHz, sakid üle 16kHz ja esineb must pilv, kuid sujuv värvivahetus ning lai ja tasakaalus värvispekter.


Format-Good.png

Andmete säilitamine

Infoühiskonnas on andmete digitaalsel säilitamisel oluline roll. Oleme jõudnud punkti, kus digitaalseid andmeid luuakse ja vahetatakse oluliselt rohkem kui mõnel muul kujul andmeid. Andmete säilitamine seisneb aga enamas kui lihtsalt salvestamises. Andmete säilitamine tähendab eelkõige andmete kasutatavuse säilitamist ja nendele juurdepääsu kindlustamist.[30] Tehnoloogia pideva uuenemisega kaotavad aga digitaalsed andmed kiiremini kasutatavuse, sest andmekandjate ja failiformaatide muutudes ei võida enam vanemaid tehnoloogiaid toetada. Digitaalsete andmete säilitamise tehnoloogia on viimase viiekümne aasta jooksul käinud läbi meeletu arengu (Andmesalvestusseadmete lühiajalugu). On seadmeid, mis on siiani kasutuses, kuid on ka seadmeid nagu flopikettad, mille lugejaga arvutit on tänasel päeval leida üsna haruldane ning sama võib varsti juhtuda ka CD- ja DVD-lugejatega.[31] Kuigi uuemad tehnoloogiad pakuvad peale suurema andmemahu ka kvaliteetsemat töökindlust, on andmete säilitamise juures siiski murekohaks andmete haprus. Tänapäeva andmesalvestusseadmed ei ole 100% tõrkekindlad, mistõttu tuleb arvestada olukordadega, kus andmed võivad rikneda mõne füüsilise või loogilise vea tõttu. Sellest tingituna ei ole leitud ka ühtset viisi andmete säilitamiseks. Igal ühel on omad head ja vead. Selles teemas on lühidalt juttu erinevatest andmete säilitamise tehnoloogiatest, andmete varundamisest ja digitaalsest arhiveerimisest.

Andmete säilitamise tehnoloogiad

DAS ehk otsepöördus-mäluseade

DAS[32]
NAS[33]
Project Silica kvartsklaas[34]

Kõige enam levinum tehnoloogia on otsepöördus-mäluseade ehk DAS (Direct-attached storage), kus salvestusvahendid ühenduvad otse serveri külge ilma võrguühenduseta. Teisisõnu kujutab DAS endast süsteemi, kus mäluseade, nagu näiteks kõvaketas, on otse ühendatud arvutiga. DAS-i peamiseks tunnuseks on see, et nende kahe seadme vahel ei ole ühtegi võrgu seadet. Kuna otsepöördus-mäluseadmed on arvutites üsna levinud on enamik arvutikasutajaid suuremal või vähemal määral DAS-i kasutanud.[35] DAS omakorda jaotub sisemiseks ja väliseks. Sisemine DAS kujutab endast mäluseadet, mis on serveriga sisemiselt ühendatud. Lauaarvutitel ja enamikul serveritel on DAS sisemise kõvaketta kujul. Välise DAS-i korral on arvuti seotud otse välise mäluseadmega. Levinumateks mäluseadmeteks on traditsiooniline kõvaketas ehk HDD (Hard Disk Drive) ja pooljuhtketas ehk SSD (Solid State Drive). Andmete pikaajaliseks säilitamiseks pooljuhtketast väga ei valita, sest SSD-del on kirjutuskordade arv piiratud, mis tähendab lühendatud eluiga. Lisaks on SSD gigabaidi hind siiani kõrgem kui HDD-el, mis ei ole andmete pikaajalisel säilitamisel kuigi kuluefektiivne. Seepärast eelistatakse enamasti talletada suuremahulisi andmeid välise kõvaketta peal. DAS sobib hästi lokaalseks andmetöötluseks, seda on kerge seadistada ning on see odav.[35] DAS-i puudusteks on peamiselt selle piiratus nii liideste kui ka ketaste arvult.

NAS ehk võrgumälu

Üha rohkem populaarsust kogumas võrgumälu ehk NAS (Network-Attached storage) on tehnoloogia, kus salvestusvahend on ühendatud võrku.[36] NAS-i kasutatakse tavaliselt kodu- või kontorivõrgus failide hoidmiseks. Mõnedel NAS-idel on võimalus ka luua seadmest oma isikliku pilve (nagu Google Drive või Dropbox) nii, et failidele saab ligi ka ilma, et peaks NAS-iga samas võrgus olema. NAS-i eelisteks on parem töökindlus, andmemahu skaleeritavus ja andmete turvalisus. Lisaks erinevalt DAS tehnoloogiast on NAS-ile võimalik pääseda ligi mitmest erinevast seadmest korraga. NAS-i töökindluse võti seisneb selles, et selles süsteemis omavahel ühendatud seadmed sisaldavad tavaliselt mitu kõvaketast.[36] Osalt sellepärast, et nii on rohkem andmemahtu ja teisalt ka seetõttu, et andmeid kõvaketta riknemise eest kaitsta. Sellist kõvaketaste jada või massiivi nimetatakse RAID-iks (Redundant Array of Inexpensive Disks). RAID-i idee seisneb selles, et koos ühendatud ketaste süsteemil on peale suurema mahu ka suurem jõudlus kui üksikul kettal.[37] RAID-tehnoloogia ei ole aga alternatiiv andmete varundamiseks, vaid pakub lihtsalt liiasust salvestusseadmetele. Liiasuse (redundancy) all mõeldakse, et ketta vea korral saab viga parandada või minna tööga üle teisele kettale.[38] NAS-i puuduseks võib tavakasutaja jaoks olla aga selle jaoks vajalike seadmete kõrge hind.

Tulevik

Nõudlus pikaajalise andmete säilitamise järele on jõudmas enneolematu tasemeni ning on kasvamas juba zettabaitideni. Olemasolevad salvestustehnoloogiad aga ei paku kulutõhusat lahendust pikaealiseks andmete salvestamiseks. Sellises mastaabis töötamine nõuab traditsioonilise andmete salvestussüsteemide ümbermõtestamist ehk kuidas suuremahulisi salvestussüsteeme ehitame ja mis salvestustehnoloogiaid nendes kasutame. Microsoft Research tegeleb hetkel ühe märkimisväärse salvestustehnoloogia väljatöötamisega, mis on loodud spetsiaalselt pilvandmetöötluse jaoks.

Project Silica

Selle asemel, et tugineda arvutites või muudes seadmetes töötamiseks mõeldud salvestusvahenditele on Microsoft tulnud välja ideega salvestada andmeid 75x75x2 millimeetri paksusele klaasile. Andmekandjana on klaas sobiv materjal kuna see on vastupidav ja sellel ei esine bitivigu (bit rot). Klaasi peale kirjutamine käib fetmosekundilise laseriga (mida kasutatakse ka laseroperatsioonides) ja masinõppe algoritmid loevad andmed klaasilt tagasi, dekodeerides pilte ja mustreid, mis tekivad, kui polariseeritud valgus läbi klaasi paistab.[39] Koostöös Warner Bros. filmikompaniiga on Microsoft saanud testida ka seda tehnoloogiat, suutes klaastükile edukalt kirjutada ja sellelt lugeda terve 1978.aasta “Supermani” filmi.

Andmete varundamine

Andmete varundamine tähendab andmetest varukoopiate tegemist, et andmete kaotsimineku või andmekandja kahjustumise korral oleks võimalik andmed taastada. Antud kontekstis on juttu just failide varundamisest. Olgu tegemist isiklikke või väikefirma andmetega, kui tahta andmeid hoida nii, et need pikaajaliselt säiliks, tuleks need varundada. Varundamine küll ei garanteeri andmete säilivust, kuid aitab ennetada nende kadumist.[40] Andmete varundamisel peaks olema ka tagatud andmete terviklikkus. See tähendab, et andmetest tehtav koopia peaks olema terviklik, et tulevikus oleks see kasutus- ja töötlemiskõlblik ega puuduks mingeid osi, mida juhtumisi võiks vaja minna. Andmete varundamiseks on mitmeid viise. Üldljuhul piisab pisemate failide varundamiseks mõni pilveteenus, kuid suuremate andmemahtude korral jääb pilveteenus liiga aeglaseks ja lisaruumiga võivad kaasneda lisatasud. Selle asemel sobib suuremahuliste andmemahtude varundamiseks tavaline väline kõvaketas või mõni NAS-i lahendus.[41]

3-2-1 reegel ehk kuidas andmeid õigesti hoida

Andmete varundamiseks on mitmeid viise, kuid nendest kõige populaarsem on 3-2-1 reegel.[40] Reegli järgi peaks andmetest hoidma vähemalt kolme koopiat, vähemalt kahel erineval andmekandjal, kus üks nendest peaks asuma füüsiliselt mujal, näiteks mõnes pilveteenuses. Viimase mõte on juhuks kui su kodus peaks juhtuma mingi õnnetus, on sul vähemalt teises kohas varukoopia olemas.

Digitaalne arhiveerimine

Digitaalne arhiveerimine ei erine üldiselt traditsioonilisest arhiveerimisest. Nagu tavapärase arhiveerimisega tegeleb digitaalne arhiveerimine andmete kogumise, nende säilitamisega ning kasutatavuse tagamisega tulevikuks. Erinevus seisneb lihtsalt kasutatavates vahendites. Tuntuimaks ja eeldatavasti suurimaks digiarhiiviks on USAs asuv mittetulundusühing Internet Archive, mille eesmärk aastast 1996 on ehitada avalikku digiarhiivi veebisaitide (Wayback Machine) ja muude digitaalsel kujul olevate materjalide jaoks. Lisaks on tasuta kontoga on võimalik kõigil sinna oma faile üleslaadida.[42] Digitaalse arhiveerimisega on hakanud tegelema raamatukogud ja arhiivid ümber maailma. Eestis tegeleb suuremamahulise digitaalse arhiveerimisega nii Rahvusraamatukogu digiarhiiv DIGAR (DIGARi veebiarhiiv) kui ka Rahvusarhiiv.

Kasutatud materjalid

  1. https://www.cloudflare.com/resources/images/slt3lc6tev37/3YT0gya2bkUeuMrnGxhjAZ/4146c20c214cf001c74c0868ddfb9503/what-is-the-cloud.png
  2. https://www.canto.com/blog/what-is-dropbox/
  3. https://www.canto.com/blog/what-is-dropbox/
  4. https://beebom.com/dropbox-altenatives-cloud-storage-services/
  5. https://upload.wikimedia.org/wikipedia/commons/thumb/5/5c/U_%28micro%29_Torrent_logo.svg/1024px-U_%28micro%29_Torrent_logo.svg.png
  6. https://www.cloudwards.net/what-is-torrenting/
  7. https://cdn.comparitech.com/wp-content/uploads/2016/07/usenet-provider-logo.jpg
  8. https://www.usenet.com/what-is-usenet/
  9. https://www.wisegeek.com/what-is-a-direct-download-link.htm
  10. https://static.techspot.com/images2/downloads/topdownload/2014/07/soulseek.png
  11. https://www.slsknet.org/news/node/680
  12. https://a.fsdn.com/allura/p/dcplusplus/icon?1581708101?&w=90
  13. https://sourceforge.net/projects/dcplusplus/
  14. https://www.reddit.com/r/DataHoarder/comments/k7j4cl/im_having_a_really_hard_time_finding_a_film_that/
  15. https://yahoo-geddon.tumblr.com/start-here
  16. https://www.reddit.com/r/DataHoarder/comments/hxgrmn/g4_media_archival_project_team_in_need_of_help/
  17. https://media.library.cornell.edu/category/University+Archives/5877621
  18. Hodgson, Jay (2010). Understanding Records, p.56. ISBN 978-1-4411-5607-5
  19. https://www.mathworks.com/discovery/quantization.html
  20. http://195.134.76.37/applets/AppletNyquist/Appl_Nyquist2.html
  21. https://forum.dbpoweramp.com/showthread.php?43786-CD-Drive-Accuracy-2019
  22. https://wiki.hydrogenaud.io/index.php?title=EAC_Drive_Options
  23. http://cue.tools/wiki/CUETools_Database#How_many_errors_can_a_rip_contain_and_still_be_repairable.3F
  24. https://www.sa-cd.net/faq
  25. 25.0 25.1 https://blog.discogs.com/en/a-dive-into-sacds/
  26. http://ps3sacd.com/faq.html
  27. https://gist.github.com/willsthompson/a4ececdee9cbc4e369eb923e136a8243
  28. https://hifihaven.org/index.php?threads/rip-sacd-with-a-blu-ray-player.3652/#post-69000
  29. https://antumdeluge.wordpress.com/lossless-ffmpeg-video-encoders/
  30. https://kompy.info/failid-dokumendihalduses.html?page=2
  31. https://digitark.ee/malupulgalt-pilve-kuidas-sailitada-oma-digitaalset-varandust/
  32. https://www.sciencedirect.com/topics/computer-science/direct-attached-storage
  33. http://wiki.cas.mcmaster.ca/index.php/File:Network_Attached_Storage_Device2.jpg
  34. http://wiki.cas.mcmaster.ca/index.php/File:Network_Attached_Storage_Device2.jpg
  35. 35.0 35.1 https://wiki.itcollege.ee/index.php/DAS
  36. 36.0 36.1 https://wiki.itcollege.ee/index.php/NAS
  37. http://www.cs.tlu.ee/osakond/opilaste_tood/bakalaureuse_ja_diplomitood/2002/Rain_Haviko/mass-salvestus/tekstid/hdd_RAID.html
  38. https://wiki.itcollege.ee/index.php/RAID
  39. https://news.microsoft.com/innovation-stories/ignite-project-silica-superman/
  40. 40.0 40.1 https://dea.digar.ee/cgi-bin/dea?a=d&d=AKdigi201704.2.25.1
  41. https://courses.cs.ut.ee/2019/infsec/spring/Main/Loeng-AndmeteKustutamineJaVarundus
  42. https://archive.org/about/