You are here: TUTWiki>Tietoturva/Tutkielmat>LyytinenT?>2007-5

Pauli Pieniniemi:

Tiedon kuluminen ja siltä suojautuminen

Johdanto

Tiedon kuluminen (engl. bitrot, bit decay) on ilmiö, jossa tallennettuun tietoon ei enää jostain syystä päästä käsiksi. Sen syy voi olla fyysinen, jolloin tallennettu tieto on ajan myötä muuttunut näennäisen itsestään tallennusvälineessä. Laajemmassa merkityksessä tiedon kulumiseksi voidaan lukea myös sen tallennusformaatin vanheneminen tai tiedon lukemiseen tarvittavien laitteiden tai ohjelmien katoaminen. Tällöin tietoon ei päästä käsiksi, vaikka itse data olisikin fyysisesti ehjää. Määrittelyn laajuudesta riippumatta ilmiön ymmärtäminen on tärkeää, jotta tiedetään miten siltä voi suojautua. Tämä on erityisen merkityksellistä, kun aiotaan säilyttää suuria tietomääriä pitkiä aikoja. Etenkin tiedon fyysisen kulumisen seuraukset ovat vaikeasti ennustettavissa, mutta ajan myötä tiedon kuluminen vaikuttaa ainakin tiedon eheyteen ja käytettävyyteen, mahdollisesti myös sen luottamuksellisuuteenkin.

Tämän tutkielman tarkoituksena on käsitellä tiedon kulumista monipuolisesti sen eri kerroksilta. Aluksi käsitellään bit rot -ilmiötä sen alimmalta tasolta eli fyysisenä ilmiönä yleisimmissä tallennusmedioissa sekä esitetään keinoja, joilla ilmiöltä voidaan suojautua. Tämän jälkeen luodaan pikainen silmäys mahdollisesti bittien kulumisesta aiheutuvaan ohjelmien kulumiseen (engl. software rot). Tutkielman loppuosassa tiedon kulumista tarkastellaan sen laajimmassa merkityksessä aina tiedostoformaatin, lukuohjelman ja laitteiston tasolta. Tämän tyyppinen laaja näkökulma nousee esille erityisesti suurissa tiedontallennushankkeissa, joissa on tarkoituksena säilöä tietoa pitkään, jopa ikuisesti. Lopuksi tutkielmassa esitellään lyhyesti Massachusettsin teknillisen yliopiston kirjaston DSpace hanketta, joka toimii hyvänä esimerkkinä pyrkimyksestä säilöä digitaalista tietoa sukupolvien ajan.

Tiedon kuluminen erilaisissa tallennusmedioissa

Tietokoneella luettavan datan joidenkin bittien arvon kääntyminen toiseksi on erittäin kohtalokasta. Yhdenkin bitin epäonnistunut lukeminen voi pahimmillaan vaikuttaa kaiken sitä seuraavan tiedon lukemiseen ja tehdä koko tallenteesta käyttökelvottoman. Onneksi mediat kuitenkin kestävät yleensä hieman tätä enemmän virheitä. Lisäksi esimerkiksi tarkistussummien käyttäminen vähentää bittien arvojen vaihtumisesta koituvia ongelmia.

Toisaalta, huonolla onnella myös tarkistussumman bitit voivat muuntua. Niinpä käytännössä kaikissa tallennusvälineissä laadukkaat mediat ja oikeanlainen säilytys ja käyttö ovat paras keino suojautua fyysiseltä bittien kulumiselta. Käytettäessä siirrettäviä medioita pitkäaikaiseen arkistointiin tulisi arkistot tallentaa ajoittain uudelle välineelle.

Vanhat magneettiset välineet

Vanhat magneettiset välineet, kuten C-kasetit, 5 ¼” tai 3,5” disketit eivät ole kovinkaan hyviä tiedon pitkäaikaiseen säilytykseen. Niissä tiedon tallentaminen perustuu levyn tai nauhan pinnalla olevien pienien magneettisten hiukkasten järjestyksen muuttamiseen. Levylle kirjoitettaessa vahva magneetti kääntää osien suunnat halutuiksi, josta niitä voidaan myöhemmin lukea levyaseman magneettisella lukupäällä.

Ongelmaksi muodostuvat sekä itse levyn lukeminen että ulkoiset tekijät. Levyaseman magneettinen lukupää koskee magneettikiekon pintaa luettaessa, joten levyke kuluu vähitellen jo pelkästä normaalista käytöstä [1]. Lisäksi levykkeiden muovikuoret suojaavat magneettilevyä vain kosketukselta, mutta eivät juurikaan muilta rasitteilta. Niinpä maapallon tai jonkin sähkölaitteen aiheuttama magneettikenttä voi vähitellen kääntää levyn magneettisia hiukkasia itsensä mukaiseksi, ja tällöin seurauksena saattaa olla tallennetun bitin arvon vaihtuminen yhdestä nollaksi tai toisinpäin. Levykkeet tulisikin säilyttää pimeässä ja kuivassa paikassa, joka on magneettisesti mahdollisimman rauhallinen.

Optiset mediat

1990-luvun loppupuolella polttavien CD-asemien yleistyessä CD-R-levyjä mainostettiin lähes ikuisiksi tallennusmedioiksi, joihin jokaisen tulisi digitalisoida kaikki vanhat dokumenttinsa. Jotkut valmistajat lupasivatkin levyilleen jopa 100 vuoden eliniän perustuen simuloituihin vanhentamistesteihin. Myöhemmin tämä lupaus on monien tutkimusten myötä osoittautunut vähintäänkin optimistiseksi arvioksi, ainakin suurimmassa osassa levyjä. [2, 3].

CD-levylle tallennettaessa levyn pinnan heijastusominaisuuksia muutetaan niin, että lukijan lähettämä laser-säde heijastuu eri kohdista eri tavalla. Tehdasvalmisteiset CD-levyt tehdään valamalla, joten niissä heijastuserot johtuvat levyn pinnalla olevista kohoumista ja notkoista. Itse poltetuissa CD-levyissä levyn pinnan heijastusominaisuuksia muutetaan puolestaan kemiallisesti kuumentamalla halutut kohdat erittäin nopeasti polttavan CD-aseman laserilla. Tällöin levyn pinta on edelleen tasainen. Uudelleen kirjoittavien CD-levyjen tapauksessa levyn pinnoiteaine on sellaista, että sen heijastusominaisuuksia voidaan muuttaa useita kertoja erilaisen kuumentamisen avulla. [4].

Ajan saatossa myös CD:lle tallennettu tieto muuttuu bittien vaihtaessa arvoaan, joskin tehdasvalmisteiset levyt kestävät itse tehtyjä huomattavasti paremmin. Kotipolttoiset CD-levyt ovat erityisen herkkiä kirkkaalle valolle sekä lämpötila- ja kosteusvaihteluille. Niinpä oikeanlainen säilytys on tässäkin tapauksessa kaikkein tärkeintä tiedon säilyvyyden varmistamiseksi. Myös levyn laatu on ratkaiseva tekijä, joten pidempiaikaiseen säilytykseen levyt kannattaa valita huolella. Halvat levyt yhdistettynä huonoon säilytykseen voivat olla lukukelvottomia jopa jo muutaman vuoden käytön jälkeen [5].

Vaikka yllä oleva teksti käsittelee vain CD-levyjä, teksti on sellaisenaan sovellettavissa myös DVD-levyihin. Etenkin DVD-levyjen kanssa on hyvä pitää mielessä, että levyjen todellinen kesto tullaan näkemään vasta vuosien päästä valmistajien simulointien pohjalta tekemistä lupauksista huolimatta.

Kiintolevy

Tietokoneen kiintolevy on tallennusmedia, joka koostuu yleensä useammasta päällekkäin pinotusta levystä, jotka on pinnoitettu magneettisilla hiukkasilla. Jokaisella tallennuspinnalla on oma luku/tallennuspäänsä, joka liikkuu nopeasti pyörivän levyn päällä tietokoneen ollessa käynnissä. Tiedon tallentaminen sekä sen lukeminen eivät pohjimmiltaan juuri eroa muiden magneettisten medioiden menettelystä, jota käsiteltiin yllä [6]. Samankaltaisuuksien vuoksi datan kuluminen kiintolevyssä johtuu pitkälti samoista syistä kuin vanhoissa magneettisissa medioissa, joissa ulkopuoliset ilmiöt voivat muuttaa magneettisten hiukkasten suuntaa.

Kiintolevy on kuitenkin joiltain ominaisuuksiltaan huomattavasti vanhoja välineitä kehittyneempi. Ensiksikin kiintolevyssä on vahva ja ilmatiivis kotelo, joka suojaa sitä tehokkaasti ulkopuolisilta häiriöiltä ja lialta. Tämän vuoksi myös ulkoisten tekijöiden aiheuttama datan kuluminen on huomattavasti muita magneettivälineitä vähäisempää. Toiseksi tietoa luettaessa kiintolevyn lukupää ei kosketa itse tallennuspintaa ollenkaan, vaan leijuu levyn päällä pyörimisestä syntyvän ilmapatjan päällä. Niinpä levyn normaali käyttäminen ei kuluta tallennuspintaa samaan tapaan kuin diskettejä tai kasetteja luettaessa. [6].

Kiintolevyn tiedon turvaamiseen kuuluvat pitkälti samat keinot kuin muihinkin edellä mainittuihin medioihin: oikeanlainen säilytys ja käyttö. Käytössä kannattaa erityisesti huomioida, että kiintolevyn lukupään ja levyn välinen etäisyys on erittäin pieni, joten kaikenlaista tärinää tulisi välttää levyn pyöriessä. Hyvästä suojakotelosta huolimatta myös kiintolevyssä voi joskus tapahtua bittien tarkoituksettomia kääntymisiä ulkoisen magneettikentän mukaiseksi. Tiedon fyysisen kulumisen seurauksia voidaan kuitenkin kumota tehokkaasti laskemalla säilytettävistä dokumenteista tarkistussumma, jonka avulla tiedon muuttuminen voidaan ainakin havaita ja mahdollisesti myös korjata. Oikeanlaisesta käytöstä ja säilytyksestä huolimatta kiintolevy tulee pakostakin tiensä päähän viimeistään levyä pyörittävän servomoottorin käyttöiän ylittyessä. Tällöin levy ei enää pyöri, eikä sillä olevaan dataan päästä käsiksi ilman erikoislaitteita ja ammattitaitoa.

Kiintolevyn hakunopeutta ja usein myös vikasietoisuutta voidaan edistää RAID-teknologialla (Redundant Array of Independent Disks). Siitä on olemassa useita eri versioita, mutta niiden kaikkien ideana on yhdistää useita fyysisiä kiintolevyjä yhdeksi loogiseksi levyksi siten, että käyttäjälle levyt näkyvät yhtenä kokonaisuutena. Yhdistäminen voidaan tehdä laitteisto- tai ohjelmistopohjaisesti. Aikaansaatu maksimitallennuskapasiteetti ja tallennetun tiedon vikasietoisuus vaihtelevat teknologian soveltamistavasta riippuen. Uusimman sukupolven RAID-teknologioita ovat RAID 5 ja RAID 6. RAID 5 -menetelmällä saadaan N kiintolevylle mahtumaan N-1 levyn verran dataa, joka voidaan palauttaa kokonaisuudessaan minkä tahansa levyistä vioittuessa. Irrallisiin levyihin nähden menetetty tallennuskapasiteetti käytetään tallentamalla kaikkien levyjen tiedoista pariteettidataa. Pariteettidataa ei kuitenkaan säilytetä millään yksittäisellä levyllä, vaan se hajautetaan kaikkien käytössä olevien levyjen kesken. Tällöin minkä tähansa levyn vioituttua sen data voidaan edelleen palauttaa muiden levyjen avulla. Haittapuolena menetelmässä on kuitenkin se, että useamman kuin yhden levyn vioittuessa yhtä aikaa menetetään myös kaikkien muiden levyjen tieto. RAID 6 -teknologia toimii muuten samoin kuin edeltäjänsä, mutta siinä pariteettidataa tallennetaan yhteensä kahden levyn verran. Tällöin N levylle saadaan mahtumaan N-2 levyn verran dataa, mutta kaikki data on palautettavissa vielä kahdenkin levyn tuhouduttua kokonaan. Myös tässä tapauksessa yli kahden levyn vioittuminen hävittää kaikkien levyjen datan[7].

Flash muistit

Nykyään flash muistit ovat nousseet hyvin suosituksi tallennusvälineeksi, joten tiedon kulumista tulee tarkastella myös tämän median kohdalta. Flash muisteja käytetään sekä usb-muistitikuissa, mutta myös ssd kovalevyissä. Ongelma on samantyyppinen myös EPROM-muisteissa. Edellä mainituissa muistityypeissä datan kuluminen johtuu sähköisenvarauksen häviämisestä. Kulumisen nopeus riippuu eristyksen laadukkuudesta. Itse tallenne ei kulu tai hajoa ajan myötä, vain tieto häviää. Tällöin datan kulumista voidaan estää kirjoittamalla sama tieto samalle medialle uusiksi esimerkiksi vuosikymmenen välein.

Ohjelmien kuluminen

On esitetty, että kun jokin laite ja siinä ajettava ohjelma ovat päällä yhtäjaksoisesti pitkiä aikoja, yksittäisten bittien kuluminen voi johtaa ohjelmiston kulumiseen. Ohjelmiston kuluminen olisi siis eräänlainen bittien kulumisen seuraus. Väitteiden mukaan ohjelmiston kulumista olisi havaittavissa esimerkiksi tietokoneen keskusmuistissa: Kun kone on ollut päällä pitkän aikaa, jokin keskusmuistiin ladattu ohjelma voi alkaa käyttäytyä kummallisesti, vaikkei koneen kokoonpanolle tai ohjelmalle olisi tehty mitään muutoksia tai annettu mitään tavallisesta poikkeavia käskyjä. Ilmiötä on selitetty ohjelmiston kulumisella, joskin sen tieteellinen todistaminen ja erottaminen esimerkiksi ohjelmointivirheistä on haastavaa.

Internet tarjoaa aiheesta kovin vähän tieteellisesti pätevää tekstiä. Ohjelmiston kulumisella viitataankin useissa lähteissä ennemminkin jatkuvien päivitysten aiheuttamaan ”rispaantumiseen” kuin varsinaisesta bittien kulumisesta johtuviin toimintahäiriöihin. Olipa toimintahäiriöiden syy mikä tahansa, käytännön kokemus on osoittanut, että esimerkiksi tietokonelaitteiston tai matkapuhelimen ajoittainen uudelleenkäynnistys edistää huomattavasti järjestelmän vakautta.

Korkeamman tason ongelmat tiedon kulumisessa

Tallennusformaatti

Vaikka tieto itsessään olisi ehjää, myös sen tallennusformaatti voi ”kulua”. Lyhyissä tiedonsäilytystarkoituksissa formaattiin ei juurikaan tarvitse kiinnittää huomiota, mutta pidemmissä projekteissa ajantasaisen formaatin ylläpito on tärkeää. Esimerkkinä tällaisesta pitkäaikaisesta säilytyksestä ovat kirjastojen ja valtioiden digitaalisessa muodossa olevat tietomassat, joita on usein tarkoitus säilyttää ikuisesti. Jos tietoa säilytetään esimerkiksi 100 vuotta, täytyy sen formaattia muuttaa säännöllisesti tietokoneissa käytettävien ohjelmistojen kehittyessä. Tallennusformaattia valittaessa tulisi suosia erityisesti yleisessä käytössä olevia ja avoimia formaatteja, jotka on myös dokumentoitu tarkasti. Myös tietokoneiden käyttöjärjestelmien kehittyminen aiheuttaa tiedon formaatin kulumista. Tähän ongelmaan on varmasti törmännyt jokainen, joka on joskus yrittänyt saada vanhoja MS-DOS-pelejään toiminaan 2000-luvun käyttöjärjestelmissä. [8].

Yksittäisen käyttäjän kannalta helpoin tapa arkistoida dataa, esimerkiksi digitaalisia valokuvia, pitkän aikaa on siirtää ne jonkin luotettavaksi kokemansa palveluntarjoajan web-palvelimelle. Tällöin käyttäjä pääsee myös eroon varmuuskopioinnista ja tallennusformaatin muuttamisesta, sillä ne siirtyvät luonnollisesti palveluntarjoajan huoleksi. [9]. Toisaalta usean kymmenen vuoden aikana kaikki on mahdollista, joten palveluntarjoajien luotettavuutta voi olla hyvin vaikeaa arvioida.

Tietokonelaitteisto

Tallennusformaattien ja ohjelmien kehityksen lisäksi myös varsinaisen ”raudan” kehittyminen tulee ottaa huomioon. Tietokonearkkitehtuurin muuttuessa radikaalisti pelkkä tallennusformaatin muuttaminen ei välttämättä riitä, etenkään ellei sitä ole tehty ajoissa. Myös tallennusmedia ja mediaa lukevat laitteet tulee pitää ajanmukaisina. [5].

Joskus viimeiseksi keinoksi voi jäädä vanhojen laitteiden säilyttäminen, jotta tiedon lukeminen onnistuisi edes jotenkin [9]. Tästä on hyvänä esimerkkinä vanhat CD-asemat: Kokemus on osoittanut, että vanhat ja hitaat CD-asemat lukevat ajan rappeuttamia CD-levyjä usein paremmin kuin uudet ja nopeat laitteet. On jopa tapauksia, joissa uudempi asema ei suostu enää ollenkaan lukemaan noin 10 vuotta vanhaa itse poltettua levyä, mutta tuon aikainen asema kykenee siihen.

DSpace

DSpace on Massachusettsin teknillisen yliopiston kirjaston aloittama hanke, jonka tarkoituksena on vastata tiedon kulumisen ongelmiin käytännössä. Sittemmin hankkeen käyttäjäkunta on laajentunut ja vuonna 2005 se oli käytössä jo yli 100 organisaatiossa. DSpace tukee sekä tiedon formaatin päivittämistä että tarvittavan metatiedon lisäämistä, jotta kaikki alkuperäiseen tiedostoon tehdyt muutokset tulevat varmasti dokumentoitua. Tämä on erittäin tärkeää, jotta dokumentit säilyttävät esimerkiksi lainvoimaisuutensa muutosten jälkeen. [8].

DSpacea käytetään web-pohjaisella käyttöliittymällä, jolla käyttäjä lataa haluamansa dokumentit DSpacen palvelimelle. Ladatut tiedostot tarkastetaan ja niihin liitetään niiden tehokkaaseen paikantamiseen tarvittavaa metadataa. Tämän jälkeen yksittäiset tiedostot järjestellään useassa vaiheessa aina vain suuremmiksi kokonaisuuksiksi, ja jokaisen vaiheen yksiköt varustetaan tarvittavalla metadatalla. Tuloksena saadaan erittäin joustava modulaarinen tietorakenne, jota on helppoa hallita. DSpacen toiminnasta vastaa kuraattori, joka ylläpitää tietorakenteen eheyttä ja huolehtii esimerkiksi tiedostoformaattien kääntämisestä uudempiin edellisten formaattien uhatessa vanhentua. Myös ulkoapäin tehdyt haut tietokantaan toteutetaan web-pohjaisella käyttöliittymällä. [8].

DSpace on hyvä esimerkki siitä, miten erityisesti tiedon kulumisen korkeamman tason ongelmia (formaatti ja laitteisto) on ratkaistu menestyksekkäästi käytännössä.

Lähteet

-- TimoLyytinen? - 22 Sep 2009
Print version |  PDF  | History: r4 < r3 < r2 < r1 | 
Topic revision: r4 - 16 Nov 2009 - 21:19:21 - TimoLyytinen?
 

TUTWiki

Copyright © by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TUTWiki? Send feedback