You are here: TUTWiki>Tietoturva/Tutkielmat>Tutkielmat?>TiedonLouhinta (revision 2)

Tietoturvan ja yksityisyyden säilyttäminen tiedon louhinnassa

Johdanto

Valtava datan määrä verkossa ja erilaisissa henkilörekistereissä antaa suuria mahdollisuuksia tiedon louhinnan kannalta. Tiedon louhinnalla (data mining) tarkoitetaan erityisten rakenteiden ja asioiden välisten yhteyksien selvittämistä datasta. Tiedonlouhintaa hyödynnetään eri muodoissaan riippuen datajoukosta, mutta kiinnostavinta tietoturvan kannalta on data, joka sisältää yksittäisten toimijoiden henkilötietoja. Lukuisissa erilaisissa laitoksissa, kuten pankeissa ja sairaaloissa, säilytetään arkaluontoisiksi määriteltäviä tietojamme. Yksittäisistä henkilöistä kerätään jatkuvasti dataa esimerkiksi vieraillessamme erilaisissa verkkopalveluissa ja käyttäessämme niitä. Tällaisesta datasta tiedon louhiminen voi olla organisaatiolle liiketoiminnallisesti tai tutkimuksellisesti kannattavaa. Voisiko tiedon louhintaa harjoittaa eettisesti yksittäisiä henkilötietoja paljastamatta, oli tiedonlouhinnan tuloksena syntyvän tuotoksen hyödyntäjänä kehittäjä tai esimerkiksi informaatiota visualisoivan sovelluksen loppukäyttäjät?

Keskityn tiedonlouhintaan ainoastaan henkilötietojen käsittelyn kannalta. Työssä selvitetään mitä tarkoittaa "privacy-preserving data mining" ja esitetään menetelmiä, joilla henkilön yksityisyys voidaan turvata datasta luotujen mallien ja tulosten kärsimättä.

Miksi turvata datan yksityisyys

Kuvitelkaamme arkaluonteista tietoa omistava toimija, esimerkiksi oppilaitos tai sairaala, jonka tietokannoissa on henkilöittäin eriteltävissä olevaa taulukkomuotoista dataa. Kuinka tämä data voidaan antaa käyttöön muille toimijoille niin, että yksittäisiä henkilöitä ei voida tunnistaa siitä, mutta data pysyy edelleen hyödyllisenä? Tiedon louhinnan tavoitteena ei kuitenkaan ole (olettaen hyväntahtoisuus) tiedon jalostaminen yksittäisistä toimijoista, vaan yleisluontoisemman informaation luominen siitä erilaisten päätelmien avulla. Erään luokittelun mukaan data voidaan jaotella numeeriseen, tilastolliseen makrodataan ja mikrodataan, joka sisältää todellisia tietoja henkilöistä (Ciriani et al., 2007). Mikrodatan hyödyntäminen on oleellisinta tiedon louhinnan kannalta, mutta sen julkaiseminen toisen osapuolen käyttöön asettaa ilmeisiä haasteita.

Dataa voidaan luovuttaa tai kerätä esimerkiksi tieteellistä tutkimusta varten. Esimerkiksi yksittäisiä henkilöitä käsittelevästä datajoukosta voidaan louhia tietoa organisaatioiden käyttöön, jotka haluavat jalostaa siitä päätelmiä esimerkiksi palveluidensa käyttäjäkunnasta ja sen profiloitumisesta.

Tiedonlouhinnan alalla käytetään termiä "privacy-preserving data mining" tutkimusalueesta, joka pyrkii löytämään menetelmiä yksittäisten henkilöiden yksityisyyden turvaamiseen datan louhintaprosessissa (Lindell & Pinkas, 2000). Useimmat keinot liittyvät jollakin tavalla varsinaisen datan muuttamiseen, jotka kuitenkin vaikuttavat tulosten tarkkuuteen. Esimerkiksi yksittäiset palvelun asiakkaat jakautuvat tällöin asiakasryhmiksi, iät ikäryhmiksi. Tämä on luonnollinen suhde informaation hävikin ja yksityisyyden välillä, ja niiden välillä on mahdollista tasapainotella.

Menetelmiä

Han ym. (2012) luokittelevat tiedonlouhinnassa käytetyiksi yksityisyyden turvaamisen menetelmiksi satunnaistamisen (randomization methods), k-anonymiteetin (k-anonymity), l-diversiteetin (l-diversity), jaetun yksityisyyden säilyttämisen (distributed privacy preservation) sekä louhinnan tulosten suodattamisen.

Satunnaistaminen

Dataa satunnaistavat menetelmät lisäävät dataan kohinaa, joka tarkoittaa käytännössä datan vääristämistä. Luonnollisesti haasteita asettaa kohinan lisäys niin, etteivät louhinnan tulokset kärsi. (Evfimievski, 2002)

k-anonymity

Sweeney (2002) esitti, että 87 % yhdysvaltain kansalaisista voitiin yksilöidä 5-numeroisen postinumeron (ZIP-koodi), sukupuolen ja syntymäajan perusteella. Tästä huolimatta tämäntyyppistä dataa esimerkiksi henkilöiden terveystiedoista on ollut saatavilla julkisesti.

Datajoukossa, jossa on ainoastaan yksi tällainen rivi, voidaan kyseinen henkilö täten helposti identifioida. Tällaisia attribuuttien yhdistelmiä kutsutaan kvasi-identifikaattoreiksi. Sweeneyn k-anonymity -menetelmässä datajoukon attribuutit yleistetään (generalization) ja/tai rajoitetaan (suppression) niin, että jokainen kannan kvasi-identifioitava rivi on identtinen ainakin k-1 rivin kanssa. Yleistäessä eri sarakkeiden arvot muunnetaan tarkoista yleisemmiksi, esimerkiksi ikä voidaan muuntaa ikäryhmäksi ja osoite laajemmaksi maantieteelliseksi alueeksi. Rajoittaminen tarkoittaa yksinkertaisesti datan poistamista.

l-diversity

l-diversity -menetelmä vastaa k-anonymity -menetelmän rajoituksiin. (Machanavajjhala ym., 2007)

Lähteet

Ciriani, V. ym. 2007. Microdata Protection. Advances in Information Security. Università degli Studi di Milano, Italia. Saatavissa pdf-muodossa: http://spdp.dti.unimi.it/papers/microdata.pdf

Evfimievski, A. 2002. Randomization in Privacy Preserving Data Mining.

Han, J., Kamber, M. & Pei, J. 2012. Data Mining: Concepts and Techniques. 3rd ed.

Lindell, Y. & Pinkas, B. 2000. Privacy Preserving Data Mining. Advances in Cryptology - CRYPTO 2000. Saatavissa pdf-muodossa: http://www.pinkas.net/PAPERS/id3-final.pdf

Machanavajjhala, A. ym. 2007. l-Diversity: Privacy Beyond k-Anonymity.

Sweeney, L. 2002. k-Anonymity: A Model for Protecting Privacy. School of Computer Science, Carnegie Mellon University, Pittsburgh, Pennsylvania, USA. Saatavissa pdf-muodossa: http://arbor.ee.ntu.edu.tw/archive/ppdm/Anonymity/SweeneyKA02.pdf

SivuTiedotLaajennettu edit

Vaativuus Jatko
Valmius Valmisteilla
Tyyppi Esitys
Luokitus Toimet
Mitä Yksityisyys
Miltä Tahallinen uhka
Missä Organisaatio
Kuka Titu-ammattilainen
Milloin Ennakolta
Miksi Muu
Print version |  PDF  | History: r5 | r4 < r3 < r2 < r1 | 
Topic revision: r2 - 01 Nov 2012 - 23:48:16 - JuhoKoro
 

TUTWiki

Copyright © by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TUTWiki? Send feedback