You are here: TUTWiki>Tietoturva/Tutkielmat>Tutkielmat?>TiedonLouhinta (revision 3)

Tietoturvan ja yksityisyyden säilyttäminen tiedon louhinnassa

Johdanto

Valtava datan määrä verkossa ja erilaisissa henkilörekistereissä antaa suuria mahdollisuuksia tiedon louhinnan kannalta. Tiedon louhinnalla (data mining) tarkoitetaan erityisten rakenteiden ja asioiden välisten yhteyksien selvittämistä datasta. Tiedonlouhintaa hyödynnetään eri muodoissaan riippuen datajoukosta, mutta kiinnostavinta tietoturvan kannalta on data, joka sisältää yksittäisten toimijoiden henkilötietoja, joten keskityn työssä tähän. Tiedon louhinnan kannalta luottamuksellisuuden mekanismeja tarkastellessa täytyy ottaa huomioon ennen kaikkea se, että saadut tulokset eivät kärsi. Työssä selvitetään mitä tarkoittaa "privacy-preserving data mining" ja esitetään menetelmiä, joilla henkilön yksityisyys voidaan turvata datasta luotujen mallien ja tulosten kärsimättä.

Tiedon louhinta ja yksityisyys

Lukuisissa erilaisissa laitoksissa, kuten pankeissa ja sairaaloissa, säilytetään arkaluontoisiksi määriteltäviä tietojamme. Yksittäisistä henkilöistä kerätään jatkuvasti dataa esimerkiksi vieraillessamme erilaisissa verkkopalveluissa ja käyttäessämme niitä. Tällaisesta datasta tiedon louhiminen voi olla organisaatiolle liiketoiminnallisesti tai tutkimuksellisesti kannattavaa.

Kuvitelkaamme arkaluonteista tietoa omistava toimija, esimerkiksi oppilaitos tai sairaala, jonka tietokannoissa on henkilöittäin eriteltävissä olevaa taulukkomuotoista dataa. Kuinka tämä data voidaan antaa käyttöön muille toimijoille niin, että yksittäisiä henkilöitä ei voida tunnistaa siitä, mutta data pysyy edelleen hyödyllisenä? Voisiko tiedon louhintaa harjoittaa eettisesti yksittäisiä henkilötietoja paljastamatta, oli tiedon louhinnan tuloksena syntyvän tuotoksen hyödyntäjänä kehittäjä tai esimerkiksi informaatiota visualisoivan sovelluksen loppukäyttäjät?

Tiedon louhinnan tavoitteena ei kuitenkaan ole (olettaen hyväntahtoisuus) tiedon jalostaminen yksittäisistä toimijoista, vaan yleisluontoisemman informaation luominen siitä erilaisten päätelmien avulla. Erään luokittelun mukaan data voidaan jaotella numeeriseen, tilastolliseen makrodataan ja mikrodataan, joka sisältää todellisia tietoja henkilöistä [1]. Mikrodatan hyödyntäminen on oleellisinta tiedon louhinnan kannalta, mutta sen julkaiseminen toisen osapuolen käyttöön asettaa ilmeisiä haasteita.

Dataa voidaan luovuttaa tai kerätä esimerkiksi tieteellistä tutkimusta tai markkinointitarkoituksia varten. Yksittäisiä henkilöitä käsittelevästä datajoukosta voidaan louhia tietoa organisaatioiden käyttöön, jotka haluavat jalostaa siitä päätelmiä muun muassa palveluidensa käyttäjäkunnasta ja sen profiloitumisesta.

Tiedonlouhinnan alalla käytetään termiä "privacy-preserving data mining" tutkimusalueesta, joka pyrkii löytämään menetelmiä yksittäisten henkilöiden yksityisyyden turvaamiseen datan louhintaprosessissa [4]. Useimmat keinot liittyvät jollakin tavalla varsinaisen datan muuttamiseen, jotka kuitenkin vaikuttavat tulosten tarkkuuteen. Yksittäiset palvelun asiakkaat jakautuvat tällöin asiakasryhmiksi, iät ikäryhmiksi ja vastaavasti. Tämä on luonnollinen suhde informaation hävikin ja yksityisyyden välillä, ja niiden välillä on mahdollista tasapainotella.

Menetelmiä

Han ym. [3] luokittelevat tiedonlouhinnassa käytetyiksi yksityisyyden turvaamisen menetelmiksi satunnaistamisen (randomization methods), k-anonymiteetin (k-anonymity), l-diversiteetin (l-diversity), jaetun yksityisyyden säilyttämisen (distributed privacy preservation) sekä louhinnan tulosten suodattamiseen.

Satunnaistaminen

Dataa satunnaistavat menetelmät lisäävät dataan kohinaa, joka tarkoittaa käytännössä datan vääristämistä. Luonnollisesti haasteita asettaa kohinan lisäys niin, etteivät louhinnan tulokset kärsi.

Additiivisessa perturbaatiossa kohinaa lisätään itse dataan. Tällöin dataa käsittelevät algoritmit suunnitellaan toimivaksi muunnellun datan kanssa. Multiplikoivassa perturbaatiossa (multiplicative perturbation) satunnaista projektiota käytetään vääristämään tietosisältöä.

Satunnaistamismenetelmä on yksinkertainen toteuttaa eikä se tarvitse tietoa kokonaisesta täydellisestä datajoukosta, vaan satunnaistaminen voidaan toteuttaa datan keräysvaiheessa yksittäisille tietueille. Tämä johtaa kuitenkin tietueiden käsittelyyn riippumatta niiden asemasta datajoukossa, jolloin selkeästi muusta datasta poikkeaviin tietueisiin ei oteta kantaa. Kun tällainen poikkeama (outlier) havaitaan, voidaan se myös yksilöidä. Tehokkuutta voidaan parantaa ainoastaan kohinaa lisäämällä, joka vaikeuttaa tiedon hyödyntämistä louhinnassa.

Satunnaisuutta hyödyntää myös menetelmä, jossa sattumanvaraisesti valittuja tietueita poistetaan tai lisätään tietyn todennäköisyyden mukaan.

k-anonymity

Kun yksityisyyden turvaamista ei tarvitse suorittaa datan keräysvaiheessa, voidaan ottaa huomioon myös tietueen sijainti datajoukossa. Tietueista voidaan näin rakentaa erityisiä ryhmiä, joita voidaan käsitellä ja muuntaa.

Sweeney [6] esitti, että 87 % yhdysvaltain kansalaisista voitiin yksilöidä 5-numeroisen postinumeron (ZIP-koodi), sukupuolen ja syntymäajan perusteella. Tästä huolimatta tämäntyyppistä dataa esimerkiksi henkilöiden terveystiedoista on ollut saatavilla julkisesti. Datajoukossa, jossa on ainoastaan yksi tällainen rivi, voidaan kyseinen henkilö täten helposti identifioida epäsuorasti. Tällaisia attribuuttien yhdistelmiä kutsutaan pseudoidentifikaattoreiksi.

Sweeneyn k-anonymity -menetelmässä datajoukon attribuutit yleistetään (generalization) ja/tai rajoitetaan (suppression) niin, että jokainen kannan kvasi-identifioitava monikko (tuple) on identtinen ainakin k-1 monikon - eli tässä tapauksessa yksittäisen henkilötietueen - kanssa. Arvo joka k:lle annetaan määrittää sen, kuinka monen henkilön joukko voidaan tunnistaa. Täten siis kun k > 1, ei yksittäistä henkilöidä voida datajoukosta yksilöidä.

Yleistäessä eri sarakkeiden arvot muunnetaan tarkoista yleisemmiksi, esimerkiksi ikä voidaan muuntaa ikäryhmäksi ja osoite laajemmaksi maantieteelliseksi alueeksi. Rajoittaminen tarkoittaa yksinkertaisesti datan poistamista.

k-anonymity

Kuva 1: Esimerkki datan k-anonymisoinnista, k = 4. [5]

l-diversity

l-diversity -menetelmä vastaa k-anonymity -menetelmän rajoituksiin, kun tietyn ryhmän sisällä esiintyy samoja arvoja. [5]

Vaikka k-anonymity suojaa tietuetta suoralta identifikoinnilta, se ei vielä estä päättelemästä henkilöä kyseisen ryhmän sisältä. Anonymisoitujen henkilöiden joukko voidaan liittää tiettyyn samaan arvoon.

Arvojen homogeenisyyttä hyödyntävässä hyökkäyksessä kaikki ryhmän k tietuetta sisältävät saman attribuutin. Täten vaikka data on k-anonymisoitu, attribuutin arvo kyseiseen ryhmään kuuluvissa henkilöissä voidaan ennustaa tarkalleen. Myös hyökkääjän mahdolliset taustatiedot henkilöistä eri lähteistä voivat johtaa siihen, että anonymisoidut ryhmät voidaan näiden avulla supistaa arkaluonteiseen attribuuttiin liitettävän henkilön tunnistamiseksi.

Siinä missä k-anonymity suojaa k-yksilöitä, l-diversity pyrkii tämän lisäksi suojaamaan tällaisia arvoja.

l-diversity

Kuva 2: Esimerkki datan l-diversity -käsittelystä, l = 3. [5]

Lähteet

[1] Ciriani, V. ym. 2007. Microdata Protection. Advances in Information Security. Università degli Studi di Milano, Italia. Saatavissa pdf-muodossa: http://spdp.dti.unimi.it/papers/microdata.pdf

[3] Han, J., Kamber, M. & Pei, J. 2012. Data Mining: Concepts and Techniques. 3rd ed.

[4] Lindell, Y. & Pinkas, B. 2000. Privacy Preserving Data Mining. Advances in Cryptology - CRYPTO 2000. Saatavissa pdf-muodossa: http://www.pinkas.net/PAPERS/id3-final.pdf

[5] Machanavajjhala, A. ym. 2007. l-Diversity: Privacy Beyond k-Anonymity. Saatavissapdf-muodossa: http://www.cs.colostate.edu/~cs656/reading/ldiversity.pdf

[6] Sweeney, L. 2002. k-Anonymity: A Model for Protecting Privacy. School of Computer Science, Carnegie Mellon University, Pittsburgh, Pennsylvania, USA. Saatavissa pdf-muodossa: http://arbor.ee.ntu.edu.tw/archive/ppdm/Anonymity/SweeneyKA02.pdf

SivuTiedotLaajennettu edit

Vaativuus Jatko
Valmius Valmisteilla
Tyyppi Esitys
Luokitus Toimet
Mitä Yksityisyys
Miltä Tahallinen uhka
Missä Organisaatio
Kuka Titu-ammattilainen
Milloin Ennakolta
Miksi Muu
Print version |  PDF  | History: r5 | r4 < r3 < r2 < r1 | 
Topic revision: r3 - 29 Nov 2012 - 02:32:17 - JuhoKoro
 

TUTWiki

Copyright © by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TUTWiki? Send feedback