Tietoturvan ja yksityisyyden säilyttäminen tiedon louhinnassa

Johdanto

Valtava datan määrä verkossa ja erilaisissa henkilörekistereissä antaa suuria mahdollisuuksia tiedon louhinnan kannalta. Tiedon louhinnalla (data mining) tarkoitetaan erityisten rakenteiden ja asioiden välisten yhteyksien selvittämistä datasta. Tiedonlouhintaa hyödynnetään eri muodoissaan riippuen datajoukosta, mutta kiinnostavinta tietoturvan kannalta on data, joka sisältää yksittäisten toimijoiden henkilötietoja. Tiedon louhinnan kannalta luottamuksellisuuden mekanismeja tarkastellessa täytyy ottaa huomioon ennen kaikkea se, että saadut tulokset eivät kärsi. Työssä selvitetään mitä tarkoittaa "privacy-preserving data mining" ja esitetään menetelmiä, joilla henkilön yksityisyys voidaan turvata.

Tiedon louhinta ja yksityisyys

Lukuisissa erilaisissa laitoksissa, kuten pankeissa ja sairaaloissa, säilytetään arkaluontoisiksi määriteltäviä tietojamme. Yksittäisistä henkilöistä kerätään jatkuvasti dataa esimerkiksi vieraillessamme erilaisissa verkkopalveluissa ja käyttäessämme niitä. Tällaisesta datasta tiedon louhiminen voi olla organisaatiolle liiketoiminnallisesti tai tutkimuksellisesti kannattavaa.

Dataa voidaan luovuttaa tai kerätä esimerkiksi tieteellistä tutkimusta tai markkinointitarkoituksia varten. Yksittäisiä henkilöitä käsittelevästä datajoukosta voidaan louhia tietoa organisaatioiden käyttöön, jotka haluavat jalostaa siitä päätelmiä muun muassa palveluidensa käyttäjäkunnasta ja sen profiloitumisesta. Puhutaan usein käsitteestä "big data", josta eri toimijat pyrkivät päättelemään intresseihinsä sopivaa tietoa sovellettavaksi esimerkiksi liiketoimintaan tai vaikkapa palvelun käyttäjien toiminnan tukemiseksi erilaisten suosittelujärjestelmien avulla. Keskustelua käydään myös datan avoimeen jakeluun liittyen. Perinteisesti avoimella datalla on tarkoitettu julkisten tietovarantojen saattamista levitykseen, joka ei usein sisällä varsinaisia henkilötietoja, mutta on esitetty myös esimerkiksi tieteellisten tutkimusaineistojen avaamista julkisiksi. [2]

Kuvitelkaamme arkaluonteista tietoa omistava toimija, esimerkiksi oppilaitos tai sairaala, jonka tietokannoissa on henkilöittäin eriteltävissä olevaa taulukkomuotoista dataa. Kuinka tämä data voidaan antaa käyttöön muille toimijoille niin, että yksittäisiä henkilöitä ei voida tunnistaa siitä, mutta data pysyy edelleen hyödyllisenä? Voisiko tiedon louhintaa harjoittaa eettisesti yksittäisiä henkilötietoja paljastamatta, oli tiedon louhinnan tuloksena syntyvän tuotoksen hyödyntäjänä kehittäjä tai esimerkiksi informaatiota visualisoivan sovelluksen loppukäyttäjät? Tiedon louhinnan tavoitteena ei kuitenkaan ole (olettaen hyväntahtoisuus) tiedon jalostaminen yksittäisistä toimijoista, vaan yleisluontoisemman informaation luominen siitä erilaisten päätelmien avulla. Erään luokittelun mukaan data voidaan jaotella numeeriseen, tilastolliseen makrodataan ja mikrodataan, joka sisältää todellisia tietoja henkilöistä [1]. Mikrodatan hyödyntäminen on oleellisinta tiedon louhinnan kannalta, mutta sen julkaiseminen toisen osapuolen käyttöön asettaa ilmeisiä haasteita.

Tiedonlouhinnan alalla käytetään termiä "privacy-preserving data mining" tutkimusalueesta, joka pyrkii löytämään menetelmiä yksittäisten henkilöiden yksityisyyden turvaamiseen datan louhintaprosessissa [4]. Useimmat keinot liittyvät jollakin tavalla varsinaisen datan muuttamiseen, jotka kuitenkin vaikuttavat tulosten tarkkuuteen. Yksittäiset palvelun asiakkaat jakautuvat tällöin asiakasryhmiksi, iät ikäryhmiksi ja vastaavasti. Tämä on luonnollinen suhde informaation hävikin ja yksityisyyden välillä, mutta niiden välillä on mahdollista tasapainotella.

Menetelmiä

Han ym. [3] luokittelevat yleisimmiksi tiedonlouhinnassa käytetyiksi yksityisyyden turvaamisen menetelmiksi satunnaistamisen (randomization methods), k-anonymiteetin (k-anonymity), l-diversiteetin (l-diversity), "distibuted privacy-preserving" -menetelmän sekä louhinnan tulosten suodattamiseen. Menetelmiä sovelletaan tapauskohtaisesti eri vaiheissa.

Satunnaistaminen

Dataa satunnaistavat menetelmät lisäävät dataan kohinaa, joka tarkoittaa käytännössä datan vääristämistä. Additiivisessa perturbaatiossa kohinaa lisätään itse dataan. Tällöin dataa käsittelevät algoritmit suunnitellaan toimivaksi muunnellun datan kanssa. Multiplikoivassa perturbaatiossa (multiplicative perturbation) satunnaista projektiota käytetään vääristämään tietosisältöä. Luonnollisesti haasteita asettaa kohinan lisäys niin, etteivät louhinnan tulokset kärsi.

Satunnaistamismenetelmä on yksinkertainen toteuttaa eikä se tarvitse tietoa kokonaisesta täydellisestä datajoukosta, vaan satunnaistaminen voidaan toteuttaa datan keräysvaiheessa yksittäisille tietueille. Tämä johtaa kuitenkin tietueiden käsittelyyn riippumatta niiden asemasta datajoukossa, jolloin selkeästi muusta datasta poikkeaviin tietueisiin ei oteta kantaa. Kun tällainen poikkeama (outlier) havaitaan, voidaan se myös yksilöidä. Tehokkuutta voidaan parantaa ainoastaan kohinaa lisäämällä, joka vaikeuttaa tiedon hyödyntämistä louhinnassa.

Satunnaisuutta hyödyntää myös menetelmä, jossa sattumanvaraisesti valittuja tietueita poistetaan tai lisätään tietyn todennäköisyyden mukaan.

k-anonymity

Kun yksityisyyden turvaamista ei tarvitse suorittaa datan keräysvaiheessa, voidaan ottaa huomioon myös tietueen sijainti datajoukossa. Tietueista voidaan näin rakentaa erityisiä ryhmiä, joita voidaan käsitellä ja muuntaa.

Sweeney [6] esitti, että 87 % yhdysvaltain kansalaisista voitiin yksilöidä 5-numeroisen postinumeron, sukupuolen ja syntymäajan perusteella. Tästä huolimatta tämäntyyppistä dataa esimerkiksi henkilöiden terveystiedoista on ollut saatavilla julkisesti. Datajoukossa, jossa on ainoastaan yksi tällainen rivi, voidaan kyseinen henkilö täten helposti identifioida epäsuorasti. Tällaisia attribuuttien yhdistelmiä kutsutaan pseudoidentifikaattoreiksi.

Sweeneyn k-anonymity -menetelmässä datajoukon attribuutit yleistetään (generalization) ja/tai rajoitetaan (suppression) niin, että jokainen kannan pseudoidentifioitava monikko (tuple) on identtinen ainakin k-1 monikon - eli tässä tapauksessa yksittäisen henkilötietueen - kanssa. Arvo joka k:lle annetaan määrittää sen, kuinka monen henkilön joukko voidaan tunnistaa. Täten siis kun k > 1, ei yksittäistä henkilöidä voida datajoukosta yksilöidä.

Yleistäessä eri sarakkeiden arvot muunnetaan tarkoista yleisemmiksi, esimerkiksi ikä voidaan muuntaa ikäryhmäksi ja osoite laajemmaksi maantieteelliseksi alueeksi. Rajoittaminen tarkoittaa yksinkertaisesti datan poistamista.

k-anonymity

Kuva 1: Esimerkki datan k-anonymisoinnista, k = 4. [5]

l-diversity

l-diversity -menetelmä vastaa k-anonymity -menetelmän rajoituksiin, kun tietyn ryhmän sisällä esiintyy samoja arvoja. [5]

Vaikka k-anonymity suojaa tietuetta suoralta identifikoinnilta, se ei vielä estä päättelemästä henkilöä kyseisen ryhmän sisältä. Anonymisoitujen henkilöiden joukko voidaan liittää tiettyyn samaan arvoon.

Arvojen homogeenisyyttä hyödyntävässä hyökkäyksessä kaikki ryhmän k tietuetta sisältävät saman attribuutin. Täten vaikka data on k-anonymisoitu, attribuutin arvo kyseiseen ryhmään kuuluvissa henkilöissä voidaan ennustaa tarkalleen. Myös hyökkääjän mahdolliset taustatiedot henkilöistä eri lähtetä hyödyntäen voivat johtaa siihen, että anonymisoidut ryhmät voidaan näiden avulla supistaa arkaluonteiseen attribuuttiin liitettävän henkilön tunnistamiseksi. Siinä missä k-anonymity suojaa k-yksilöitä, l-diversity pyrkii tämän lisäksi suojaamaan tällaisia arvoja.

l-diversity

Kuva 2: Esimerkki datan l-diversity -käsittelystä, l = 3. Vertaa kuvaan 1. [5]

Muita menetelmiä

Vaikka varsinainen data ei olisikaan millään tavalla arkaluontoista, on tiedon louhinnan menetelmät joissakin tapauksissa niin tehokkaita, että tuloksena syntyvät päättelysäännöt ja luokittelumallit voivat johtaa yksityisyyden loukkaamiseen. Louhinnan tulosten suodattaminen tai louhinta-algoritmien pienimuotoinen vääristäminen voi tulla tällaisessa tapauksessa tarpeeseen jälkeenpäin. [3] "Distributed privacy-preserving" on datajoukkojen jakamista horisontaalisesti (saman attribuutin sisältävät tietueet) tai vertikaalisesti (erilaisia attribuutteja sisältävät tietueet), jolloin eri datajoukkoja hyödyntävät louhinnassa eri tahot. Luonnollisesti tällaiseen menettelytapaan liittyy omanlaisiaan tietoturvauhkia.

Turvatun datan haasteista

Riippumatta toimijasta, datan yksityisyyden turvaaminen asettaa haasteita. Datan julkaisijoiden tulee olla tietoinen niistä riskeistä, jota jo anonymisoitu ja potentiaalisesti turvattu datajoukko voi yksityisyydelle aiheuttaa esimerkiksi toiseen datajoukkoon yhdistettynä. Datan louhijat taas kamppailevat sen kanssa, että tulokset ovat yhä hyödyllisiä ja niistä voidaan tehdä päätelmiä.

On selvää, että tietyissä tilanteissa datan julkaiseminen ei välttämättä ole järkevää yksityisyyden turvaamisenkaan jälkeen. Kysymyksiä asettaa etenkin yllä mainittu tieteellisten tutkimusaineistojen julkaisu, joita yhdistelemällä toisiinsa ja erilaisiin datalähteisiin voitaisiin potentiaalisesti yksilöidä henkilöitä. Jos tällaiset datajoukot turvataan esimerkiksi yllä mainituin menetelmin riittävällä vahvuudella, onko datan julkaisussa laajemmalle yleisölle enää mitään mieltä?

Dataa louhiessa tulee ottaa huomioon, millaiseen käyttöön data lopulta päätyy. Tulosten ei välttämättä tarvitse olla täysin tarkkoja, jos lopputuotteena on suosittelujärjestelmänä toimiva sovellus verkkopalvelussa tai karkea informaation visualisointi jostakin ilmiöstä. Toisaalta esimerkiksi tutkimustyössä riittävä luotettavuus voi vaatia sen, että tarkat tulokset ovat käytettävissä.

Kun yksityisyys pyritään säilyttämään, tulee usein vastaan informaation moniulotteisuus. Kun dataan kohdistuvat uhkat on minimoitu, louhinnan tulokset muuttuvat epätarkoiksi. Uudet tiedon louhintaan kehitettävät algoritmit on suunniteltava selkeästi toimimaan yksiulotteisissa jakaumissa yksittäisten tietueiden sijaan. Nykyisin monet algoritmit ovat riippuvaisia tilastoista, joita on saatavilla ainoastaan yksittäisiä tietueita tai useampiulotteisista todennäköisyysjakaumista tietueeseen liittyen.

Lähteet

[1] Ciriani, V. ym. 2007. Microdata Protection. Advances in Information Security. Università degli Studi di Milano, Italia. Saatavissa pdf-muodossa: http://spdp.dti.unimi.it/papers/microdata.pdf

[2] Hs.fi. Ilkka Niiniluoto: Tutkimustiedon avoimuus hyödyttäisi kaikkia. Saatavissa www-muodossa: http://www.hs.fi/kotimaa/Ilkka+Niiniluoto+Tutkimustiedon+avoimuus+hy%C3%B6dytt%C3%A4isi+kaikkia/a1305623836540

[3] Han, J., Kamber, M. & Pei, J. 2012. Data Mining: Concepts and Techniques. 3rd ed.

[4] Lindell, Y. & Pinkas, B. 2000. Privacy Preserving Data Mining. Advances in Cryptology - CRYPTO 2000. Saatavissa pdf-muodossa: http://www.pinkas.net/PAPERS/id3-final.pdf

[5] Machanavajjhala, A. ym. 2007. l-Diversity: Privacy Beyond k-Anonymity. Saatavissapdf-muodossa: http://www.cs.colostate.edu/~cs656/reading/ldiversity.pdf

[6] Sweeney, L. 2002. k-Anonymity: A Model for Protecting Privacy. School of Computer Science, Carnegie Mellon University, Pittsburgh, Pennsylvania, USA. Saatavissa pdf-muodossa: http://arbor.ee.ntu.edu.tw/archive/ppdm/Anonymity/SweeneyKA02.pdf

SivuTiedotLaajennettu edit

Vaativuus Jatko
Valmius Valmisteilla
Tyyppi Esitys
Luokitus Toimet
Mitä Yksityisyys
Miltä Tahallinen uhka
Missä Organisaatio
Kuka Titu-ammattilainen
Milloin Ennakolta
Miksi Muu
Print version |  PDF  | History: r5 < r4 < r3 < r2 | 
Topic revision: r5 - 30 Nov 2012 - 13:17:25 - JuhoKoro
 

TUTWiki

Copyright © by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TUTWiki? Send feedback