You are here: TUTWiki>Tietoturva/Tutkielmat>TyoLuettelo?>2008-24

Jussi Jokinen

Sisällön suodatus multimediassa

1. Johdanto

Harjoitustyössä käsitellään 24. lukua, Adult Image Filtering for Internet Safety, Furthin ja Kirovskin toimittamasta kirjasta Multimedia Security Handbook (2005), joka on luettavissa TTY:n verkkokirjastossa elektronisesti [1]. Työssä kuvataan siis Internetin sisällönsuodatusmenetelmiä, joilla mm. koulujen, yritysten ja yksityisten tietokoneiden käyttäjien näkemää sisältöä voidaan rajoittaa. Rajoittamisen syyt voivat olla eettisiä, lain määräämiä tai yrityksillä tuotannollisia syitä.

Vanhempien näkökulma:

  • Lasten suojaaminen harmillisilta tiedostoilta Internetissä ja kotikoneella

Koulujen/kirjastojen näkökulma:

  • Internetiä käytetään opiskelutarkoitukseen, eikä tietokoneita käytetä muuhun

Yritysten näkökulma:

  • Yrityksen tietokoneille ei ladata aikuis- tai muuten sopimatonta materiaalia, eikä tietokoneita käytetä työaikana omiin asioihin

Sisällönsuodatuksessa tärkeitä ovat kolme päätekijää: kuvainformaation esillesaanti, tekstin kategorisointi ja kuvien kategorisointi. Julkaisussa keskitytään pääasiassa kuvasisällön suodatukseen. Työssä on esitelty omissa kappaleissaan multimedian, kuvien ja tekstin suodatukseen käytettäviä menetelmiä.

2. Multimedian sisällönhallinnasta

Multimedian sisältöinformaation hallinta on verrattain hankalaa, koska joudutaan ottamaan huomioon useita tekijöitä, jotka saattavat olla ihmiskäyttäjälle helppoja ymmärtää, mutta hankalia jäsentää muotoon, jota hakurobotti pystyy prosessoimaan. Esimerkiksi niinkin yksinkertainen asia kuin kuva ihmisestä muuttuu huomattavan monimutkaiseksi kun kone yrittää etsiä sellaista Internetistä tietyin attribuutein, ilman että tiedoston metatiedoissa tai tiedostonimessä on kerrottu median sisältö. Jokaisen tiedoston kohdalla hakukoneen on ratkaistava, onko tiedoston sisältämä informaatio olennaista ja tärkeää, vai kenties täysin epäolennaista tai sopimatonta käyttäjälle.

Hakurobotit pystyvät tietyin algoritmein optimoimaan käyttäjälle näytettävää informaatiota tämän aiemman käyttäytymisen perusteella, mutta jokaisella hakukerralla päätökset on tehtävä erikseen.

Se miten tämä kaikki eroaa multimedian suodatuksesta, kiteytyy pääasiassa siihen, että käyttäjä aktiivisesti hakee informaatiota. Suodatus taas toimii yleisesti passiivisesti taustaprosessina joka rajoittaa sopimattoman materiaalin esittämistä. Yksi suuri ongelma on siinä, että jokainen käyttäjä on erilainen ja samakin käyttäjä voi tarvita erilaista informaatiota eri hakukerroilla. Hakukoneen olisi siis tiedettävä suuri määrä informaatiota käyttäjästä, jotta se osaisi näyttää juuri sellaista tietoa jota käyttäjä haluaa. Oman haasteensa luovat myös kuviin ja tekstiin sisältyvät kaksimielisyydet, sekä synonyymit ja asioiden moniselitteisyys. Sama asia voi saada useita eri merkityksiä tulkitsijasta riippuen.

3. Tekstin luokittelusta

Tekstin luokittelu on selvästi yksinkertaisempi prosessi kuin muun multimedian luokittelu. Tekstin asiasisältö muodostuu useimmiten tekstin sisältämistä sanoista, joita on kohtuullisen helppoa käsitellä esimerkiksi etukäteen määritellyn suodatuslistan avulla. Tekstin sisältö voidaan luokitella ryhmiin, kuten pornografiaan, väkivaltaisiin teksteihin tai muuten paheksuttavaan sisältöön.

Median sisällöstä voidaan päätellä jotain myös tekstin ulkoasun perusteella. Esimerkiksi uutiset tai viralliset lomakkeet eroavat useimmiten kappalejaoltaan ja muodoltaan esimerkiksi vapaamuotoisesti kirjoitetuista sähköposteista tai yksityisistä blogeista. Tekstisisällölle voidaan antaa esimerkiksi kolmijakoinen luokitus: Hyväksyttävä sisältö, huomautettava sisältö tai torjuttava sisältö. Hyväksyttävä sisältö on varmasti selviö. Huomautettavaa sisältöä voi olla esimerkiksi ikärajan vaativat tekstit kuten eroottinen kirjallisuus. Torjuttavaa sisältöä ovat mm. laittomuudet kuten lapsiporno.

4. Kuvien luokittelusta

Kuvien suodatusta voidaan lähestyä esimerkiksi tekniikalla, jossa ennalta määrätyille kuville on annettu tietty luokitus. Näitä kuvia verrataan tietyin, usein oppivin algoritmein suodatuksen alla oleviin kuviin periaatteella, että toisiaan muistuttavat kuvat saavat saman luokituksen.

Esimerkiksi pornografisen tai väkivaltaa sisältävän kuvan tunnistus on vaikeaa, koska kuvat näyttävät erilaisilta eri valaistuksissa ja kuvakulmissa. Ihmiset voivat olla erilaisissa asennoissa tai pukeutua osittain vaatetukseen, joka vaikeuttaa kuvan tunnistusta.

5. Lähestymistapoja multimedian suodatukseen

Pitää muistaa, että mikään suodatusmenetelmä ei ole täydellinen. Myös Internetin jatkuva muuttuminen vaikeuttaa sisällön tarkkailua. Erilaisia lähestymistapoja on kuitenkin lueteltu seuraavassa:

  • Estetään sisältö tiedostotyypin perusteella. Eli estetään esimerkiksi kuvan, äänen ja videon esittäminen, jolloin mm. työpaikkojen tietokoneilla pystytään saavuttamaan melko hyviä tuloksia liittyen tietokoneiden käyttötarkoitukseen.
  • Estetään sisältö sivulta löytyvien sanojen perusteella. Saattaa estää pääsyn monille asiallisillekin sivuille sanojen moniselitteisyyden johdosta.
  • Suodatus IP-osoitteen tai URL:n perusteella määriteltyihin pääsylistoihin verraten.
  • Suodatus sivuston luokituksen perusteella. Sivustojen metatietoihin voidaan lisätä tietoja sivuston sisällöstä ja sopivuudesta eri ikäryhmille.

6. Ihon tunnistaminen ja muut ohjelmistot [2]

Tehokas Internetin kuvien suodatus on useimmiten lyhyt prosessi, joka koostuu muutamasta välivaiheesta, joista yksi tärkeimmistä on ihon tunnistus. Ensimmäisessä vaiheessa tutkittavat kuvatiedostot jaotellaan luonnollisiin ja keinotekoisiin kuviin. Jos kuvatiedosto tulkitaan luonnolliseksi kuvaksi, eli esimerkiksi valokuvaksi, se käsitellään mm. ihon tunnistamiseen kehitetyllä ohjelmistolla. Tässä kappaleessa esitellään kirjassa käytettyä menetelmää kuvien suodatukseksi. filtering-screenshot.jpg

Kuva 1. Web-kuvien prosessointisysteemin rakenne

Kuvassa 1. esitellään käytetyn järjestelmän rakenne. Menetelmässä siis ladataan websivusto, josta otetaan tutkittavaksi kuvatiedostoja sisältävät URL:it. Kuvat luokitellaan luonnollisiksi ja keinotekoisiksi kuviksi, jotka prosessoidaan edelleen kiellettyjen symbolien tai alaikäisille sopimattoman materiaalin suodattamiseksi. Lopulta tehdyistä päätöksistä web-sivusto joko näytetään tai hylätään.

Ihon tunnistuksessa käytetään Maximum Entropy Modeling -menetelmää (MaxEnt)[4] ja First-Order mallia (FOM) joista voi lukea lisää lähteissä annetusta osoitteesta. MaxEnt on koneen oppimistarkoitukseen kehitelty menetelmä, jota käytetään kuvien suodatuksen lisäksi mm. puheentunnistuksessa ja kielen prosessoinnissa. Mallien avulla pyritään laskemaan todennäköisyyksiä, joilla ihoa esiintyy tutkitulla alueella, keskimääräistä todennäköisyyttä koko kuvassa, sekä ihoalueiden määriä.

7. Käytännön toteutuksia

Kirjastot [6]

Tutkimuksen mukaan Suomen kirjastoista 18% käyttää jonkinlaista sisällösuodatusjärjestelmää. Kuitenkaan osa kyselyyn vastanneista kirjastoista ei ollut varma on tälläinen järjestelmä käytössä. Ilmeisesti myöskään sisällönsuodatus ei ole varsinaisesti kenenkään vastuualueella, jolloin ongelmatapauksissa ei ole selvää keneen otetaan yhteyttä. Käytettyjen sisälösuodatusohjelmien kirjo oli myös varsin laaja, sillä kirjastoista löytyi 15 eri sisällösuodatusmenetelmää. Sisällönsuodatuksen kolme tärkeintä syytä olivat tutkimuksen mukaan: lastensuojelu, pornografisten sivujen käyttö ja asiallisen käytön varmistaminen. Tehdyissä testeissä virheellisesti suodatetuiksi joutuivat erityisesti erilaisten vähemmistöjen asioita käsittelevät sivut.

Teleoperaattorit

Joulukuussa 2007 teleoperaattorit saivat 1.1.2007 voimaan tulleen lain turvin ottaa käyttöön web-liikenteen suodatuksen Krp:n ylläpitämien salaisten listojen perusteella. Suodatus toteutetaan operaattorista riippuen joko DNS-suodatuksella tai läpinäkyvällä proxy:lla. DNS-suodatuksessa operaattori asettaa oman DNS-palvelimensa ohjaamaan tiettyjen web-osoitteet poliisin listan mukaiseen ip-osoitteeseen. Läpinäkyvä proxy taas on välityspalvelin, jonka kautta kaikki käyttäjän liikenne välitetään. Proxyn lokeista näkee myös hyvin, millä sivustoilla eri käyttäjät ovat vierailleet.

Elisa viimeisimpänä suurista operaattoreista ilmoitti elokuussa lopettavansa sensuurilistan käytön suodatukseen liittyvien teknisten ongelmien vuoksi.[7] Muista suuremmista operaattoreista ilmeisesti ainakin DNA suodattaa sisältöä, Soneralla sensuuri on oletuksena pois päältä, mutta käyttäjä voi halutessaan käyttää Soneran tarjoamaan suodattavaa välityspalvelinta. Saunalahden tilanne on epäselvä.

Suodatus on ollut juuri niin toimiva kuin sopii odottaakin. Sen kiertäminen on varsin helppoa, se on ajoittain estänyt pääsyn täysin turhille sivustoille, kuten esimerkiksi W3C:n sivut Heinäkuussa 2008.[10] Myöskin suodatustoimintaan upotettu rahamäärä olisi mielenkiintoista tietää.

8. Päätelmät

Kirjassa tehtyjen havaintojen perusteella parhaita tuloksia epäsopivien kuvien suodatukseen Internetissä saadaan seuraavin keinoin:

  • Ihon tunnistuksessa hyväksi on havaittu FOM-mallin ja Bethen puuaproksimaation käyttö vierekkäisten pikselien muodostamien värigradienttien tarkasteluun.
  • Yksinkertaiset ohjelmat, jotka perustuvat ihontunnistukseen ja MLP luokitteluun, saavat useimmiten hyviä tuloksia.

Parhaat järjestelmät pystyvät nykyisin tunnistamaan jopa 90% kasvoista, joten muutamien vuosien sisällä on odotettavissa todella erinomaisia kasvojen tunnistukseen kykeneviä järjestelmiä. Tämä auttaa myös pornografian tunnistuksessa, koska useimmiten pornografisissa kuvissa esiintyy ihon lisäksi myös osapuolten kasvot. Kuitenkin esimerkiksi HC-pornon erottaminen pehmopornosta säilyy edelleen ongelmana. Joka tapauksessa pornografisia kuvia sisältävät sivut sisältävät useimmiten myös aiheeseen liittyviä tekstejä, joten kuviensuodatus yhdessä tekstintunnistuksen kanssa luovat kykeneviä aikuissuodattimia.

9. Lähteet

Print version |  PDF  | History: r4 < r3 < r2 < r1 | 
Topic revision: r4 - 27 Nov 2009 - 14:36:59 - TeroJarvenpaa?
 

TUTWiki

Copyright © by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TUTWiki? Send feedback