GDPR

GDPR i anonimizacija podataka

06/07/2018

author:

GDPR i anonimizacija podataka

Kao što je svima poznato, 25.5.2018 počela je primjena Opće uredbe o zaštiti podataka (engl. General Data Protection Regulation, GDPR). Kako je zaštita osobnih podataka srž Uredbe, važno je znati što su zapravo sve osobni podaci i kako implementirati tehničko rješenje zaštite podataka.

SAD u osobne podatke (engl. Personally Identifiable Information, PII) ubraja podatke poput: imena, adresa, datuma rođenja, podataka o kreditnim karticama, email adresa, telefonskih brojeva i sl. Europska Unija uz navedene, dodatno ubraja i podatke poput objava na društvenim mrežama, IP adresa, fotografija, GPS lokacija i životnih navika, tj. sve informacije koje se odnose na pojedinca čiji se identitet može utvrditi pristupom podacima. Također, različite informacije koje zajedno prikupljene mogu rezultirati utvrđivanjem identiteta određene osobe, te čine osobne podatke, na što je potrebno obratiti pažnju u procesu implementiranja rješenja za obradu podataka prema Uredbi.

Prema Uredbi, pravilno anonimizirani podaci se ne smatraju identificirajućom informacijom i više nisu predmet Uredbe. Anonimizirani podaci su osobni podaci koji su određenim tehnikama obrađeni do mjere da onemogućuju reidentifikaciju, čak i od strane voditelje obrade (engl. data controller). U trenu kada su podaci anonimizirani, voditelji obrade i izvršitelji obrade (engl. data processor) imaju pravo koristiti, obrađivati i objavljivati takve podatke bez posebnih privola vlasnika podataka, te ih čuvati bez ograničenja vremenskog perioda pohrane.

Anonimizirane podatke valja razlikovati od pseudonimiziranih podataka. Proces pseudonimizacije ne uklanja sve identifikatore iz podataka već smanjuje načine povezivanja s fizičkom osobom pomoću nekoliko tehnika, npr. enkripcije i zamjene podatka pseudonimom. Takvi podaci trebaju dodatne informacije za reidentifikaciju, koje se obično čuvaju na odvojenim sustavima pohrane. S obzirom na to da je proces pseudoanonimizacije reverzibilan, takvi podaci se i dalje smatraju osobnim podacima i regulirani su Uredbom.

Prilikom odabira podataka koji će se anonimizirati ili pseudonimizirati, važno je obratiti pažnju na više mogućih scenarija:

  • Povezivanje podataka (engl. data linking) – podrazumijeva povezivanje više informacija koje zasebno ne mogu identificirati osobu ali mogu u skupu. Istraživanje je pokazalo kako je pomoću peteroznamenkastog poštanskog broja, spola i datuma rođenja moguće jedinstveno identificirati čak 87% stanovnika SAD, a pomoću informacija o državi, spolu i datumu rođenja 18% stanovništva
  • Izdvajanje (engl. single out) – identifikatori mogu ili ne moraju iskazati pojedinu osobu ovisno o kontekstu, posebice u kombinaciji s javno dostupnim podacima. Na primjer, ako znamo godinu rođenja osobe, vjerojatno će se unutar podatka o kućanstvu moći jedinstveno identificirati osoba, dok s druge strane, na popisu studenata fakulteta, godina rođenja neće biti dovoljan podatak za identifikaciju pojedinca
  • Indirektno identificiranje – zamislimo da postoji osoba imena Matija, koji svaki petak u 18.00 sati pomoću svog imena, telefonskog broja i emaila rezervira teniski termin na istom teniskom terenu. Ako anonimiziramo njegove osobne podatke (ime, tel. broj i email), on svojim životnim navikama dozvoljava da ga indirektno reidentificiramo
  • Zaključivanje (engl. inference) – ponekad je moguće zaključiti vezu između informacija u nekom skupu podataka. Uzmimo za primjer skup podataka s informacijama o broju godina radnog iskustva zaposlenika i brojem dana dodijeljenog godišnjeg odmora. Znajući da radno iskustvo povećava broj dana godišnjeg odmora, postoji mogućnost identifikacije pojedinih zaposlenika.

Razina anonimizacije/pseudonimizacije također ovisi o okolini u kojoj će se podaci koristiti. Ako se podaci (pseudo)anonimiziraju isključivo za potrebe unutar organizacije, moguće je implementirati manji stupanj anonimizacije. Razlog tome je što organizacije propisuju tko ima pristup kojim podacima i kada, te imaju dodatne razine zaštite, pa ukupna razina čuvanja povjerljivih podatka odgovara zaštiti propisanoj Uredbom.

Test Data Management

Alat koji se može koristiti za anonimizaciju je Informatica Test Data Management (TDM). On se temelji na perzistentnom, nereverzibilnom maskiranju podataka tako što kreira skup anonimiziranih podataka i zamjenjuje originalne podatke anonimiziranima, ili osjetljive podatke anonimizira prilikom kopiranja na testno ili vanjsko okruženje. Cilj je stvoriti realistične podatke koji zadržavaju format postojećih kako bi se omogućila obrada i testiranje nad istima.

TDM se primarno temelji na ažuriranju postojećeg skupa podataka jer zadržavanje originalnih podataka ne osigurava zaštitu osobnih informacija. Ako je anonimizacija neophodna, potrebno je izbrisati originalan skup podataka kada više nije potreban kako se anonimizirani podaci ne bi mogli identificirati pomoću originalnih podataka. Prije brisanja originalnog skupa podataka, anonimizirani podaci se i dalje trebaju tretirati kao osobni podaci.

 

Slika 1. Proces maskiranja u TDM-u

Proces implementiranja rješenja kroz TDM:

  • Definicija osjetljivih podataka – temeljem poznavanja sustava i propisa iz Uredbe, potrebno je odrediti sustave koji bi mogli sadržavati osjetljive podatke, i definirati koja vrsta osobnih podataka se nalazi u kojim sustavima
  • Kreiranje podatkovnih domena – podatkovna domena predstavlja funkcionalno značenje podataka u samoj strukturi pohrane (npr. atributi tablica). Podatkovne domene grupiraju originalne podatke kako bi se kasnije mogli anonimizirati istom tehnikom. Podatkovna domena kreira se regularnim izrazom kojim opisujemo podatkovni format u toj koloni ili se opisuje samo ime kolone. Ovime definiramo na koji će se način pronaći svi osjetljivi podaci
  • Kreiranje pravila maskiranja – kreiranje logike i pravila za maskiranje podataka. Tehnike su opisane u nastavku
  • Otkrivanje podatkovnih domena – proces otkrivanja koje tablice i kolone spadaju u kategoriju osobnih podataka koji su definirani kroz podatkovne domene iz prethodnog koraka te koje su njihove veze s drugim podacima u sustavu
  • Stvaranje podskupa podatka – moguće je kreirati podskup produkcijskih podataka ako postoji potreba za izdvajanjem određenog dijela produkcijskih podataka u ne-produkcijsko okruženje. Na primjer, izdvajanje financijskih podataka samo za 2018. godinu
  • Maskiranje – podatkovne domene se povezuju s utvrđenim pravilima anonimizacije. Time se osjetljivi podaci u sustavu (npr. kolone u produkcijskim tablicama) povezuju s konkretnim tehnikama maskiranja. TDM potom generira Informatica PowerCenter objekte u kojima se obradom anonimiziraju podaci, po pravilima definiranima u prethodnim koracima.

Slika 2. Grupiranje podataka u domenu

Tehnike maskiranja (široka primjena područja podataka):

  • Key masking – generira ponovljiv rezultat prema originalnom podatku, maskirnom pravilu i tzv. seed Moguće je odabrati koji tip znakova se supstituira (alfanumerički, brojevi, ASCII znakovi, simboli itd.), raspon znakova s kojima će se zamijeniti i filtriranje znakova koji će se maskirati
  • Randomization – generira neponovljiv rezultat prema originalnom podatku i maskirnom pravilu. Moguće je definirati raspon vrijednosti, postotak odstupanja od originalne vrijednosti, tip znakova koji se supstituiraju
  • Substitution – predstavlja zamjenu originalnog podatka sa sličnom, no nepovezanom vrijednosti iz rječnika podataka koji može biti pohranjen u bazi ili u tekstualnom obliku. Može biti ponovljive vrijednosti ili jedinstven, no u potonjem slučaju valja paziti da rječnik sadrži više jedinstvenih vrijednosti od skupa podataka koji se maskira
  • Nullification – zamjenjuje originalan podatak s NULL vrijednosti
  • Expression masking– primjenjuje izraze i funkcije za modifikaciju originalnog podatka
  • Advanced – kombinacija više tehnika maskiranja kojom možemo kombinirati višestruke kolone kao ulaznu vrijednost, definirati varijable maskiranja i primjenjivati funkcije nad ulaznim i izlaznim vrijednostima.

Neke od specijaliziranih tehnika maskiranja:

  • Credit card – generira validne brojeve kreditnih kartica, dok zadržava format izdavača kartice (npr. Visa, MasterCard…)
  • Phone number – generira slučajnu vrijednost telefonskog broja, zadržavajući originalan format
  • Email address – generira realistične email adrese. Obično za tvorbu koristi maskirane vrijednosti kolona imena i prezimena. Može koristiti konstantnu email domenu ili više njih iz rječnika domena
  • URL address – generira slučajne URL identifikatore s istim protokolom (HTTP, FTP) kao original. Ne podržava ponovljivost
  • IP address – generira slučajnu IP adresu u rasponu dozvoljenih IP adresa. Ne dozvoljava ponovljivost.

TDM u određenim tehnikama maskiranja omogućava opciju ponovljivosti (engl. repeatability) koristeći seed vrijednost. To znači da se za originalan podatak može dobiti ista maskirana vrijednost koristeći isti seed više puta. Ponovljivost ne daje maksimalnu razinu sigurnosti, no ako ga poslovanje zahtjeva, preporučuje se zamjena seed vrijednosti nakon svakog osvježavanja podataka u sustavu. Tehnike poput zamjene originalne vrijednosti s NULL vrijednostima daju veću razinu sigurnosti, no manju poslovnu vrijednost. S druge strane, tehnike poput slučajnog maskiranja daju manju sigurnost ali veću poslovnu vrijednost.

Naglasak cijelog procesa anonimizacije je na pravilnom odabiru tehnike maskiranja i pokrivanju svih osjetljivih podataka u skupu da se ispune uvjeti anonimiziranog skupa podataka. Prilikom toga valja uzeti u obzir sve već navedene scenarije rizika i poslovnih potreba. Također valja uzeti u obzir performanse provođenja cijelog procesa. Vrijeme potrebno za anonimizaciju ovisit će o broju sustava s osjetljivim podacima, broju zahvaćenih tablica i kolona u njima, broju zapisa u tim tablicama te odabranoj tehnici maskiranja. Samim time, valja planirati i vrijeme procesiranja tih podataka prije isporuke krajnjim korisnicima.

Zaključak

Anonimizirani podaci se mogu dijeliti i čuvati. U implementacijskoj procjeni rizika dobro je uzeti u obzir javno dostupne podatke koji bi se mogli povezati s anonimiziranim podacima i tako identificirati pojedinca. Poslovanje mora odlučiti razinu implementacije, tj. odnos sigurnosti i poslovne vrijednosti podataka, no dužnost je organizacija limitirati sve moguće rizike identifikacije podataka, što osim implementacije podrazumijeva trenutni monitoring i ponovnu procjenu rizika u budućnosti.