Focus

Valutazione rischio di privacy - Ecosistema per la condivisione di dati rispettoso della privacy

Stiamo vivendo in anni di crescenti opportunità di raccogliere ed analizzare dati che descrivono in modo estremamente dettagliato attività umane; purtoppo però queste possibilità crescono di pari passo con rischi di violazione della privacy senza precedenti, dal momento che questi dati possono contenere informazioni personali e sensibili di individui. Questi dati sono tipicamente immagazzinati nei database di compagnie private (di telecomunicazioni, assicurative o di vendita al dettaglio), e queste ultime non condividono i loro dati con la comunità scientifica anche per problemi legali. Questa paura ovviamente blocca lo sviluppo di nuovi servizi basati su conoscenza come anche di nuove scoperte scientifiche.

Uno degli obiettivi del KDD Lab è quello di ideare e implementare un ecosistema per la condivisione dei dati che sia rispettoso della privacy, assicurando che non ci siano violazioni della privacy duranti i processi di acquisizione e analisi dei dati all'esterno delle compagnie suddette. La nostra intuizione è che raramente per lo sviluppo di un servizio servono dati grezzi (per esempio, per sviluppare servizi personali di mobilità solitamente non servono le traiettorie grezze) e quindi, invece di applicare ciecamente trasformazioni privacy-preserving ai dati, noi sfruttiamo pre-processing dei dati, legati al servizio che si vuole sviluppare, che potrebbero ridurre sensibilmente il reale rischio di privacy rispetto ai dati grezzi.
L'ecosistema proposto è un'implementazione sistematica del principio del Privacy-by-Design [1] ed è conforme al principio di minimizzazione dei dati [2].

Il framework che proponiamo fornisce supporto ad un fornitore di dati per il calcolo del rischio di re-identificazione empirico relativo ai dati che devono essere trasferiti all'esterno. Per permettere questa condivisione di dati, dobbiamo esaminare le possibili trasformazioni dei dati grezzi allo scopo di selezionare la trasformazione più appropriata (per esempio, l'aggregazione, la selezione o il filtraggio) che garantisca un buon bilanciamento tra qualità dei dati e rischio per la privacy. L'esplorazione sistematica di questo spazio di ricerca è esattamente lo scopo del nostro sistema. A questo scopo dobbiamo definire: 1) metriche capaci di valutare il rischio della privacy, per esempio il rischio di re-identificazione o di inferenza; 2) modelli di attacco che descrivano la conoscenza usata da un avversario per effettuare l'attacco; 3) metiche per valutare la qualità dei dati condivisi. L'idea è quella, una volta fatte le necessarie assunzioni sui dati da trattare e sulle risposte che si vogliono ottenere con essi, di effettuare delle trasformazioni capaci di: 1) trasformare i dati originali in una versione anonima corredata da garanzie di privacy misurabili (come la probabilità di re-identificazione) e 2) garantire che il servizio possa essere correttamente predisposto usando i dati modificati invece di quelli originali (con un'approssimazione misurabile).

Questa metodologia può essere utilizzata in numerose circostanze, ma noi del KDD Lab l'abbiamo applicata a due contesti diversi, sperimentandola su dati reali:
1) Usando i cartellini di traffico (in inglese Call Detail Record), cioè le registrazioni di eventi prodotte dai nodi di una rete di comunicazioni, abbiamo stimato la distribuzione di una popolazione classificando le persone in residenti, pendolari e visitatori, sulla base delle loro attività telefoniche. In questo caso, la trasformazione applicata ai dati è un'aggregazione spazio-temporale a livello di comune, dal momento che informazioni specifiche come i cartellini di traffico non sono richieste per lo sviluppo del servizio [3]; per esempio, per riconoscere un residente è sufficiente sapere che ha effettuato delle chiamate sia in giorni feriali che festivi, in diverse fasce orarie.
Ipotizzando che un avversario conosca esattamente le attività telefoniche di un utente per 3 settimane (su un totale di 4 del nostro dataset), abbiamo scoperto che meno dello 0,1% degli utenti ha un rischio di re-identificazione del 50%, mentre per più del 99,9% degli utenti questo è non più del 33%; il 99% degli utenti infine ha un rischio di re-identificazione minore o uguale al 7% circa.
2) Usando il sistema di posizionamento globale (Global Positioning System, in inglese) abbiamo costruito the esempi di pre-processing, ognuno che può abilitare specifici servizi di mobilità: presenza in un territorio (dati che possono esssere usati per fornire assistenza durante i parcheggi e pubblicità dipendenti dal contesto), traiettorie (con cui si possono fornire servizi di navigazione o di car pooling) e segmenti stradali frequenti a livello collettivo (mediante i quali è possibile identificare posizioni strategiche per nuove attività commerciali o fornire consigli in tempo reale per evitare ingorghi stradali).
Usando la prima tipologia di dati abbiamo ottenuto, nel caso peggiore, che più del 20% degli utenti ha un rischio di re-identificazione minore o uguale al 50%, il 7% minore o uguale al 33% e il 4% minore o uguale al 20%. Con la seconda tipologia di dati, abbiamo ottenuto i rischio di re-identificazione più alti, dal momento che il livello di dettaglio di questi dati è estremamente simile a quello dei dati grezzi. Conoscendo infatti un singolo arco stradale, il 75% degli utenti può essere completamente re-identificabile (cioè ha un rischio del 100%); se l'avversario conoscesse due qualsiasi archi stradali, la percentuale di utenti con il 100% di rischio sarebbe vicina al 94%. Il terzo formato di dati è quello che garantisce i risultati migliori, dato che è calcolato a livello collettivo; nel caso peggiore circa il 90% degli utenti ha rischio di re-identificazione minore o uguale al 20% e più dell'80% degli utenti ha un rischio minore o uguale al 10%.

Questi esempi mostrano come in scenari reali sia possibile ottenere soluzioni che forniscono la minima informazione necessaria per fornire analisi corrette ed, in particolare, come i vari dati possano essere analizzati dal nostro sistema per fornire misure significative, al variare delle garanzie di privacy, sia del rischio della privacy che della qualità dei dati.

[1] Ann Cavoukian.
Privacy design principles for an integrated justice system - working paper, 2000.
https://www.ipc.on.ca/english/resources/discussion-papers/discussion-papers-summary/?id=318
[2] Directive (EU) 2016/680 of the European Parliament and of the Council of 27 April 2016, Official Journal of the European Union (2016)
[3] Anna Monreale, Salvatore Rinzivillo, Francesca Pratesi, Fosca Giannotti, and Dino Pedreschi. Privacy-by-design in big data analytics and social mining. EPJ Data Science, 3(1):10, 2014.
[4] Francesca Pratesi, Anna Monreale, Roberto Trasarti, Fosca Giannotti, Dino Pedreschi, and Tadashi Yanagihara.
PRISQUIT: a System for Assessing Privacy Risk versus Quality in Data Sharing. Technical Report
2016-TR-043. ISTI - CNR, Pisa, Italy. FriNov20162291.