La ISO/IEC 27559:2022 per l’anonimizzazione dei dati personali
L’Organizzazione Internazionale per la Normazione (ISO) ha pubbicato a novembre 2022 il nuovo standard ISO/IEC 27559:2022, che si rivolge a tutte le organizzazioni sia pubbliche che private, fornendo loro gli strumenti per attuare l’anonimizzazione dei dati personali.
ISO/IEC 27559:2022. Anonimizzazione e deidentificazione dei dati
Ogni ISO, pur fornendo le migliori pratiche di settore grazie al coinvolgimento dei massimi esperti, contiene principi di carattere generale che devono valere in modo uniforme per tutto il mondo, quindi deve essere interpretata tenendo conto delle leggi nazionali e sovranazionali.
Per potersi adattare alle diverse normative nazionali, i termini che troviamo all’interno dello standard sono neutri. Il testo, infatti, non parla mai di “anonimizzazione”, ma di “deidentificazione” dei dati. Nella pratica non ci sono differenze sostanziali tra i due termini, ma l’ente di normazione ha scelto di adottare il termine “deidentificazione”, perché quello di “anonimizzazione” è stato usato con connotazione differenti dai legislatori dei diversi paesi.
Ma che cos’è esattamente la deidentificazione? E’ l’insieme delle tecniche che trasformano i dati riferibili ad una data persona fisica, o un gruppo di esse, in informazioni che, in nessun modo, consentono l’identificazione dell’interessato.
Aspetti tecnici e fasi operative
Il processo di rimozione dell’associazione tra dati è un aspetto dello standard, tanto quanto la governance del processo e dei dati risultanti, per garantire che i rischi siano affrontati in base alle necessità.
La deidentificazione è un processo che può avvenire in qualsiasi momento del ciclo di vita dei dati. Quindi, ad esempio, può avvenire nella fase di raccolta dati, in quella di elaborazione o addirittura se il trattamento è già stato concluso.
L’ISO definisce il titolare del trattamento come “custode”, mentre gli utenti a cui verranno trasmessi i dati anonimizzati sono definiti “destinatari”.
Date queste definizioni vengono delineati tre scenari standard:
- uso e riutilizzo: Il custode deidentifica i dati e li rende disponibili agli utenti interni in un ambiente interno, e, comunque, sotto il suo controllo;
- condivisione esterna: Il custode deidentifica i dati e li mette a disposizione di utenti esterni in un ambiente interno, ossia permette l’accesso dall’esterno dell’organizzazione in un ambiente sotto il suo controllo;
- rilascio esterno: Il custode deidentifica i dati e li mette a disposizione di utenti esterni in un ambiente esterno, ossia mettendoli a disposizione in un ambiente esterno non sotto il suo controllo.
Il custode può anche ricorrere ad una terza parte per implementare il processo di deidentificazione, ma in questo caso, dovrà valutare il rischio del trasferimento a quest’ultimo.
La normativa è suddivisa in quattro fasi che descrivono l’ambiente o le circostanze in cui i dati deidentificati sono messi a disposizione degli utenti, la modalità di gestione del processo e la disponibilità dei dati stessi:
- valutazione del contesto: Valutazione di quali informazioni comunicate all’esterno dell’organizzazione possono essere disponibili per un malintenzionato, in base all’ambiente e alle circostanze in cui i dati deidentificati saranno resi disponibili. I controlli amministrativi e tecnici devono attenuare i potenziali rischi legati al contesto;
- valutazione dei dati: Valutazione del modo in cui le informazioni aggiuntive disponibili per un malintenzionato potrebbero essere utilizzate per rivelare o scoprire informazioni personali. La limitazione dei dati resi disponibili può ridurre i potenziali rischi legati ai dati;
- valutazione e riduzione dell’identificabilità: Determinare una misura dell’identificabilità delle persone, delle probabilità di un attacco o delle probabilità di successo dell’attacco, utilizzando le valutazioni precedenti come contesto. Sulla base di parametri di riferimento stabiliti, il grado di divulgazione deve essere mitigato attraverso una combinazione di controlli contestuali, minimizzazione e trasformazione dei dati;
- governance della deidentificazione: Seguire procedure e processi documentati, in modo che il custode abbia la certezza che quanto sopra sia stato fatto bene e che siano in atto controlli e meccanismi di risposta per gestire i rischi prima, durante e dopo la messa a disposizione degli utenti dei dati deidentificati.
Tecniche di anonimizzazione
il mascheramento. Tale metodo di controllo degli accessi nasconde i valori in un insieme di dati in modo da consentire l’accesso, impedendo che i valori originali vengano riprodotti. Le tecniche più comuni di mascheramento comprendono la k-anonimizzazione, che consiste nell’assicurare che ogni valore relativo a un soggetto interessato sia condiviso da un numero minimo k di altre persone all’interno di un gruppo; la crittografia e la privacy preferenziale, metodologia in cui viene iniettato un rumore randomizzato nel processo di analisi dei dati;
la pseudonimizzazione. Questa tecnica fa riferimento al processo di mascheramento degli identificatori diretti in una serie di dati, sostituendoli con identificatori artificiali. Ad esempio, i dati possono essere considerati pseudonimi se gli indirizzi e-mail delle persone vengono sostituiti con numeri; le informazioni originali, direttamente identificabili, vengono rimosse, ma ogni numero è specifico e può quindi essere ricomposto da chiunque abbia le conoscenze;
la generalizzazione. Questa funzionalità avviene quando le misure di protezione mappano molti valori diversi su uno solo. Un esempio di generalizzazione dei dati è il raggruppamento in specifiche fasce d’età o in categorie lavorative correlate sotto un termine generico adeguato;
la perturbazione. Questa funzionalità randomizza alcuni elementi per aggiungere vaghezza a un set di dati in modo ripristinabile, senza influire sull’accuratezza delle analisi. Ciò può avvenire introducendo rumore nei valori numerici sensibili o alterando in modo casuale le variabili categoriali. La perturbazione è spesso utilizzata per proteggere i dati elettronici sensibili come le cartelle cliniche elettroniche;
lo scambio. Si tratta della riorganizzazione dei dati in un set, in modo che i valori degli attributi non corrispondano più ai dati originali. Questo strumento risulta utile nell’apprendimento automatico (ML) poiché aiuta ad addestrare i modelli utilizzando lotti di test rappresentativi dell’insieme dei dati;
i dati sintetici. Questi sono generati dalla macchina, ma rispecchiano i dati sensibili reali. I dati sintetici permettono di non dover raccogliere grandi volumi di informazioni personali potenzialmente sensibili.
Conclusioni
La ISO/IEC 27559 è, dunque, un potente strumento per chiunque abbia la necessità di anonimizzare i dati personali per comunicarli a terzi o per riutilizzarli per altre finalità, purché, ovviamente, rispetti preliminarmente le disposizioni del GDPR.