Por qué los Métodos Tradicionales de Anonimización Ya No Funcionan

Las empresas apenas están comenzando a asimilar los beneficios de Big Data Analytics e Inteligencia Artificial, y en paralelo las consecuencias para la privacidad de sus clientes. A pesar de los beneficios de usar datos personales y tecnología de análisis avanzada para conocer más sobre los clientes y sus preferencias, es crucial no olvidar los problemas que trabajar con datos personales y sensibles podría conllevar.

En Analytics de Datos y desarrollo de Inteligencia Artificial, uno de los problemas más comunes es la anonimización de datos conductuales personales ya que pueden ser fácilmente re-identificados utilizando técnicas como inferencia, aislamiento o vinculaciones de información con datos públicos. Como consecuencia, las observaciones pierden su anonimato, y este es uno de los principales riesgos de privacidad, sin embargo el más desconocido.

Una preocupación significativa para las empresas basadas en datos en la era del big data es una brecha de datos, y esta es una señal de inefectividad en los métodos de anonimización y en las políticas de privacidad implementadas por las organizaciones.

La privacidad de datos es una gran preocupación

Hoy en día, las empresas que poseen y trabajan con datos de clientes también tienen un número de empleados accediendo a grandes volúmenes de datos sensibles y privados. En muchos casos, estos empleados ni siquiera son parte del equipo de ciencia de datos o analytics de datos, llevando a mal uso o uso fraudulento de datos. A pesar de los esfuerzos actuales de los departamentos de Tecnología de la Información (TI) y Gobernanza de Datos, este acceso es especialmente vulnerable a este tipo de situaciones.

Durante los últimos meses, hemos visto que más y más usuarios y clientes se preocupan por la privacidad de sus datos personales. Según un estudio de CISCO (Cisco Consumer Privacy Study, 2021) (1), el 86% de los encuestados dijeron que estaban preocupados por la seguridad de sus datos, y el 50% de ellos dijeron que han cambiado o están dispuestos a cambiar su proveedor de servicios debido a su política de privacidad.

No solo los clientes y usuarios están preocupados por la privacidad. Las autoridades y reguladores también son conscientes de la relevancia de proteger los datos personales y crear reglas que aseguren la privacidad de usuarios y empresas.

Reglamento General de Protección de Datos

En 2018, la Unión Europea (UE) presentó el Reglamento General de Protección de Datos (GDPR), donde la UE puso en práctica las reformas más nuevas relacionadas con protección de datos y privacidad. El GDPR fue el primer paso en términos de la creación de una definición común sobre los derechos de privacidad de los ciudadanos. Otros países como Brasil, Canadá o China han creado su propia regulación, seguidos por otros como California con su CCPA o India con su PDPB.

La mayoría de las técnicas actuales utilizadas para anonimización, en realidad son técnicas de seudonimización, como define el GDPR en el artículo 4 (2):

Este artículo básicamente dice que los datos obtenidos por un proceso de seudonimización no son anónimos, por lo que tienen que ser tratados como información personal.

¿Qué pasa con las técnicas clásicas de anonimización?

Las técnicas clásicas utilizadas en anonimización como permutación, aleatorización y generalización tienen un problema común: Estas técnicas podrían "destruir" los datos, y como consecuencia de ello, el valor y la información podrían perderse debido a la agresividad de los métodos. Estos métodos no solo tienen este defecto, sino que tampoco garantizan que la información sea 100% anónima y segura.

Permutación

La permutación es una técnica que consiste en hacer alteraciones en el orden de las observaciones en la base de datos para que no correspondan idénticamente a la información original.

A pesar de la apariencia de ser una técnica efectiva de procesamiento de datos, su mayor defecto es que los datos pueden ser fácilmente re-permutados si estos datos se cruzan con información adicional. Otro defecto que tiene la permutación es la pérdida de valor estadístico de la información en términos de correlaciones y relaciones entre columnas, lo que implica un poder predictivo reducido.

Aleatorización

La aleatorización es otra técnica clásica de anonimización. Este método consiste en hacer modificaciones en las variables de los datos aplicando patrones aleatorios que están previamente definidos.

La técnica más reconocida de aleatorización es la perturbación o, en otras palabras, adición de ruido. La metodología de perturbación consiste en añadir ruido sistemático al conjunto de datos.

Por ejemplo, en un conjunto de datos que contiene fechas sobre cuándo un paciente fue al hospital, esta variable podría ser ajustada aleatoriamente añadiendo o eliminando el mismo número de días a la fecha real de la visita. En este caso, en lugar de permutación, algunas relaciones entre observaciones y variables se preservan. Sin embargo, esto no es una garantía de la preservación al 100% de la privacidad de los datos porque estos patrones pueden ser fácilmente identificados e implica la re-identificación de datos sensibles.

Generalización

Esta última técnica puede explicarse como un método que hace generalizaciones sobre los datos, diluyendo sus características. La filosofía de esta técnica es transformar los datos individuales en datos genéricos o agregados, lo que implica que no es posible identificar un único registro, sino un clúster de él.

Uno de los métodos más comunes utilizados en generalización es la denominada k-anonimidad. Cuando se aplica k-anonimidad, el parámetro "k" tiene que ser elegido. Este parámetro definirá el equilibrio entre privacidad y utilidad de los datos.

Sin embargo, si se toma un valor alto de "k", todos los problemas en relación con la privacidad prevalecen tan pronto como la información sensible converge en información homogénea. En este punto, los datos podrían ser atacados por los denominados "ataques de homogeneidad". Algunos autores proponen otros métodos, como l-diversidad o t-cercanía. Sin embargo, incluso estas variantes son insuficientes para garantizar la privacidad de la información.

Conclusiones

A pesar de todas estas opciones para anonimizar o seudonimizar datos, los casos sobre ataques y brechas de datos ocurren con una frecuencia alarmante. Cuanto más abiertos e interconectados estén los datos, el riesgo de nuevos ataques de privacidad aumentará exponencialmente si las organizaciones no toman las acciones adecuadas, afectando negativamente su negocio y reputación.

Independientemente de los criterios que se tomen para prevenir la re-identificación de datos personales y sensibles, siempre habrá un equilibrio entre privacidad y utilidad de los datos. Con las técnicas actuales, los datos que se consideran completamente anonimizados no tendrán mucho valor estadístico, informativo y predictivo, y viceversa.

Las empresas centradas en datos tienen un dilema importante entre privacidad y utilidad, esto generalmente lleva a disputas internas entre los responsables de garantizar la privacidad de la información y los responsables de extraer valor de ella. Sin embargo, es probable que la solución a este dilema ya haya sido descubierta: ¿y si las empresas pudieran crear sus propios datos?

La solución es Datos Sintéticos.

Si quieres saber más sobre cómo los datos sintéticos pueden impulsar tus iniciativas de datos, no dudes en contactarnos, o descubre todas las aplicaciones más nuevas y diferentes del futuro de la ciencia de datos: datos sintéticos.

Por qué los Métodos Tradicionales de Anonimización Ya No Funcionan

La privacidad de datos es una gran preocupación

Reglamento General de Protección de Datos

¿Qué pasa con las técnicas clásicas de anonimización?

Permutación

Aleatorización

Generalización

Conclusiones

Referencias

Artículos Relacionados

Gobernanza de IA Hecha Correctamente: Marco Regulatorio de la UE

Cómo monetizar tus datos de forma ética y segura

Navegando la Ley de Gobernanza de Datos: Cómo el DGA Establece Nuevos Estándares