Educación

¿Qué son los Datos Sintéticos?

Nov 2021
4 min de lectura
¿Qué son los Datos Sintéticos?

Vivimos en un mundo impulsado por datos. Según Statista, se prevé que la cantidad total de datos creados, capturados, copiados y consumidos a nivel mundial alcance más del doble en 2025 en comparación con 2021. Gran parte de estos datos son personales o sensibles, representando una amenaza para nuestra privacidad si se filtran y costando millones a las empresas cuando accidentalmente ocurre una brecha de datos.

what is synthetic data volume

Además, las soluciones de Inteligencia Artificial (IA) necesitan toneladas de datos para ser creadas. Para hacer pronósticos, evitar fraudos o simplemente comprender mejor a sus clientes, las empresas necesitan analizar esos lagos de datos. Pero una cosa es lo que quieres y otra totalmente diferente es lo que puedes hacer. La privacidad es demasiado importante para todos, y por esa razón, las regulaciones están en todas partes. Un buen ejemplo en Europa es el Reglamento General de Protección de Datos (GDPR por sus siglas en inglés).

Pero esto no se detendrá aquí, según Gartner, el 65% de la población mundial tendrá sus datos personales cubiertos bajo regulaciones modernas de privacidad. Entonces los ingenieros, científicos de datos, analistas y el resto de profesionales afines a la IA se formulan algunas preguntas: cómo alimentamos los modelos de Machine Learning (ML), cómo mejoramos los algoritmos actuales o cómo desarrollamos esa aplicación si no podemos acceder a los datos reales. La respuesta para todos ellos ha estado ahí por un tiempo, pero no era lo suficientemente buena hasta los avances realizados en Deep Learning (DL) durante los años 10 del siglo XXI. Hoy, podemos decir que es la solución definitiva: Datos Sintéticos.

Oh, ¿cómo no se me ocurrió eso... espera... qué quieres decir con Datos Sintéticos?

Aunque los Datos Sintéticos también funcionan con imágenes y texto, vamos a explicarlo para el caso de datos estructurados, los que encuentras en tablas, con filas y columnas.

Imagina que los datos son leche, las personas son las vacas y quieres añadir leche a tu café del desayuno (aplicar ese algoritmo de ML no supervisado), pero eres vegano (esta es la regulación — GDPR). Entonces los Datos Sintéticos serán la leche de soja. Es similar al original y mantiene el valor siendo totalmente útil para el mismo propósito. Entonces has protegido la "privacidad" de los sujetos (vacas) porque es imposible re-identificarlos mirando los sujetos a base de soja y has resuelto tu problema.

Por eso los Generadores de Datos Sintéticos se utilizan para anonimizar datos.

Pero... ¿Por qué es tan importante?

Es extremadamente importante porque abre la puerta a un océano de posibilidades. Tener Datos Sintéticos que mantienen la información pero son seguros, porque "anonimizan" los datos originales superando otras técnicas de anonimización de datos que han demostrado tener fallos, permite a las empresas usar y compartir datos que antes estaban prohibidos. Esto resultará en aplicaciones nuevas o mejoradas, productos, modelos de ML, análisis, mejor comprensión, resultados interindustriales, etc. El cielo será el límite para la innovación, accediendo a datos que antes eran denegados.

Las empresas podrán extraer valor y monetizar datos, elevando el listón. A veces escuchamos el término Revolución de los Datos Sintéticos, y no puede ser más acertado. Tener acceso a Datos Sintéticos cambiará el mundo de la misma manera que lo hicieron ML y DL.

Más en el lado de la ciencia de datos, también tendrá un impacto en los modelos de IA y ML. Los Generadores de Datos Sintéticos permiten, basándose en la cantidad de datos utilizados para crear el modelo generador, crear todos los datos que quieras. Esto llevará, en algunos casos, a un mayor rendimiento de los modelos de ML actuales en el mercado. Citando a Gartner una vez más, estiman que para 2022, el 40% de los modelos de IA y ML serán entrenados con Datos Sintéticos.

¡Prepárate, la revolución ya está aquí!

Referencias

  1. Volume of data/information created, captured, copied, and consumed worldwide from 2010 to 2025. Arne Holst, Jun 7, 2021.
  2. Gartner Says By 2023, 65% of the World's Population Will Have Its Personal Data Covered Under Modern Privacy Regulations. Gartner, September 14, 2020.
  3. Maverick Research: Use Simulations to Give Machines Imagination. Anthony Mullen, Magnus Revang, October 8, 2018.
#general#synthetic-data
¿Qué son los Datos Sintéticos? | Dedomena AI