Beneficios de los Datos Sintéticos

Ahora que tienes una buena comprensión de lo que significan los datos sintéticos (si no, te sugeriría encarecidamente leer el artículo anterior "¿Qué son los datos sintéticos y por qué son tan importantes?"), veremos los beneficios de la síntesis de datos en general.

Los beneficios de los datos sintetizados pueden ser dramáticos. Los datos sintéticos pueden hacer que proyectos imposibles sean factibles, acelerar significativamente las iniciativas de IA, mejorar materialmente los resultados de ML y, lo más importante y como consecuencia de lo anterior, magnificar inmensamente la monetización del activo más preciado para cualquier empresa (después del cliente, por supuesto), que son los datos.

Facilitando el acceso y la colaboración de datos

Los problemas de acceso a datos están clasificados entre los tres principales desafíos que enfrentan las empresas impulsadas por datos al implementar IA. Para este tipo de organización, los datos se necesitan a lo largo de la mayor parte de la llamada cadena de valor de datos. Los datos se necesitan para entrenar y validar modelos de ML, probar aplicaciones de software (y aplicaciones que usan modelos de IA), pero también para evaluar tecnologías de IA desarrolladas por otros.

Las regulaciones de privacidad actuales, como el Reglamento General de Protección de Datos (RGPD) en Europa y la Ley de Privacidad del Consumidor de California (CCPA) en Estados Unidos, por nombrar algunas, imponen restricciones estrictas sobre el uso de datos personales para un propósito secundario. Al mismo tiempo, los clientes están poniéndose nerviosos sobre cómo se usan y comparten sus datos dentro de la organización o con terceros, especialmente para fines comerciales.

La sintetización de datos proporciona a las organizaciones datos realistas con los que trabajar sin arriesgar la privacidad de los clientes. Dado que estos datos sintéticos no podrían ser identificables, las regulaciones de privacidad no se aplicarían, y las obligaciones de consentimiento adicional de los clientes para usar sus datos para propósitos secundarios no serían requeridas.

Fortalecer los modelos de ML

Si los datos sintéticos están empezando a ganar impulso, es debido a la necesidad de grandes cantidades de datos de entrenamiento para machine learning, especialmente para algoritmos de redes neuronales. Según Gartner, el 25% de los datos de entrenamiento para IA serán generados sintéticamente para 2022, y el 60% de los datos utilizados para el desarrollo de soluciones de IA y análisis serán generados sintéticamente para 2024.

Los modelos de machine learning pueden mejorarse sustancialmente entrenando con datos sintéticos. De hecho, los datos sintéticos para machine learning pueden considerarse mejores que los datos reales por diferentes razones. Estadísticamente hablando, hay dos factores principales por los que los datos generados sintéticamente pueden ayudar a los algoritmos de IA a aprender y entender comportamientos y patrones ocultos en los datos. Primero, al proporcionar más muestras de las disponibles en el conjunto de datos original y segundo, ayudando a aumentar el número de muestras de eventos minoritarios que de otra manera estarían subrepresentados en los datos reales. Las organizaciones impulsadas por datos no tienen otra opción que depender de técnicas de aumento de datos por dos razones principales: precisión y tiempo. Cada proceso de recopilación de datos está asociado con un costo en términos de dinero, esfuerzo humano, recursos computacionales y, por supuesto, tiempo consumido en el proceso.

Calidad de datos aumentada

Los científicos de datos y desarrolladores de IA en muchas organizaciones a menudo hacen uso de conjuntos de datos públicos o datos de "código abierto" para construir y entrenar modelos de ML y aplicaciones de IA, dada la dificultad de obtener acceso a datos sensibles reales. Los conjuntos de datos públicos carecen de diversidad y heterogeneidad, y la mayoría de las veces no coinciden bien con los problemas que intentan resolver.

Por otro lado, el etiquetado de datos para tareas de aprendizaje supervisado puede consumir mucho tiempo y ser propenso a errores. Al generar datos etiquetados sintéticos, las empresas acelerarán el desarrollo de modelos y, al mismo tiempo, asegurarán alta precisión en el proceso de etiquetado.

Análisis exploratorios flexibles

Los datos sintéticos también pueden usarse de manera exploratoria. Entonces, después de conocer los resultados interesantes y reveladores de los datos sintéticos, los científicos de datos pueden pasar por el proceso más complejo de obtener los datos reales; procesos que normalmente requieren un protocolo completo y múltiples niveles de aprobaciones.

Además, los datos sintéticos son útiles para entrenar un modelo inicial antes de que todos los datos reales necesarios estén accesibles. Entonces, algunos meses después, estos modelos pueden usarse como punto de partida (modelo pre-entrenado para luego ajustar) para entrenar con datos reales, resultando significativamente en un modelo más preciso mientras se reduce el tiempo de computación.

Acelerar el desarrollo y pruebas de productos

Los datos se necesitan para desarrollar o probar un producto o solución antes de su lanzamiento. Sin embargo, tales datos o no existen o no están disponibles para los desarrolladores y/o evaluadores.

Los datos generados sintéticamente también permitirán construir productos de datos y probar nuevas aplicaciones y entornos para resultados deseados antes de ponerlos en producción o realizar la migración. Usar datos sintéticos para construir nuevos productos centrados en el cliente es más eficiente y rentable en comparación con datos auténticos.

Hoy en día, muchas organizaciones están desarrollando numerosas aplicaciones basadas en IA usando datos sintéticos. Por ejemplo, autos autónomos y robots han sido desarrollados y entrenados con datos sintéticos y pueden aprender nuevas tareas después de ver una actuación solo una vez. Otras empresas están introduciendo sistemas inteligentes impulsados por IA para monitorear patrones en el comportamiento del cliente con la ayuda de datos sintéticos. También, para empresas que migran a infraestructura en la nube en un entorno de alto crecimiento, los datos sintéticos les permiten probar escenarios de rendimiento futuro con los costos más bajos sin impactar negativamente la experiencia del usuario. La lista continúa. Las oportunidades son infinitas para las empresas impulsadas por datos cuando adoptan datos sintéticos en su proceso de creación de valor.

Referencias

Our Top Data and Analytics Predicts for 2021, Andrew White, January 12, 2021.

Beneficios de los Datos Sintéticos

Facilitando el acceso y la colaboración de datos

Fortalecer los modelos de ML

Calidad de datos aumentada

Análisis exploratorios flexibles

Acelerar el desarrollo y pruebas de productos

Referencias

Artículos Relacionados

Valores Atípicos, Sesgos y Ruido en los Datos: Riesgos Invisibles

Tecnología con Propósito: Desbloqueando IA Responsable

Gobernanza de IA Hecha Correctamente: Marco Regulatorio de la UE