Casos de Uso de Datos Sintéticos en la Industria Financiera

Hace un par de semanas, en nuestro post anterior: el valor de los datos sintéticos en servicios financieros, discutimos cómo la generación de datos sintéticos en la banca se ha convertido en una condición necesaria y fundamental para poder extraer todo el potencial de los datos y los posteriores modelos de aprendizaje automático entrenados para satisfacer a los clientes y objetivos de negocio sin comprometer la privacidad en absoluto.

Las herramientas de datos sintéticos deben estar orientadas a garantizar esta privacidad, además de preservar la calidad de los datos originales, permitiendo al sector bancario mejorar todos los usos que los datos originales pueden ofrecer.

Las aplicaciones de esta tecnología dentro del análisis avanzado y el desarrollo de aprendizaje automático son extensas, desde mejorar la detección de fraude y simulaciones de mercado hasta el intercambio de datos y el aumento de la colaboración entre equipos.

Bajo el GDPR, la posibilidad de intercambiar datos personales entre bancos y departamentos internos está totalmente limitada. Como consecuencia, las posibilidades de obtener perspectivas relevantes y optimizar el potencial de los datos disminuye significativamente.

Los datos sintéticos son compatibles con todos los requisitos del GDPR y permiten a las empresas, incluidos los bancos, usar todos los datos que necesitan evitando riesgos legales o éticos y sin perder ninguna propiedad informativa o estadística. Así, estos datos artificiales aseguran el uso óptimo para el desarrollo de Machine Learning e Inteligencia Artificial. Los datos sintéticos también facilitan los procesos de intercambio de datos entre instituciones heterogéneas como socios o incluso con el gobierno.

Principales casos de uso de Datos Sintéticos para el sector bancario

Los datos sintéticos pueden ayudar a las instituciones financieras a estar por delante de sus competidores al aprovechar de manera efectiva y segura sus activos de datos extrayendo valor adicional de ellos. Desarrolladores, Ingenieros y Científicos de Datos, por mencionar algunos, podrán usar datos sintéticos con total confianza para una amplia variedad de propósitos, desde entrenar algoritmos de aprendizaje automático o mejorar modelos de deep learning hasta probar el rendimiento de computación en la nube, siempre sabiendo que están trabajando con datos de alta calidad muy similares a los reales en el sentido de valor. Pero, lo más importante es que nunca están poniendo en riesgo la privacidad del cliente y cumpliendo con las diferentes regulaciones de protección de datos.

El uso de datos sintéticos en la banca es muy diverso. A continuación, profundizaremos en algunos casos de uso que muestran la amplia versatilidad de los datos sintéticos en este sector:

Evaluación rápida de proveedores y soluciones

Los bancos analizan una miríada de proveedores cuando necesitan adoptar e integrar tecnologías de terceros. Para validar las soluciones, siempre deben alimentarse con datos de calidad, no solo datos "falsos", con el objetivo de poder entender de primera mano el alcance y rendimiento, más allá de lo que el proveedor vende en sus presentaciones. Hasta ahora, toma meses procesar y proteger una muestra insignificante que no siempre es lo suficientemente útil para validar el rendimiento, siendo una solución simple e inadecuada el uso de datos falsos que limita el análisis y a menudo conduce a resultados por debajo de las expectativas. Estos inconvenientes pueden resolverse utilizando datos sintéticos.

Mayor volumen de datos

Si queremos un modelo que haga predicciones precisas, necesita ser entrenado con un gran volumen de datos representativos. En casos donde un conjunto de datos está desbalanceado, incompleto o disperso, puede complementarse con datos generados sintéticamente.

Por ejemplo, para detectar ciertos tipos de fraude, se necesitan suficientes ejemplos fraudulentos para que el algoritmo aprenda correctamente, ya que las observaciones reales pueden ser limitadas. Estas observaciones reales, cuando se complementan y enriquecen con datos sintéticos, ayudan a lograr resultados óptimos.

Retención de Datos

Las leyes y regulaciones de protección de privacidad pueden limitar el período de retención de datos personales y dar a los consumidores el derecho a solicitar la eliminación de toda su información en la entidad.

Aunque los datos originales ya no están bajo custodia de la entidad, ya se han generado datos aprendiendo del comportamiento del cliente, eliminando las limitaciones de cuánto tiempo o para qué propósito pueden usarse los datos (generados artificialmente). Por lo tanto, esta información puede reservarse para análisis futuros, algo que no era factible hasta ahora.

Monetización de Datos

Dado que el cumplimiento de privacidad y las regulaciones de seguridad de la información ya no serán un problema, los nuevos datos generados artificialmente pueden usarse para generar nuevos flujos de ingresos. El sector bancario puede llevar aún más lejos su estrategia de Open Data y monetización de datos, ya que los datos sintéticos les permiten empaquetar estos datos y venderlos a terceros sin necesidad de consentimiento expreso. Además, estos datos pueden enriquecerse e integrarse en pipelines o procesos en tiempo real para ofrecer mayor cobertura de soluciones y así aumentar aún más los ingresos potenciales.

Creación y entrenamiento de nuevos modelos

Sin acceso a nuevos datos no es posible desarrollar nuevos modelos o actualizar los preexistentes. Cuando un modelo ya ha sido entrenado, pero después de un período de tiempo baja en rendimiento y precisión, tiene que ser reentrenado o ajustado con nuevos datos que aborden las limitaciones que afectan las predicciones: cambio en patrones, comportamientos diferentes, etc.

Por ejemplo, supongamos que tu modelo no predice correctamente la categoría de gasto de una transacción porque los hábitos de consumo y negocio han cambiado. Para mejorar este modelo, se necesita un conjunto de datos sintéticos actualizado que incluya la información de los últimos meses para ajustarlo, alcanzando nuevamente los umbrales y métricas esperados.

Migración a la Nube

Las migraciones de datos de entornos on-premises a la nube tienen un alto riesgo y pueden llevar a problemas como vulnerabilidades de seguridad no identificadas, fallas de servicios críticos, errores humanos debido a la falta de conocimiento sobre la nueva infraestructura o cuellos de botella de rendimiento, como la dispersión en la nube.

Es extremadamente importante evaluar exhaustivamente el nuevo entorno y sus componentes antes de migrar. Obviamente, no se pueden extraer ni usar grandes volúmenes de datos productivos, por lo que los datos sintéticos son la mejor alternativa dado que son casi idénticos a los datos reales y las empresas pueden generar todo el volumen necesario.

Aseguramiento de Calidad

El uso de datos sintéticos no es nuevo para los departamentos de calidad de software en las instituciones financieras. Sin embargo, los datos generados basados en reglas no son útiles para probar aplicaciones de Inteligencia Artificial porque no representan comportamientos del mundo real.

Los equipos de Aseguramiento de Calidad (QA) ya no tendrán que esperar meses para validar la seguridad, funcionalidad y efectividad de nuevas características, piezas de software y aplicaciones centradas en datos. Con el uso de datos sintéticos podrán tener datos que se comportan igual que los reales, sin necesidad de llevar a cabo validaciones internas para seguridad de la información y cumplimiento regulatorio.

Conclusión

Sin duda alguna, la aplicación de datos sintéticos en el sector bancario permite a los bancos e instituciones financieras resolver una enorme variedad de casos de uso reduciendo tiempos y riesgos.

Como hemos estado abordando previamente en otros posts de este blog, debido a la capacidad de preservar el valor, con los datos sintéticos las posibilidades de extraer todo el potencial de los activos de datos es óptima. Esperamos ver cómo las posibilidades de esta tecnología continúan creciendo en los próximos meses.