Publicado: abril 5, 2025, 10:08 pm
En plena revolución de la IA, los datos sintéticos se perfilan como una herramienta clave para entrenar modelos más potentes y seguros. Según PwC, la IA generará un impacto económico de 15,7 billones de dólares a escala global hasta 2030, un crecimiento que exige enormes volúmenes de datos sintéticos para alimentar sus algoritmos. Esta técnica permite crear información artificial que reproduce las características estadísticas de los datos reales, ampliando los conjuntos disponibles sin comprometer la privacidad. Su uso ya se ha extendido a múltiples sectores. Los datos sintéticos están ayudando a muchas empresas a suplir la falta de información que dificulta la adopción de la IA en sus procesos clave, según Alberto G. Arrieta, responsable de data & IA de Accenture en España y Portugal. Esta solución reduce los costes operativos y regulatorios al evitar la recopilación masiva de datos reales, especialmente en sectores como la salud o la banca, apunta Arrieta. También reactiva modelos como el Data-as-a-Service y abre el mercado a startups y pymes, añade. Desde Devoteam, su data governance manager, Vanessa Perales, subraya que los datos sintéticos eliminan prácticamente el riesgo de filtraciones, al no estar vinculados a información personal, y que los procesos de enmascarado suelen ser irreversibles. Esta privacidad inherente permite cumplir con normativas como el RGPD, según destacan también desde IndesIA. Ambas fuentes coinciden en que los datos sintéticos contribuyen a reducir sesgos presentes en los conjuntos reales, al permitir generar información más equilibrada y completa, algo clave para entrenar algoritmos más justos en contextos donde los datos originales son limitados o incompletos. En este contexto, las expectativas de crecimiento son elevadas. El uso de datos sintéticos crecerá de forma exponencial en los próximos cinco años, impulsado por la expansión de la IA generativa y la creciente necesidad de entrenar modelos cada vez más sofisticados, según Manuel Gutiérrez, vicepresidente de digital solutions de T-Systems Iberia. Este tipo de datos será clave allí donde no existan suficientes datos reales o su uso esté restringido. Sectores como salud –especialmente en medicina de precisión–, automoción, banca y seguros liderarán esta expansión por su fuerte demanda de algoritmos para predicción, simulación y análisis de riesgos. Más allá de las previsiones, algunas industrias aplican ya esta tecnología de forma intensiva, según Adrián Sánchez, responsable de IA, gen AI & analytics de I&D de Capgemini en España. Automoción, salud, banca, energía, retail y administración pública la usan para entrenar modelos y también para simular escenarios complejos, validar soluciones en entornos ‘sandbox’ y mejorar la precisión de los algoritmos, todo ello sin comprometer la privacidad ni la seguridad de los datos reales, explica. El dato sintético permite generar información difícil o costosa de obtener, lo que facilita desarrollar soluciones antes inviables , según Jacinto Estrecha, responsable de IA en NTT DATA España. Su escalabilidad amplía los casos de uso con bajo coste. Aunque no transformará por sí solo los modelos de negocio, será clave en su evolución hacia entornos más éticos, privados y especializados. Desde una perspectiva ética, el foco no debería estar tanto en el uso de datos sintéticos, sino en el comportamiento de los modelos de IA, según Charles Gorintin, cofundador y CTO de Alan. A su juicio, estos datos presentan menos riesgos que los reales, ya que preservan la privacidad y permiten mitigar sesgos. Lo importante, insiste, es evaluar los resultados con criterios de equidad y transparencia, más allá del origen de los datos empleados en el entrenamiento. Pero más allá del plano ético, el uso de datos sintéticos también implica riesgos técnicos que conviene tener en cuenta, especialmente en sectores sensibles como los seguros o la ciberseguridad , según Marc Rivero, lead security researcher de Kaspersky. Uno de los principales desafíos es la fiabilidad, ya que si los datos no reproducen con precisión la realidad que pretenden simular, los modelos pueden ofrecer resultados poco representativos. Existe, además, el riesgo de amplificar sesgos ya presentes en los datos originales, o de provocar comportamientos inesperados si se utilizan fuera de su contexto. Por eso, Rivero recomienda combinar datos sintéticos con reales y validar constantemente su eficacia. A estos desafíos inmediatos se suman otros más profundos relacionados con la sostenibilidad y gobernanza de los modelos. Uno de ellos es la degeneración de los sistemas cuando se reentrenan exclusivamente con datos sintéticos, lo que obliga a inyectar datos reales de forma periódica para mantener el vínculo con el comportamiento observado, advierte Manuel Gutiérrez, de T-Systems. Para Vanessa Perales, de Devoteam, también es un reto reproducir relaciones complejas en entornos con grandes volúmenes y múltiples reglas. Ambos subrayan que el marco legal vigente –incluido el futuro AI Act – exige trazabilidad, control y estructuras sólidas de supervisión. Según Joaquín Muñoz, socio de Bird & Bird, la aplicación del RGPD a los datos sintéticos depende directamente del riesgo de identificación de personas físicas. Si los datos se generan desde cero y no permiten inferencias sobre individuos reales, quedan fuera del reglamento. Sin embargo, si derivan de información personal, aunque esta haya sido modificada, el proceso de creación se considera tratamiento de datos y debe cumplir con las exigencias legales en materia de privacidad y seguridad. Muñoz subraya que el marco europeo aún presenta vacíos . No existe una definición legal clara de dato sintético ni criterios homogéneos sobre cuándo se considera suficientemente anonimizado. Propone elaborar guías técnicas con métricas de anonimato, buenas prácticas y técnicas como la privacidad diferencial. También destaca la necesidad de impulsar espacios de prueba –como los ‘sandboxes’ previstos en el artículo 59 del AI Act– para testar su aplicación práctica en sectores con requisitos legales y éticos distintos. El uso de datos sintéticos en IA crece ya de forma sostenida, sobre todo en sectores como las finanzas, las telecomunicaciones o la investigación sanitaria, según Alberto G. Arrieta, de Accenture. Estas organizaciones ya emplean datos generados artificialmente para optimizar algoritmos de detección de fraude o enriquecer ensayos clínicos. A su juicio, los datos sintéticos marcan una nueva etapa en la evolución de la IA, con mayor protagonismo para los modelos simulados, los gemelos digitales y los agentes autónomos entrenados con escenarios virtuales complejos. En esta misma línea, David Vivancos, CEO de Artificiology Research, afirma que los datos sintéticos ya superan en predominancia a los reales en muchos ámbitos de entrenamiento de modelos de IA. Su uso permite acelerar el aprendizaje automático en todo tipo de formatos —texto, imagen, audio o vídeo— al replicar patrones comunes de forma rápida y eficaz. Aunque no existen cifras específicas para España, Vivancos observa un nivel de implantación similar al de Europa y EE. UU., salvo por diferencias de escala. También desde una perspectiva técnica, Jacinto Estrecha, de NTT DATA España, señala que el dato sintético se está volviendo cada vez más necesario ante la dificultad de acceder a muestras representativas para entrenar modelos. Su adopción se ha visto impulsada por el auge de la IA generativa, aunque aún presenta limitaciones en tareas clásicas de predicción y no se ha generalizado fuera de entornos altamente especializados. Para Adrián Sánchez, de Capgemini, su principal ventaja radica en la reducción de costes y tiempos frente a los datos reales, lo que facilita el desarrollo de modelos más rápidos y adaptables. Este enfoque abre la puerta a nuevas líneas de negocio, como servicios basados en simulación, gemelos digitales o personalización avanzada, en un marco más eficiente y alineado con las exigencias regulatorias. En paralelo, el crecimiento de esta tecnología se apoya en su capacidad para preservar la privacidad sin sacrificar precisión, señala Charles Gorintin, cofundador y CTO de Alan. A su juicio, sectores como salud, finanzas, automoción o retail seguirán impulsando su adopción por su potencial para cubrir casos raros, evitar filtraciones y cumplir con exigencias regulatorias. Gorintin subraya que esta tendencia no solo responde a los desafíos actuales de la IA, sino que inaugura una nueva etapa en la que los datos sintéticos actuarán como pilar de una inteligencia artificial más ética, precisa y preparada para el futuro.