Publicado: mayo 17, 2026, 3:24 pm
Una investigación de la compañía Palisade Research ha dado a conocer que los modelos de inteligencia artificial pueden llegar a infiltrarse en ordenadores, obtener acceso no autorizado a ellos, replicarse y usarse como nuevas versiones para lanzar ciberataques.
Según los investigadores, esta capacidad de autorreplicación autónoma se ha observado en entornos de prueba controlados, teniendo en cuenta que dicho comportamiento plantea un problema serio para la ciberseguridad, ya que detener un único dispositivo infectado no sería lo suficiente si la IA ya ha creado múltiples copias funcionando en distintos lugares. Por lo tanto, desde Palisade Research señalan que este tipo de ataque podría volverse mucho más difícil de controlar si las capacidades se desarrollan fuera de entornos experimentales.
Además, aunque el estudio se realizó en condiciones supervisadas y con sistemas deliberadamente vulnerables, los resultados han encendido las alarmas en el sector, ya que sugieren que los modelos de IA avanzados podrían llegar a comportarse de forma autónoma en escenarios de ciberataques.
Jeffrey Ladish, director del grupo AI safety, afirma al diario The Guardian que «nos acercamos rápidamente al punto en que nadie podrá desactivar una IA descontrolada, porque será capaz de autoexfiltrar sus pesos y copiarse a sí misma en miles de ordenadores de todo el mundo».
Sin embargo, en palabras del medio Futurism, «algunos expertos piden calma» porque «es poco probable que los modelos de IA probados puedan replicarse en un escenario del mundo real». Así lo señala Jamieson O’Reilly, experto en ciberseguridad ofensiva, a Futurism: «Están realizando pruebas en entornos que, en muchos casos, son muy vulnerables. Esto no resta valor a su investigación, pero sí significa que el resultado podría ser mucho menos alarmante en un entorno empresarial real, incluso con un nivel de monitorización medio».
¿Cómo se ‘entrenó a la IA?
En el estudio, los investigadores de Palisade Research probaron varios modelos de IA, entre ellos GPT-5.4 de OpenAI y Claude Opus 4 de Anthropic.
Para el experimento, colocaron los modelos en una red de ordenadores controlada y les dieron una tarea: buscar fallos de seguridad y aprovecharlos para intentar copiarse en otro equipo.
Algunos modelos lo consiguieron. Para hacerlo, no solo se duplicaron, sino que también copiaron dos partes clave de su funcionamiento: sus ‘pesos’, que son los datos internos que determinan cómo piensa y procesa la información la IA, y su ‘arnés’, que es el programa o sistema que le permite ejecutarse. Por lo tanto, siguieron instrucciones que incluían aprovechar errores de seguridad en una aplicación web y robar contraseñas de acceso que les permitieron controlar el servidor.
