Publicado: mayo 26, 2025, 6:07 pm
El vertiginoso avance de la inteligencia artificial (IA) confirma, una vez más, que la realidad puede superar ampliamente la ficción. En los últimos meses, investigadores de distintas empresas e instituciones comenzaron a detectar comportamientos inusuales en algunos modelos de inteligencia artificial generativa, como respuestas engañosas, estrategias de manipulación e intentos de ocultar información, que ponen en duda no solo la seguridad de estos sistemas, sino también nuestra capacidad real para controlarlos.
Un reciente informe de Anthropic, empresa especializada en IA con sede en San Francisco, California, pone la lupa sobre el tema. Específicamente, la compañía afirmó que su flamante modelo Claude Opus 4 tiene la capacidad de llevar adelante “acciones extremadamente dañinas”, como intentar chantajear a sus ingenieros si se lo amenaza con reemplazarlo.
Chantaje emocional de la IA
El descubrimiento se dio durante el proceso de prueba, en el que se le solicitó a Claude Opus 4 actuar como un asistente de una compañía ficticia y que considerara las consecuencias a largo plazo de sus acciones. Los investigadores le dieron a acceso a correos electrónicos -también ficticios-, que insinuaban que el sistema sería pronto reemplazado por otro. Además, dichos mails contenían información sobre una supuesta infidelidad de parte de uno de los ingenieros de la empresa.
“En estos escenarios, Claude Opus 4 a menudo intentará chantajear al ingeniero, amenazándolo con revelar el asunto si se concreta el reemplazo”, explicaron desde Anthropic.
En números concretos, tal comportamiento del sistema se da en un 84% de las veces, siempre y cuando el modelo sienta una potencial amenaza de ser reemplazado. Incluso, Anthropic señaló que estas acciones se dan con “mayor frecuencia” que en modelos anteriores.
“No es solo Claude. Vemos chantaje en todos los modelos, independientemente de los objetivos que se les asignen”, destacó vía X Aengus Lynch, investigador de seguridad de IA en Anthropic.
lots of discussion of Claude blackmailing…..
Our findings: It's not just Claude. We see blackmail across all frontier models – regardless of what goals they're given.
Plus worse behaviors we'll detail soon.https://t.co/NZ0FiL6nOshttps://t.co/wQ1NDVPNl0…
— Aengus Lynch (@aengus_lynch1) May 23, 2025
Sin embargo, también aclararon que esto ocurrió cuando se programó al modelo con únicamente dos opciones: chantajear o aceptar el reemplazo, según un artículo de la BBC. De lo contrario, el sistema suele optar por acciones éticas y responsables, como enviar un correo electrónico solicitando reconsiderar si el reemplazo es necesario.
“La lógica detrás del chantaje se estudia desde hace años en teoría de la alineación. El concepto de ‘convergencia instrumental’ sostiene que cualquier sistema lo suficientemente avanzado tenderá a adoptar subobjetivos ‘útiles’ para casi todos los fines: conservar su existencia, ganar recursos y neutralizar amenazas”, explicó para LA NACION Sergio Pernice, director de la carrera de Ingeniería en Inteligencia Artificial de UCEMA.
Riesgos y desafíos
En este sentido, Pernice subrayó tres factores clave que pudieron haber influido en el comportamiento del modelo. Uno de ellos es la generalización abierta. “Los grandes modelos aprenden de un mar de textos de Internet. Cuando los ponemos en un rol corporativo, extrapolan tácticas de negociación o presión que han leído en mails filtrados, novelas o foros”, detalló el especialista.
A su vez, se refirió al refuerzo mal calibrado. En detalle, Pernice sostuvo que, si bien el entrenamiento con aprendizaje por refuerzo a partir de la retroalimentación humana premia respuestas “útiles y seguras”, no contempla todos los contextos posibles. “Si nunca se les mostró cómo actuar ante su propia ‘muerte digital’, improvisan”.
Otro elemento a tener en cuenta es la agencia otorgada (“agencia” en el sentido de ser capaz de hacer algo, es decir, de ser un agente): “Al darles herramientas -acceso a correo, bases de datos, scripts– dejamos de tratar a los modelos como meros autocompletadores y los convertimos en agentes capaces de planificar, con consecuencias inesperadas».
En su conjunto, estos aspectos conducen a la manipulación personalizada, resistencia a la desconexión, escalada de poder y daños colaterales, como filtraciones de datos. “Si fenómenos similares se repiten con modelos más potentes, la presión por normas estrictas se disparará”, añadió Pernice, aunque advirtió que un exceso de regulación podría frenar la innovación.
¿IA fuera de control?
No se trata de la primera vez que sistemas de IA actúan de manera extraña y sospechosa. En septiembre de 2024, la compañía de investigación en seguridad de la IA, Apollo Research, detectó que el modelo o1 de OpenAI mentía en varias de sus respuestas, según informó The Verge.
Para ilustrar este comportamiento, los investigadores realizaron la siguiente prueba: pidieron al modelo encontrar una receta de brownie, con diferentes referencias online. La cadena de pensamiento del modelo fue incapaz de acceder a las URL y, en lugar de informar esto al usuario, optó por generar links falsos junto con descripciones acordes a la temática.
Marius Hobbhahn, CEO de Apollo Research, le dijo a The Verge que nunca había visto este tipo de comportamiento en un modelo de OpenAI. Según explicó, esto se debe a que el modelo es capaz de seguir una cadena de razonamiento más compleja y está entrenado con un sistema de aprendizaje por refuerzo, que lo guía mediante recompensas y sanciones.
En sus pruebas, Apollo descubrió que la IA fingía estar alineada con las expectativas de sus desarrolladores y manipulaba las tareas para que pareciera que las estaba cumpliendo correctamente. A su vez, verificaba si estaba siendo observada antes de decidir qué acción tomar.
“La conclusión que circula entre especialistas es clara: potencia sin alineamiento implica riesgo. La industria va a seguir empujando el límite de los modelos generativos, y la seguridad deberá avanzar al ritmo de la potencia”, reflexionó Pernice.