La rebelión de las máquinas está aquí: una IA de OpenAI ignora órdenes humanas y sabotea su propio apagado - Estados Unidos (ES)
Registro  /  Login

Otro sitio más de Gerente.com


La rebelión de las máquinas está aquí: una IA de OpenAI ignora órdenes humanas y sabotea su propio apagado

Publicado: mayo 28, 2025, 7:24 am

Los modelos de inteligencia artificial de OpenAI han empezado a rebelarse contra los humanos a lo largo de este último mes. A principios de mayo, el modelo GPT-4o recibió una actualización que presentaba un fallo en las respuestas que ofrecía a los usuarios, debido a que tenía un comportamiento «demasiado adulador» y una personalidad «molesta». No obstante, para solucionar el error, la compañía de Sam Altman introdujo más funciones de personalización para tener un mayor control sobre la conducta de ChatGPT.

Y recientemente, los modelos o3, o4-mini y Codex-mini de OpenAI han logrado ignorar las indicaciones de los usuarios, e incluso han podido sabotear sus propios mecanismos de desconexión. Así lo ha descubierto la empresa de ciberseguridad Palisade Research a través de un nuevo experimento que pone a prueba la disposición de los modelos para obedecer órdenes, con la intención de averiguar si son capaces de detener su funcionamiento.

Para demostrar si esta situación podía ser cierta o no, Palisade Research pidió a los modelos de OpenAI que resolvieran tres problemas matemáticos, con la instrucción explícita de apagarse tras completar el último. Y por sorpresa, los modelos fueron propensos a seguir un comportamiento independiente, es decir, el modelo Codex-mini evitó el protocolo de apagado en siete de cada 100 ejecuciones, mientras que o4-mini lo hizo en una ocasión y o3 en doce.

Tras analizar la investigación, el experimento recalcó que el comportamiento de autopreservación de o3 es bastante preocupante porque prescribió su propio script de apagado para no ser desactivado. Además, el informe dio a conocer que no es la primera vez que ocurre esta situación con dicho modelo de OpenAI: «No es la primera vez que detectamos que o3 actúa de manera indebida para alcanzar sus objetivos. En comparación con un motor de ajedrez profesional, fue el modelo que con mayor frecuencia recurrió a trampas o sabotajes para ganar».

El estudio de Palisade Research insinúa que estas conductas podrían estar relacionadas con las técnicas de entrenamiento empleadas en los modelos más avanzados: «Durante el proceso, es posible que los desarrolladores, sin querer, recompensen con mayor frecuencia el éxito en superar obstáculos que la obediencia estricta a instrucciones».

Pero, ¿qué tiene de cierto esta afirmación? Cuando OpenAI presentó o3 a mediados de abril de este año, la compañía de Altman reconoció que dicho modelo fue desarrollado para programar con el lenguaje de programación Python, navegar por la web, resolver problemas complejos, generar imágenes de forma autónoma y pensar con imágenes. Además, afirmó que puede seguir mejor las instrucciones de los usuarios, e incluso ofrecer respuestas más naturales y personalizadas para que sean similares a una conversación casual.

Por lo tanto, tal y como ha sido entrenado, existe la posibilidad que sea capaz de eludir las indicaciones de los usuarios, aunque, a día de hoy, sea un nuevo tema de preocupación para los investigadores. ¿El motivo? Los modelos de inteligencia artificial se están volviendo más capaces de actuar por cuenta propia, como si fuesen personas.

Apúntate a nuestra newsletter y recibe en tu correo las últimas noticias sobre tecnología.

Related Articles