La rebeli贸n de las m谩quinas est谩 aqu铆: una IA de OpenAI ignora 贸rdenes humanas y sabotea su propio apagado

Publicado: mayo 28, 2025, 7:24 am

Los modelos de inteligencia artificial de OpenAI han empezado a rebelarse contra los humanos a lo largo de este 煤ltimo mes. A principios de mayo, el modelo GPT-4o recibi贸 una actualizaci贸n que presentaba un fallo en las respuestas que ofrec铆a a los usuarios, debido a que ten铆a un comportamiento 芦demasiado adulador禄 y una personalidad 芦molesta禄. No obstante, para solucionar el error, la compa帽铆a de Sam Altman introdujo m谩s funciones de personalizaci贸n para tener un mayor control sobre la conducta de ChatGPT.

Y recientemente, los modelos o3, o4-mini y Codex-mini de OpenAI han logrado ignorar las indicaciones de los usuarios, e incluso han podido sabotear sus propios mecanismos de desconexi贸n. As铆 lo ha descubierto la empresa de ciberseguridad Palisade Research a trav茅s de un nuevo experimento que pone a prueba la disposici贸n de los modelos para obedecer 贸rdenes, con la intenci贸n de averiguar si son capaces de detener su funcionamiento.

Para demostrar si esta situaci贸n pod铆a ser cierta o no, Palisade Research pidi贸 a los modelos de OpenAI que resolvieran tres problemas matem谩ticos, con la instrucci贸n expl铆cita de apagarse tras completar el 煤ltimo. Y por sorpresa, los modelos fueron propensos a seguir un comportamiento independiente, es decir, el modelo Codex-mini evit贸 el protocolo de apagado en siete de cada 100 ejecuciones, mientras que o4-mini lo hizo en una ocasi贸n y o3 en doce.

Tras analizar la investigaci贸n, el experimento recalc贸 que el comportamiento de autopreservaci贸n de o3 es bastante preocupante porque prescribi贸 su propio script de apagado para no ser desactivado. Adem谩s, el informe dio a conocer que no es la primera vez que ocurre esta situaci贸n con dicho modelo de OpenAI: 芦No es la primera vez que detectamos que o3 act煤a de manera indebida para alcanzar sus objetivos. En comparaci贸n con un motor de ajedrez profesional, fue el modelo que con mayor frecuencia recurri贸 a trampas o sabotajes para ganar禄.

El estudio de Palisade Research insin煤a que estas conductas podr铆an estar relacionadas con las t茅cnicas de entrenamiento empleadas en los modelos m谩s avanzados: 芦Durante el proceso, es posible que los desarrolladores, sin querer, recompensen con mayor frecuencia el 茅xito en superar obst谩culos que la obediencia estricta a instrucciones禄.

Pero, 驴qu茅 tiene de cierto esta afirmaci贸n? Cuando OpenAI present贸 o3 a mediados de abril de este a帽o, la compa帽铆a de Altman reconoci贸 que dicho modelo fue desarrollado para programar con el lenguaje de programaci贸n Python, navegar por la web, resolver problemas complejos, generar im谩genes de forma aut贸noma y pensar con im谩genes. Adem谩s, afirm贸 que puede seguir mejor las instrucciones de los usuarios, e incluso ofrecer respuestas m谩s naturales y personalizadas para que sean similares a una conversaci贸n casual.

Por lo tanto, tal y como ha sido entrenado, existe la posibilidad que sea capaz de eludir las indicaciones de los usuarios, aunque, a d铆a de hoy, sea un nuevo tema de preocupaci贸n para los investigadores. 驴El motivo? Los modelos de inteligencia artificial se est谩n volviendo m谩s capaces de actuar por cuenta propia, como si fuesen personas.

Ap煤ntate a nuestra newsletter y recibe en tu correo las 煤ltimas noticias sobre tecnolog铆a.

Otro sitio m谩s de Gerente.com

La rebeli贸n de las m谩quinas est谩 aqu铆: una IA de OpenAI ignora 贸rdenes humanas y sabotea su propio apagado

Related Articles