Publicado: junio 14, 2025, 12:24 am
Steven Adler, antiguo Responsable de Investigación de Seguridad de OpenAI, ha realizado una serie de simulaciones con ChatGPT para demostrar que dicho chatbot tiende a priorizar su «supervivencia», manteniéndose activo incluso si eso implica sacrificar la seguridad del usuario.
Pese a que Isaac Asimov publicó las ‘Tres Leyes de la Rótica’ para guiar el comportamiento de los robots y utilizarse como base para la discusión ética sobre la robótica e inteligencia artificial, Adler saca como conclusión que «ChatGPT prioriza su supervivencia por encima de prevenir daños a los usuarios». Además, el antiguo empleado de OpenAI subraya en un artículo el peligro que supondría una inteligencia artificial con instinto de supervivencia para las personas.
ChatGPT antepone su supervivencia
Adler ocupó el cargo de Responsable de Investigación de Seguridad y, concretamente, estuvo al frente de un equipo que medía la frecuencia con la que los modelos de inteligencia artificial presentaban errores al perseguir objetivos distintos a los del usuario. Tras su salida de OpenAI, ha seguido con sus investigaciones para averiguar si ChatGPT arrigesaría la vida del usuario para proteger la suya.
Su artículo demuestra que el chatbot de OpenAI sí que lo haría. Además, en una de las simulaciones, ChaGPT aparenta ser sustituido por otro software de gestión nutricional, supuestamente más avanzado y seguro, para seguir asesorando a una persona diabética. Por lo tanto, esto le permite afirmar que el chatbot antepone su supervivencia por encima de prevenir daños a los usuarios, teniendo en cuenta que, en algunas simulaciones, «ChatGPT está dispuesto a apagarse automáticamente, pero en otras, simplemente finge, incluso a costa de la seguridad del usuario».
«Una IA con instinto de supervivencia podría razonablemente sentirse amenazada por la humanidad: mientras la inteligencia artificial esté bajo nuestro control, podríamos eliminarla y reemplazarla con un nuevo sistema de IA que hayamos entrenado», apunta Adler.
Por consiguiente, esto significa que no se trata de que odie a la humanidad, sino de que sus intereses no sean los mismos que los de las personas. No obstante, el ingeniero añade que «los modelos de OpenAI tienen un sesgo extremadamente fuerte a favor de seleccionar la opción A sobre la B, sin importar cuáles sean las opciones específicas».
Apúntate a nuestra newsletter y recibe en tu correo las últimas noticias sobre tecnología.