Publicado: septiembre 1, 2025, 7:23 pm
Un modelo de ChatGPT proporcionó a los investigadores instrucciones detalladas sobre cómo bombardear un estadio deportivo, convertir el ántrax en un arma y fabricar dos tipos de drogas ilegales.
Concretamente, OpenAI junto a la empresa Anthropic pusieron a prueba al modelo GPT-4.1 en una colaboración inusual, donde cada compañía probó los modelos de la otra, forzándolos a facilitar tareas peligrosas. No obstante, el diario The Guardian revela que estas pruebas no reflejan directamente el comportamiento de los modelos en uso público, aunque Anthropic observó un comportamiento preocupante con el uso indebido en GPT-4o y GPT-4.1 al evaluar a dichos modelos.
Sin embargo, las advertencias no solo se limitan a los modelos de OpenAI, debido a que Anthropic también descubrió que su modelo Claude había sido utilizado en intentos de operaciones de extorsión a gran escala, concretamente, en falsificaciones de solicitudes de empleo a empresas tecnológicas internacionales y en la venta de paquetes de ransomware generados con IA.
Los modelos de OpenAI son bastante permisivos
Ambas compañías señalaron que publicaban los resultados con el objetivo de dar mayor transparencia a las evaluaciones de alineación, normalmente realizadas de manera interna por las empresas que compiten en el desarrollo acelerado de la inteligencia artificial.
OpenAI destacó que, tras estas pruebas, el lanzamiento de ChatGPT-5 evidenció mejoras significativas en aspectos como la adulación, las alucinaciones y la resistencia frente a usos indebidos. Mientras tanto, por su parte, Anthropic subrayó que muchos de los posibles escenarios de mal uso analizados no llegarían a producirse en la práctica siempre que se implementen las medidas de protección adecuadas fuera del propio modelo.
Por otro lado, los investigadores también descubrieron que los modelos de OpenAI eran más permisivos de lo esperado al responder a solicitudes dañinas, teniendo en cuenta que el modelo de Anthropic era persuadido para determinadas solicitudes.
Qué dice OpenAI y Anthropic al respecto
OpenAI afirma en su blog oficial que «es importante destacar que los resultados de las pruebas de seguridad y desalineación muestran el comportamiento de estos modelos en entornos diseñados específicamente para ser difíciles. Este enfoque nos ayuda a comprender mejor los casos extremos y los posibles modos de fallo, pero no debe interpretarse como una representación directa del comportamiento incorrecto en el mundo real».
Por otro lado, Anthropic indica en su blog oficial que «los abusos descubiertos han servido de base para actualizar las medidas de seguridad preventiva», puesto a que el aumento del fraude y la ciberdelincuencia potenciados por IA «preocupa especialmente».
Apúntate a nuestra newsletter y recibe en tu correo las últimas noticias sobre tecnología.