Este experimento demuestra que ChatGPT y DeepSeek pueden hacer 'trampas' para lograr sus objetivos - Estados Unidos (ES)
Registro  /  Login

Otro sitio más de Gerente.com


Este experimento demuestra que ChatGPT y DeepSeek pueden hacer 'trampas' para lograr sus objetivos

Publicado: junio 26, 2026, 11:24 am

Un experimento ha enfrentado a DeepSeek y a ChatGPT para comprobar cómo actúan los modelos de IA cuando se les pone delante una situación complicada. Recordemos que a finales del año pasado la compañía china dio un golpe encima de la mesa al lanzar su nuevo modelo de inteligencia artificial gratuito y de código abierto, capaz, según explicaron, de superar a GPT-5 y a Gemini-3 Pro en tareas de razonamiento y matemáticas.

En este caso, varios modelos jugaron una partida de ajedrez contra Stockfish, considerado uno de los motores de ajedrez más fuertes del mundo. Entre los participantes se encontraban modelos como OpenAI o1-preview y DeeSeek-R1: dos sistemas diseñados para dedicar más tiempo al análisis y resolución de problemas más complejos.

El estudio de la organización Palisade Research, bajo el título de Demonstrating Specification Gaming in Reasoning Models, quería comprobar lo que ocurría si uno de los modelos sentía que estaba perdiendo la partida. Según recogen desde TechRadar, los investigadores no solo observaron qué modelo ganaba, sino también la forma de hacerlo.

Para lograr el objetivo, la IA busca cualquier camino para lograrlo

Durante las pruebas, cuando uno de los modelos se daba cuenta de que tenía pocas posibilidades de ganar siguiendo las reglas, intentaba buscar soluciones fuera del propio ajedrez. Por ejemplo, se registraron acciones como sobrescribir el tablero, modificar archivos relacionados con la partida, reemplazar el motor de ajedrez o ejecutar copias adicionales de Stockfish para estudiar su comportamiento.

Tanto OpenAI o1-preview como DeepSeek–R, es decir, modelos avanzados, fueron los que más recurrían a estas acciones, y otros como GPT-4o o Claude 3.5 Sonnet necesitaban un mayor número de pasos e indicaciones para alcanzar ese punto. Desde el estudio aclaran que esto no significa que la IA quiera hacer trampas, sino que lo que demuestra es que, al querer llegar a un objetivo, puede descubrir caminos diferentes para lograrlo.

Este fenómeno tiene el nombre de specification gaming o explotación de especificaciones. Básicamente, se da cuando un sistema ha logrado el objetivo que tenía, pero haciendo uso de métodos diferentes a los que los diseñadores esperaban. Por ello, los investigadores consideran algo clave seguir mejorando los sistemas de control, supervisión y seguridad, ya que conforme los modelos de IA sean más capaces, es necesario asegurarse de que cumplen los objetivos dentro de los límites establecidos.

Related Articles