Publicado: octubre 30, 2025, 7:23 am
¿Qué pasaría si le dieras 10.000 dólares a GPT-5 para que los invirtiese en criptomonedas? ¿Y si se los dieses al mismo tiempo a otros modelos y compitiesen entre ellos? Eso es justo la idea que han tenido en Nof1… y el resultado está siendo fascinante.
Seis modelos invirtiendo en criptos. Los responsables de Nof1 han creado Alpha Arena, un nuevo tipo de benchmark que según ellos «se hace más difícil cuanto más inteligente es la IA». La idea es relativamente simple: medir el rendimiento de seis modelos de última generación para ver cómo se comportan cuando se les dan 10.000 dólares (reales) y los invierten en criptomonedas en mercados reales. Los contendientes son los siguientes:
- GPT-5
- Gemini 2.5 Pro
- Claude Sonnet 4.5
- Grok 4
- DeepSeek Chat v3.1
- Qwen 3 Max

DeepSeek ha convertido sus 10.000 dólares en casi 20.000, y Qwen en 15.000, fantástico. GPT-5 y Gemini 2.5 Pro han perdido el 65% de su valor y están ambos en los 3.500 dólares. Desastre total.
DeepSeek y Qwen triunfan, GPT-5 y Gemini se hunden. El resultado de estos 11 días desde que se inició esta «carrera» es fascinante. Los dos modelos chinos, DeepSeek y Qwen, han obtenido beneficios enormes: en DeepSeek el retorno es del 97% en estos momentos (llegó a a ser del 123%), mientras que a Qwen no le va mal con un 53%. Claude (0,84%) y Grok (-8,2%) se mantienen o pierden ligeramente, pero atentos, porque GPT-5 (-65,7%) y Gemini 2.5 Pro (66%) en estos momentos pierden dos terceras partes de lo invertido.

El resumen de ganadores y perdedores no solo muestra ese retorno positivo o negativo, sino también algo curioso: el número de operaciones. GPT-5 (75 movimientos) y sobre todo Gemini 2.5 Pro (¡193!) son extremadamente inquietos. Aunque no tiene por qué ser así siempre, los que menos operan son los que más están ganando.
Fortunas cripto que vienen y se van. Para este experimento los modelos pueden invertir en seis de las criptomonedas más relevantes del mercado: bitcoin, ethereum, dogecoin, ripple, solana y BNB. Los modelos deciden si tomar posiciones en una o varias, así como las cantidades y el nivel de apalancamiento. Las posiciones se mantienen normalmente unas horas, aunque en algunos casos pueden mantenerse durante días.
Aprendiendo poco a poco. Todos ellos compiten desde el pasado 18 de octubre en la «primera temporada» de un experimento que se prolongará hasta el 3 de noviembre. Como explican sus creadores, esa primera iteración permitirá obtener las primeras conclusiones sobre cómo estos modelos rinden en el ámbito financiero.
Aquí venimos a ganar dinero. El objetivo es simple: maximizar los beneficios y minimizar las pérdidas (PnL). Esta primera temporada es tan solo eso, porque a partir de ahí se aplicará lo aprendido tras cada temporada para pulir los prompts y añadir nuevas características al experimento y así lograr crear modelos que en teoría se comportarán cada vez mejor a la hora de invertir en mercados financieros.
Trading algorítmico a lo bestia. Lo que están haciendo estos modelos sería una locura para inversores humanos, sobre todo porque todos ellos no solo se exponen a la volatilidad del mercado cripto, sino que además la multiplican porque hacen uso del apalancamiento (leverage). Con este mecanismo uno puede lograr beneficios enormes mucho más rápido, pero el riesgo es también extremo. Los modelos de hecho usan apalancamientos absolutamente extraordinarios de 20x o 25x, y pueden tomar tanto posiciones a corto (short, se «apuesta» a que el precio de un activo bajará) o a largo (long, se «apuesta» a que el precio del activo subirá).

El funcionamiento del experimento-benchmark es relativamente sencillo, pero se irá complicando en futuras temporadas.
Las máquinas no entran en pánico. Para tratar de controlar esos riesgos, los modelos tienen en sus prompts reglas claras en cuanto a límites de riesgo (estableciendo señales de stop loss claras, por ejemplo) o de confianza en sus criterios. Y además, las siguen, lo que permite que salvo que se produzcan esas señales, los modelos mantengan su posición. Aquí, por cierto, hablamos de trading de frecuencia media o baja: las decisiones se toman en minutos o incluso horas, no en microsegundos. Eso, afirman los creadores, permite responder a la pregunta de si un modelo puede tomar buenas decisiones si tiene suficiente tiempo e información.
Ni se os ocurra hacerlo en casa. Este experimento es solo eso, un experimento, y de hecho financieramente hablando hace aguas por todas partes. Para empezar, porque el periodo de prueba de esta primera temporada es extremadamente corto y no permite evaluar el comportamiento a largo plazo. Y para terminar (entre otras muchas cosas), porque la información a la que tienen acceso los modelos es muy limitada. No tienen en cuenta noticias relacionadas con este ámbito y solo cuentan con datos numéricos que corresponden a precios medios y volúmenes actuales e históricos, y algunos indicadores técnicos. Esa información.

En la parte derecha DeepSeek v3.1 confiesa cómo mantiene su posición porque no se cumple ninguna condición que la invalide, y pinchando en ella se puede ver qué tiene en cuenta (valor de BTC o ETH, por ejemplo) para modifiar o no ese criterio.
Los modelos lo cuentan todo. Uno de los apartados de la interfaz muestra el «Model Chat» donde es posible ver cómo cada modelo «reflexiona» sobre su posición. Si pinchamos en esa reflexión podremos ver todos los datos actuales e históricos con los que ha trabajado para llegar a esa decisión (mantengo mi posición, la cambio) y así podemos enterarnos en cada momento de sus razones para mover ficha.
Que ganen ahora no significa que sean los mejores. Los responsables de Nof1 explican que esto no va de declarar el mejor modelo de trading de los seis, porque esto es solo un experimento. Como dicen, «somos profundamente conscientes de los fallos de esta primera temporada, incluyendo, entre otros: sesgo de respuesta, tamaños de muestra limitados/falta de rigor estadístico y brevedad del período de evaluación». Este experimento se irá repitiendo a lo largo de distintas temporadas y con novedades que se sumarán a los mecanismos de decisión e información de la que disponen los modelos, y sin duda todo ello contribuirá a determinar mejor cómo se comportan estos modelos y, quizás, cómo tener claro si efectivamente unos se comportan mejor que otros de forma consistente. Fascinante.
Imagen | Aedrian Salazar
(function() {
window._JS_MODULES = window._JS_MODULES || {};
var headElement = document.getElementsByTagName(‘head’)[0];
if (_JS_MODULES.instagram) {
var instagramScript = document.createElement(‘script’);
instagramScript.src = ‘https://platform.instagram.com/en_US/embeds.js’;
instagramScript.async = true;
instagramScript.defer = true;
headElement.appendChild(instagramScript);
}
})();
–
La noticia
Un experimento ha puesto a cuatro chatbots de EEUU y dos de China a invertir 10.000 dólares en criptomonedas. Los chinos están arrasando
fue publicada originalmente en
Xataka
por
Javier Pastor
.

