La ciencia demuestra por primera vez que dos 'chatbots' de IA superan el test de Turing: ya son indistinguibles del ser humano

Publicado: abril 4, 2025, 12:30 pm

Los chatbots de inteligencia artificial (IA) como ChatGPT han sido diseñados para replicar el habla humana lo más fielmente posible, con el fin de mejorar la experiencia del usuario.

Pero a medida que la IA está cada vez más desarrollada, al mismo tiempo resulta cada vez más difícil distinguir estos modelos de las personas reales. Y ahora, la ciencia lo ha demostrado.

Científicos de la Universidad de California en San Diego (UCSD), Estados Unidos, revelan en un estudio que dos de los chatbots más usados ya han alcanzado un hito importante: tanto GPT, que impulsa ChatGPT de OpenAI, como LLaMa, que está detrás de Meta AI en WhatsApp y Facebook, han pasado el famoso test de Turing.

Ideado por el matemático y descifrador de códigos británico de la Segunda Guerra Mundial Alan Turing en el año 1950, el test de Turing o ‘juego de imitación’ es una prueba estándar diseñada para probar la inteligencia de una máquina: una IA pasa la prueba cuando un humano no puede diferenciar correctamente entre una respuesta de otro humano y una respuesta de la IA.

«Los resultados constituyen la primera evidencia empírica de que cualquier sistema artificial pasa una prueba de Turing estándar de tres partes», dicen los científicos de la UCSD. «Si los interrogadores no pueden distinguir con fiabilidad entre un humano y una máquina, se dice que la máquina ha pasado la prueba«, añaden.

Así fue el experimento

Los investigadores utilizaron cuatro modelos de IA: GPT-4.5 (lanzado en febrero), una iteración anterior llamada GPT-4o, el modelo insignia de Meta, LLaMa, y un programa de chat de la década de 1960 llamado ELIZA.

Los primeros tres son ‘modelos de lenguaje grande’ (LLM, por sus siglas en inglés), algoritmos de aprendizaje profundo que pueden reconocer y generar texto basándose en el conocimiento obtenido de conjuntos de datos masivos.

Los expertos reclutaron a 126 estudiantes universitarios de la Universidad de California en San Diego y a 158 personas del banco de datos en línea Prolific. Los participantes tuvieron conversaciones en internet de cinco minutos simultáneamente con otro participante humano y una de las IA, pero no sabían cuál era cuál y tuvieron que juzgar cuál pensaban que era humano.

Cuando se le pidió que adoptara una personalidad humana, se consideró que GPT-4.5 era el humano el 73% de las veces, con más frecuencia que el participante humano real.

Un porcentaje tan alto sugiere que las personas fueron más hábiles que el azar para determinar si GPT-4.5 es un humano o una máquina. Mientras tanto, LLaMa-3.1 de Meta, cuando también se le pidió que adoptara una personalidad humana, fue considerado humano el 56% del tiempo.

Esto «no fue significativamente más ni menos frecuente que los humanos con los que se los comparaba», señala el equipo, pero aun así cuenta como un aprobado.

Por último, los modelos de referencia (ELIZA y GPT-4o) lograron tasas de acierto significativamente inferiores al azar: 23% y 21% respectivamente.

Los investigadores también intentaron dar una instrucción más básica a los modelos, sin las instrucciones detalladas que les decían que adoptaran una personalidad similar a la humana.

Como se esperaba, los modelos de IA tuvieron un desempeño significativamente peor en esta condición, lo que resalta la importancia de activar primero a los chatbots.

El equipo dice que su nuevo estudio, publicado como preimpresión, es una «evidencia sólida» de que los bots de OpenAI y Meta han pasado la prueba de Turing.

«Esto debería evaluarse como una de muchas otras piezas de evidencia del tipo de inteligencia que muestran los LLM», dijo el autor principal, Cameron Jones, en un hilo de X.

Jones admitió que las IA funcionaron mejor cuando se les indicó de antemano que imitaran a un humano, pero esto no significa que GPT-4.5 y LLaMa no hayan pasado la prueba de Turing.

«Sin ningún tipo de aviso, los LLM fracasarían por razones triviales (como admitir que son IA) y podrían ajustarse fácilmente para que se comporten como lo hacen cuando se les pide, por lo que creo que es justo decir que los LLM aprueban», insiste Jones.

Otro sitio más de Gerente.com

La ciencia demuestra por primera vez que dos 'chatbots' de IA superan el test de Turing: ya son indistinguibles del ser humano

Así fue el experimento

Related Articles