¿Es el Razonamiento en Cadena de Pensamiento de los LLM una Ilusión?

El espejismo del razonamiento en cadena: lo que el nuevo estudio revela sobre los LLM

Durante los últimos años, el Chain-of-Thought (CoT) se ha convertido en la técnica favorita para mejorar la capacidad de los grandes modelos de lenguaje. La idea parece sencilla: en lugar de obtener directamente una respuesta final, se le pide al modelo que “piense en voz alta” y construya una secuencia de pasos intermedios antes de dar su conclusión. Esto, en teoría, imita cómo los humanos resolvemos problemas complejos, y en la práctica ha dado saltos notables de rendimiento en benchmarks como GSM8K o CommonsenseQA.

Pero un nuevo estudio de Chengshuai Zhao y su equipo, publicado en arXiv en agosto de 2025, plantea una pregunta incómoda: ¿y si ese razonamiento no fuera tan genuino como creemos? Según su análisis, lo que vemos como “pensamiento” podría ser en realidad un patrón aprendido que solo funciona bien cuando las tareas se parecen mucho a lo que el modelo vio en su entrenamiento. En otras palabras: más que razonar, el modelo estaría reconociendo y reproduciendo formas familiares de resolver problemas.

El truco detrás del CoT

El CoT nació en 2022, cuando un grupo de investigadores de Google (liderado por Jason Wei) demostró que simplemente añadiendo instrucciones como “Piensa paso a paso” a un prompt, los modelos podían desglosar tareas complejas y mejorar su precisión. Desde entonces, variantes como zero-shot CoT, self-consistency o Tree-of-Thought han poblado la investigación y las aplicaciones comerciales.

Sin embargo, Zhao y su equipo advierten que esta mejora no implica necesariamente que el modelo haya adquirido un razonamiento abstracto. Lo que sí aprende —y muy bien— es una forma particular de presentar y encadenar información que ya estaba presente en sus datos de entrenamiento.

El problema surge cuando se le pide aplicar ese mismo patrón a contextos radicalmente nuevos. Allí, el supuesto razonamiento empieza a derrumbarse.

Un laboratorio sintético para ponerlo a prueba

Para demostrarlo, los autores crearon DataAlchemy, un entorno de datos sintéticos pensado para aislar y medir la capacidad real de generalización del CoT.

En este laboratorio artificial, las tareas se construyen combinando transformaciones muy controladas sobre símbolos, como rotaciones o desplazamientos de posición. Así, se puede entrenar a un modelo en una familia específica de problemas y luego evaluarlo en otra ligeramente diferente, midiendo cuánto se degrada el rendimiento.

Este enfoque tiene una ventaja enorme frente a usar datos reales: permite controlar con precisión las diferencias entre entrenamiento y prueba, sin que factores externos contaminen el resultado.

Los tres frentes de evaluación

Con DataAlchemy, el equipo examinó el CoT en tres dimensiones:

Generalización de tareas: si un modelo entrenado en ciertas operaciones simples podía resolver combinaciones nuevas nunca vistas.
Generalización de longitud: si podía manejar cadenas de razonamiento más largas que las que había practicado.
Generalización de formato: si entendía variaciones en la forma de presentar el problema, por ejemplo, cambiar “Piensa paso a paso” por “Resuelve secuencialmente”.

Los resultados fueron consistentes y preocupantes:

Cuando la tarea se alejaba de lo visto en el entrenamiento, la precisión se desplomaba del 90% a menos del 20%.
Con cadenas más largas, el rendimiento caía abruptamente.
Incluso cambios menores en la redacción del prompt podían reducir la exactitud un 30%.

Lo que significa para el futuro de la IA

El mensaje central del paper es claro: el CoT, tal como lo usamos hoy, no es una garantía de razonamiento genuino, sino un patrón útil pero frágil, que depende fuertemente de la similitud con los datos de entrenamiento.

Esto no lo convierte en inútil (de hecho, sigue siendo una técnica poderosa para mejorar rendimiento en contextos conocidos), pero obliga a replantear su uso en aplicaciones críticas, desde medicina hasta finanzas, donde la capacidad de adaptarse a situaciones nuevas es indispensable.

Además, el estudio sugiere que avanzar hacia un razonamiento más robusto requerirá algo más que “prompts inteligentes”: probablemente debamos combinar LLMs con arquitecturas neuro-simbólicas, sistemas de verificación externos o entornos de entrenamiento que fuercen la exposición a diversidad real de escenarios.

En síntesis, este trabajo nos recuerda que, por más convincente que suene la voz del modelo, la verdadera prueba del razonamiento está en cómo responde cuando el guion cambia.

El espejismo del pensamiento encadenado en los LLM

En los últimos tres años, el Chain-of-Thought —ese modo de invitar a un modelo a “pensar paso a paso” antes de dar una respuesta— se ha convertido en una herramienta casi de culto entre quienes trabajan con grandes modelos de lenguaje. Su fama se ha multiplicado en papers, conferencias y entornos de desarrollo porque parece convertir una caja negra estadística en algo que, al menos superficialmente, simula un razonamiento humano ordenado. Pide que explique cómo llega a la conclusión, y el modelo, obediente, construye una cadena de ideas intermedias que nos resulta más confiable que una respuesta directa. Pero lo que un nuevo estudio sugiere es que, más que pensar, el modelo podría estar siguiendo una coreografía que ya conocía.

El trabajo de Chengshuai Zhao y colaboradores, publicado en agosto de 2025 en arXiv, lanza una advertencia: el CoT no sería una manifestación espontánea de lógica artificial, sino un patrón aprendido en el entrenamiento, muy dependiente de la familiaridad con los datos que lo alimentaron. Es decir, funciona bien cuando la pregunta encaja con algo que el modelo ya vio, pero si la forma del problema cambia de manera significativa, ese aparente razonamiento se derrumba. El título del paper es deliberadamente provocador: “Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens”, y desde la primera página deja claro que la intención no es destruir el concepto, sino despojarlo de cualquier mística excesiva.

La clave de su enfoque está en observar al CoT no como un truco de prompting, sino como un sesgo inductivo: una preferencia por ciertos caminos de resolución que el modelo ha interiorizado gracias a la estadística de su entrenamiento. Esto, en sí mismo, no es negativo. La mayor parte de lo que llamamos inteligencia humana también está hecha de sesgos aprendidos. El problema es cuando esperamos que este mecanismo funcione de manera universal y adaptable, como si fuera una capacidad abstracta y no una imitación condicionada.

Para ponerlo a prueba, Zhao y su equipo diseñaron un laboratorio sintético al que llamaron DataAlchemy. No se trata de un dataset real, sino de un entorno controlado en el que cada problema se genera a partir de reglas simples y modificables: rotaciones de símbolos, desplazamientos de posición, combinaciones encadenadas. Con este sistema, es posible entrenar un modelo en un conjunto de transformaciones y luego pedirle que resuelva variaciones que nunca ha visto, midiendo exactamente cuánto se degrada su rendimiento cuando la distribución de datos cambia. Lo que encontraron no fue alentador para quienes creen en un CoT robusto.

Los resultados muestran caídas abruptas de precisión cuando las tareas se alejan de lo entrenado. En problemas que mantenían la misma estructura, los modelos lograban un 90% de aciertos; pero bastaba introducir una composición distinta o una cadena de pasos más larga para que el rendimiento se desplomara por debajo del 20%. Incluso cambios mínimos en la forma de formular la instrucción —por ejemplo, sustituir “piensa paso a paso” por “resuelve secuencialmente”— podían provocar descensos del 30% en exactitud. Esto no parece el comportamiento de un razonador versátil, sino el de un imitador experto que tropieza fuera de su guion.

El estudio explora tres dimensiones críticas: la generalización de tareas, que mide la capacidad de enfrentar tipos de problemas nuevos; la generalización de longitud, que observa si el modelo puede mantener el desempeño en cadenas más extensas; y la generalización de formato, que evalúa su flexibilidad ante cambios en la redacción del prompt. En todas, el patrón es el mismo: buen rendimiento dentro de la distribución original, deterioro pronunciado fuera de ella.

Lo interesante es que esta vulnerabilidad no es exclusiva del CoT. En el aprendizaje por refuerzo, por ejemplo, los agentes entrenados en entornos simulados suelen fallar estrepitosamente cuando se introducen condiciones no previstas. En modelos de difusión, pequeñas alteraciones en la naturaleza del ruido pueden afectar drásticamente la calidad de las imágenes generadas. En todos estos casos, la lección es similar: los sistemas son tan buenos como la cobertura estadística de su entrenamiento, y su capacidad de improvisar es más limitada de lo que sus salidas sugieren.

Esto no significa que debamos abandonar el CoT. Para aplicaciones bien delimitadas, donde la distribución de entrada está controlada o es previsible, sigue siendo una estrategia valiosa. El riesgo aparece cuando lo extrapolamos sin cautela a dominios abiertos, confiando en que la forma ordenada de su respuesta implica una comprensión profunda del problema. Zhao y sus coautores no descartan que el razonamiento más general pueda surgir en el futuro, pero dejan claro que no está garantizado por el CoT actual.

Si algo aporta este trabajo, además de una demostración empírica sólida, es un marco conceptual para entender el CoT como producto de la distribución de datos. En lugar de verlo como una ventana a la mente del modelo, proponen analizarlo como un reflejo de lo que la estadística de su entrenamiento le permite reproducir con mayor probabilidad. Esto abre un campo de investigación más honesto y, quizá, más fértil: cómo forzar a los modelos a aprender cadenas de razonamiento que resistan la prueba de contextos desconocidos.

En última instancia, la advertencia es simple: no confundir familiaridad con inteligencia. Que un modelo pueda explicar cómo llega a una respuesta no significa que pueda encontrar un camino cuando el mapa cambia. Y en un mundo donde cada vez más dependemos de estas máquinas para tareas críticas, esa distinción no es un lujo teórico, sino un requisito para la seguridad y la confiabilidad.

Lo que Zhao y su equipo ponen sobre la mesa no es solo una crítica al Chain-of-Thought, sino una advertencia metodológica que afecta a casi todas las áreas donde se evalúa inteligencia artificial. La tendencia actual a medir rendimiento en benchmarks estáticos —datasets que rara vez cambian y en los que es fácil que un modelo haya absorbido parte de su estructura en el entrenamiento— genera la ilusión de progreso sostenido. El estudio muestra que, cuando se mide bajo distribuciones divergentes, esas cifras se desinflan, revelando un sesgo estructural que la comunidad técnica debe asumir.

Este punto conecta directamente con un desafío mayor: el diseño de pruebas OOD (out-of-distribution) que realmente midan la capacidad de extrapolar. En el caso del CoT, la implicación es doble. Por un lado, los investigadores y desarrolladores deben ser conscientes de que el formato y la longitud de la cadena importan tanto como la lógica interna; pequeñas variaciones pueden ser suficientes para invalidar un resultado. Por otro, urge explorar arquitecturas y métodos de entrenamiento que no dependan únicamente de la estadística superficial de los datos, sino que incorporen mecanismos explícitos de manipulación simbólica, memoria y verificación.

Es posible que la respuesta no sea simplemente más datos, sino datos con una estructura intencionalmente diseñada para forzar el salto fuera de patrones conocidos. Esto implica entrenamientos con ruido controlado, tareas generadas algorítmicamente, y entornos sintéticos adaptativos —justo lo que DataAlchemy propone en su forma más básica— pero llevados a escalas y complejidades mucho mayores.

La lección, entonces, es clara: mientras el CoT siga siendo principalmente un reflejo de correlaciones vistas en entrenamiento, su utilidad estará atada a escenarios donde esas correlaciones persisten. Para la investigación de frontera, donde el objetivo es descubrir, no reproducir, esta dependencia es una limitación seria. Asumirlo no debilita al CoT como herramienta, sino que lo sitúa en su contexto real: un paso intermedio útil, pero insuficiente, hacia un razonamiento verdaderamente generalizable.

Paper

¿Es el Razonamiento en Cadena de Pensamiento de los LLM una Ilusión?