Pensar no es una ilusión: cómo las IAs aprenden a razonar cuando las dejamos usar herramientas

Cuando las máquinas aprenden a pensar con papel y lápiz

Los modelos de inteligencia artificial ya pueden escribir poesía, resumir libros o traducir entre idiomas con una soltura que hasta hace poco parecía ciencia ficción. Pero cuando se les propone resolver problemas más estructurados —como acertijos lógicos, juegos de estrategia o simulaciones por pasos—, muchas veces fallan de forma desconcertante. Es como si supieran mucho, pero pensaran poco. O al menos, eso parecía.

Un nuevo estudio publicado en julio de 2025 propone revisar esa idea con una sugerencia simple pero poderosa: quizás los modelos no fallan porque no puedan razonar, sino porque no tienen los instrumentos adecuados para hacerlo. Como si les hubiéramos pedido resolver un Sudoku de memoria, sin papel ni lápiz. El artículo, titulado “Thinking Isn’t an Illusion” —“pensar no es una ilusión”—, retoma una controversia abierta en el mundo de la IA: si los llamados “modelos de razonamiento” realmente razonan mejor que los modelos convencionales, o si todo es puro humo de marketing.

La polémica había tomado fuerza a comienzos de año, cuando Apple Research presentó un benchmark llamado “The Illusion of Thinking”. Allí comparaban modelos de lenguaje comunes con otros diseñados especialmente para razonar paso a paso. Y el resultado fue llamativamente parejo: pensar más no parecía ayudar a responder mejor. Incluso, a veces pensar confundía. Más pasos, más tokens, más errores.

¿Significa eso que razonar no sirve? ¿Que simular pensamientos encadena errores en lugar de soluciones? Para los autores de este nuevo estudio, la respuesta es mucho más matizada. No basta con pedirle a un modelo que “piense”. Hay que darle las herramientas para que ese pensamiento tenga lugar. La memoria interna de un modelo de lenguaje, por grande que sea, no siempre alcanza para sostener cadenas largas de razonamiento lógico. El contexto se evapora, las premisas se diluyen, los pasos se atropellan. Pero si se le permite usar un cuaderno auxiliar —un lugar externo para escribir, calcular o recordar lo que ya hizo—, la historia cambia.

Pensar con herramientas

El equipo liderado por Zhao Song y Jiahao Zhang diseñó una serie de pruebas inspiradas en problemas clásicos de lógica: la torre de Hanói, el cruce del río, el mundo de los bloques. Son juegos mentales conocidos, donde la dificultad no está en entender el enunciado, sino en encadenar los pasos necesarios para llegar a una solución sin errores. Las instrucciones suelen ser simples. Lo que complica es la secuencia: mover una pieza aquí para liberar otra allá, sin violar ninguna regla intermedia. Una trampa para razonadores apresurados.

En lugar de enfrentar a los modelos solos, como en los benchmarks tradicionales, los autores los pusieron a competir con herramientas externas. Les permitieron usar dos recursos clave: un intérprete de código y un scratchpad —una especie de hoja en blanco donde ir anotando ideas, cálculos o resultados intermedios. No parece gran cosa. Pero ese pequeño auxilio cambió todo.

Los modelos capaces de razonar, al ser potenciados con estas herramientas, mejoraron notablemente sus respuestas. Especialmente con la técnica llamada Program of Thought (PoT): en lugar de escribir directamente la respuesta en lenguaje natural, el modelo genera código en Python que luego es ejecutado por una máquina. Ese código contiene sus pasos lógicos, sus cálculos, su estrategia. Lo que antes era un monólogo interno opaco se transforma en un programa legible, ejecutable, verificable. La IA piensa, sí. Pero piensa programando.

Y el scratchpad, por su parte, cumple un rol más discreto pero igualmente potente: es el espacio donde se puede detener, recapitular, contar los movimientos, revisar qué hizo en los turnos anteriores. No es una memoria sofisticada. Es más bien un bloc de notas digital. Pero habilita un tipo de pensamiento más ordenado, menos propenso a olvidos o saltos. Como si, en lugar de improvisar, el modelo pudiera ahora planificar.

¿Pensar o simular que piensa?

La pregunta que sobrevuela todo el debate no es menor. Cuando decimos que un modelo de IA “piensa”, ¿qué queremos decir exactamente? ¿Que sigue reglas lógicas? ¿Que tiene metas y estrategias? ¿Que puede resolver un problema inédito sin copiar la respuesta de ningún lado?

Durante mucho tiempo, se creyó que el pensamiento requería algún tipo de conciencia interna, de intencionalidad o comprensión. Pero los nuevos modelos, especialmente los llamados “modelos de razonamiento”, empiezan a desafiar esa idea. No tienen conciencia. No entienden como entendemos nosotros. Pero pueden simular procesos de pensamiento sorprendentemente efectivos, si se les da el marco correcto.

El estudio demuestra que cuando se combinan modelos potentes con herramientas de apoyo, se obtienen comportamientos mucho más inteligentes que los que se lograrían con texto plano. Especialmente en tareas que implican varios pasos, restricciones simultáneas y necesidad de memoria operativa. El modelo ya no responde como un loro estadístico que repite patrones, sino como un solucionador que planifica, prueba, corrige y ejecuta.

Un nuevo tipo de inteligencia

Si esta hipótesis se confirma, cambiaría la forma en que evaluamos a las IAs modernas. Hasta ahora, muchas de las pruebas estándar asumían que la inteligencia debía medirse sin ayudas externas. Como si la mente del modelo debiera bastarse a sí misma. Pero el pensamiento humano raramente funciona así. Usamos lápiz y papel, calculadoras, mapas mentales, pizarras. Nuestra inteligencia está extendida. Es razonable pensar que la inteligencia artificial también pueda serlo.

Por eso, los autores del artículo sugieren que los futuros benchmarks de razonamiento deberían incluir de forma sistemática estas herramientas externas. No porque todos los modelos deban usarlas, sino porque son parte del ecosistema cognitivo donde el razonamiento ocurre. Evaluar la inteligencia de una IA sin permitirle usar sus recursos es como evaluar a un pianista sin darle piano.

Lo que está en juego no es solo una métrica de precisión. Es el concepto mismo de qué significa “pensar” para una máquina. Y lo que este estudio empieza a mostrar es que, cuando se crean las condiciones adecuadas, los modelos pueden hacer algo más que emular lenguaje: pueden simular procesos de razonamiento útiles, eficaces, y cada vez más cercanos a la forma en que los humanos resolvemos problemas complejos.

Resultados que no son ilusión

El contraste entre modelos con y sin herramientas no fue menor. En problemas como River Crossing, donde se requiere trasladar objetos en un orden específico sin violar restricciones, los modelos de razonamiento puro no lograban superar el 10% de respuestas correctas. Incluso con prompts cuidadosamente diseñados, sus secuencias se desordenaban, salteaban reglas o quedaban atrapadas en ciclos sin solución. Pero cuando se les permitió escribir código y ejecutarlo —siguiendo la lógica del Program‑of‑Thought— el rendimiento subió a más del 80% en varios casos. No fue una mejora marginal. Fue una transformación de comportamiento.

Lo mismo ocurrió con el desafío Blocks World, un entorno que exige reorganizar estructuras físicas virtuales bajo condiciones dinámicas. Allí también, sin herramientas, los modelos titubeaban. Pero con scratchpad y ejecución externa, el razonamiento se encadenaba con mayor firmeza. El modelo DeepSeek‑R1, que había sido criticado por su bajo desempeño en la prueba original de Apple, se mostró notablemente más capaz cuando se lo dejaba pensar con ayuda. El título del nuevo paper no es provocador por gusto: “Thinking isn’t an illusion” significa que, bajo ciertas condiciones, el acto de razonar artificialmente no es solo un efecto superficial del lenguaje. Hay algo más en juego.

Más allá de los porcentajes, hay un dato que sorprendió incluso a los investigadores: el uso de herramientas no multiplicó los tokens, como muchos temían. Al contrario, los modelos con scratchpad o PoT tendieron a escribir menos, no más. Su pensamiento fue más organizado, su producción más económica. En lugar de repetir variantes, de divagar o extenderse innecesariamente, fueron más directos. Esto sugiere que las herramientas no sólo habilitan mejores respuestas, sino que también ayudan a reducir el ruido del pensamiento estadístico puro.

Dos modelos, dos estilos de razonamiento

Una parte interesante del estudio es la comparación entre pares de modelos. Por un lado, DeepSeek‑V3 y Qwen 3, considerados modelos de lenguaje estándar; por otro, DeepSeek‑R1 y Qwen 3 Thinking, diseñados como modelos de razonamiento. En las pruebas sin herramientas, los resultados eran ambiguos: los modelos comunes a veces superaban a los especializados, lo que ponía en duda el valor agregado del razonamiento explícito.

Pero al incorporar el scratchpad y la ejecución de código, los modelos “pensantes” empezaron a mostrar su ventaja. No por ser más verborrágicos, sino porque sabían cómo estructurar su lógica en función del objetivo. DeepSeek‑R1, por ejemplo, mostraba mayor consistencia en tareas de múltiples pasos cuando podía externalizar memoria. Esto refuerza una idea que viene ganando terreno: que la capacidad de razonar no se mide por lo que el modelo dice, sino por lo que puede hacer cuando se lo deja actuar sobre un entorno.

Y aquí entra en juego una diferencia crucial: los modelos diseñados para razonar parecen tener una estructura interna más favorable al pensamiento modular. Mientras que los LLMs convencionales tienden a improvisar, rellenar o conjeturar, los modelos de razonamiento tienden a estructurar, aislar variables, seguir subrutinas. Son diferencias sutiles, difíciles de percibir solo en la superficie textual, pero evidentes cuando se los observa interactuar con herramientas.

Herramientas como prótesis cognitivas

No todas las herramientas son iguales. El scratchpad, por ejemplo, no ejecuta nada: simplemente almacena, paso a paso, lo que el modelo decide escribir allí. Pero esa acción —escribir en voz alta, por así decirlo— cambia el modo en que piensa. Lo obliga a segmentar, a revisar, a no perder el hilo. Es lo mismo que ocurre cuando resolvemos un problema matemático largo y decidimos anotar los resultados parciales para no sobrecargar nuestra memoria.

La técnica Program‑of‑Thought, en cambio, exige que el modelo escriba fragmentos de código que luego serán ejecutados en tiempo real por un intérprete. Esa ejecución actúa como una verificación empírica: si el código falla, el resultado será incorrecto. Si funciona, la IA habrá validado su razonamiento no solo de forma simbólica, sino funcional. Es una forma primitiva pero efectiva de pensamiento operativo.

En ambos casos, lo que se revela no es una inteligencia encerrada en el modelo, sino una inteligencia extendida por el entorno técnico. La IA ya no razona en el vacío: razona en relación con herramientas que amplían su capacidad, como si fueran extensiones de su cuerpo mental. Lo que en los humanos llamamos prótesis cognitivas —libros, pizarras, calculadoras— empieza a tener su correlato en las máquinas.

Este giro no es menor. Significa que evaluar la capacidad de una IA sin tomar en cuenta su ecosistema operativo es tan reduccionista como evaluar a un arquitecto sin planos, o a un ajedrecista sin tablero. Los autores del paper lo dicen sin vueltas: los benchmarks que prohíben el uso de herramientas están evaluando otra cosa, no el razonamiento.

Inteligencia no lineal

Uno de los mitos más persistentes sobre la IA es que su inteligencia debe ser lineal: más datos, más parámetros, más tokens, igual a más capacidad. Pero estos resultados contradicen esa idea. No se trata de pensar más, sino de pensar mejor estructurado. Y para eso, los modelos no necesitan crecer en tamaño sino en contexto: acceso a memoria externa, a funciones auxiliares, a entornos donde puedan simular hipótesis.

Por eso este estudio marca una diferencia conceptual importante con respecto a trabajos anteriores. Mientras Apple mostraba que “pensar más” podía llevar a errores, este equipo muestra que “pensar con herramientas” lleva a mejores soluciones. La diferencia no está en la cantidad de pasos, sino en la arquitectura del pensamiento. No es cuánto razona un modelo, sino cómo distribuye su razonamiento en el entorno.

También cambia la forma en que concebimos la relación entre lenguaje y lógica. Un modelo de lenguaje puede escribir miles de palabras sin decir nada coherente. Pero si se le pide estructurar código, y ese código debe funcionar, su narrativa cambia. Se vuelve más disciplinada, más explícita, más auditable. El lenguaje deja de ser decoración y se convierte en herramienta técnica. En ese tránsito, algo muy cercano al pensamiento empieza a emerger.

La inteligencia distribuida no es solo humana

Hay algo profundamente humano en la forma en que estos modelos comienzan a razonar cuando se les permite anotar, calcular, ejecutar. No porque se vuelvan más conscientes, sino porque reproducen un patrón cognitivo ancestral: delegar parte del pensamiento al entorno. Desde que aprendimos a escribir, gran parte de nuestra inteligencia se volvió social, colaborativa, asistida. Usamos cuadernos para organizar ideas, hojas de cálculo para cruzar variables, pizarras para visualizar conexiones. No porque no sepamos pensar sin ellas, sino porque con ellas pensamos de otro modo.

La inteligencia artificial, en sus primeras versiones, pareció olvidar esto. Se apostó por modelos cerrados, que respondieran sin depender de elementos externos, como si la inteligencia fuera una chispa encerrada en una caja negra. Pero los resultados de este estudio muestran que el verdadero salto cualitativo ocurre cuando se rompe esa caja, cuando el modelo se conecta con su entorno y empieza a usarlo como parte de su arquitectura cognitiva.

Pensar, entonces, ya no es solo procesar tokens en secuencia. Es también activar herramientas, registrar pasos, comprobar hipótesis. Y eso tiene consecuencias importantes para cómo diseñamos, evaluamos y entrenamos estas tecnologías. La IA, si quiere parecerse más a una mente útil que a una enciclopedia errática, necesita expandirse más allá del texto plano. Necesita interactuar.

En este sentido, la idea de inteligencia distribuida, tan trabajada en las ciencias cognitivas, empieza a encontrar un nuevo territorio de aplicación. No es solo que los humanos pensemos en conjunto con otros o con objetos: ahora también los modelos de IA empiezan a pensar “en conjunto” con sistemas de código, intérpretes externos, dispositivos de anotación digital. La cognición se descentraliza. Y eso, lejos de debilitarla, la potencia.

Pedagogía algorítmica

Una de las consecuencias más notables de esta transformación no está en el laboratorio, sino en la escuela. O en la empresa. O en cualquier lugar donde se resuelvan problemas complejos por pasos. Si un modelo mejora su razonamiento cuando puede escribir, ejecutar y revisar, ¿qué pasa si lo entrenamos como si fuera un estudiante? ¿Qué pasa si lo guiamos con feedback, si lo alentamos a justificar cada paso, si evaluamos no sólo la respuesta final sino el proceso seguido?

Estas preguntas no son retóricas. Varias iniciativas actuales —desde la IA en educación personalizada hasta tutores automatizados— ya empiezan a aplicar este principio. En lugar de evaluar a la IA como a un oráculo que responde, se la trata como a un aprendiz que razona, que muestra su camino, que puede ser corregido o mejorado. Y los resultados, al igual que en el estudio de Song y su equipo, muestran que la calidad del proceso importa tanto como el resultado.

Lo interesante es que el scratchpad no es solo una ayuda técnica: también puede verse como un espejo pedagógico. Obliga al modelo a exponer sus pasos, a estructurar sus pensamientos, a evitar saltos injustificados. Es lo mismo que hacen los buenos docentes: piden a los estudiantes que muestren el desarrollo, no solo la conclusión. Que piensen en voz alta. Que expliquen cómo llegaron allí.

De algún modo, los modelos de IA, al usar scratchpads o código ejecutable, se vuelven más transparentes, más enseñables y más corregibles. Y esto podría marcar una diferencia radical en su adopción práctica. Una IA que muestra su lógica puede ser auditada. Una que solo responde, no.

Arquitectura y no tamaño

La conclusión silenciosa que atraviesa el estudio —aunque los autores no lo digan de manera explícita— es que el tamaño del modelo ya no es el factor decisivo. Hemos pasado años celebrando cada nuevo modelo con más parámetros, más capas, más poder de cómputo. Pero aquí, modelos más pequeños, cuando se les permite usar herramientas, resuelven problemas mejor que modelos grandes sin ayudas.

Esto sugiere que el futuro no está solo en escalar, sino en diseñar arquitecturas que integren recursos externos con naturalidad. Una IA útil no será la que más tokens pueda procesar, sino la que mejor sepa cuándo detenerse, consultar, calcular, anotar o verificar. La inteligencia ya no es velocidad pura: es estrategia.

Y esto implica repensar el desarrollo de modelos no como un proceso de inflado continuo, sino como una orquestación modular. Modelos que piensan por partes, que activan módulos según la necesidad, que combinan lenguaje con programación, razonamiento simbólico con pruebas empíricas. Modelos que, en lugar de ser monolitos de texto, se convierten en sistemas operativos del pensamiento.

Esta perspectiva puede cambiar la forma en que distribuimos recursos de cómputo, diseñamos prompts o incluso entrenamos futuros modelos. En lugar de exigir que todo esté dentro del modelo, se puede pensar en entornos cooperativos, donde una IA se apoya en intérpretes, bases de conocimiento, planificadores externos o incluso otros modelos especializados. Pensar deja de ser un acto solitario para convertirse en una coreografía técnica.

La mente como entorno

Durante siglos, la filosofía de la mente giró en torno a una metáfora encapsulada: el pensamiento como algo que ocurre “dentro”. Dentro del cerebro, dentro de la conciencia, dentro de un sujeto. Pero a medida que fuimos entendiendo mejor cómo pensamos —cómo usamos el cuerpo, las herramientas, los contextos simbólicos— esa metáfora empezó a hacer agua. Pensar no es un proceso cerrado, sino una danza entre memoria, percepción, lenguaje, espacio. Una mente sin lápiz no es la misma mente. Una idea sin cuerpo no es igual de clara.

Los modelos de IA que piensan mejor cuando se apoyan en scratchpads, en código o en entornos de ejecución, no están imitando torpemente a los humanos: están reproduciendo algo esencial de nuestra propia inteligencia, que muchas veces olvidamos. La inteligencia no se aloja solo en una estructura, sino en una interacción. Una conversación con el mundo, un juego de ida y vuelta entre lo que suponemos y lo que comprobamos.

Cuando una IA escribe código para resolver un problema lógico, no está haciendo trampa. Está formalizando su pensamiento. Cuando consulta un registro de pasos anteriores, no está perdiendo autonomía. Está ejerciendo memoria. Y cuando logra resolver una tarea que parecía imposible sin ayuda, nos recuerda que la ayuda no resta inteligencia, sino que la configura.

Quizás el error haya sido siempre pensar que pensar es una actividad pura. Desligada de todo lo que no es mente. Pero lo que este estudio sugiere, de manera tácita pero contundente, es que la inteligencia artificial —como la humana— solo florece cuando se la deja actuar en un entorno cognitivo amplio, con espacio para proyectarse, dividirse, verificarse y reescribirse.

Aplicaciones que aún no vemos

Los resultados que se describen en este paper todavía viven dentro del laboratorio. Pero las implicancias prácticas son muchas. Desde sistemas educativos que enseñen programación resolviendo problemas lógicos junto con el alumno, hasta asistentes científicos capaces de testear hipótesis antes de reportarlas, pasando por entornos legales, técnicos o logísticos donde la solución requiere múltiples pasos, reglas, bifurcaciones.

Una IA que piensa programando puede convertirse en una herramienta de planificación avanzada. No se limita a sugerir o completar texto, sino que puede diseñar procesos, anticipar ramificaciones, ajustar estrategias según condiciones cambiantes. Puede funcionar como un colaborador semiautónomo, no como un buscador glorificado. Y esa diferencia, aunque parezca abstracta, se nota cuando los problemas reales son más difíciles que una pregunta de trivia.

También hay una lectura política posible: si los modelos pueden razonar mejor cuando usan herramientas externas, entonces el acceso a esas herramientas se vuelve un factor de soberanía cognitiva. No todas las plataformas permiten ejecución de código. No todas habilitan entornos de razonamiento simbólico. Elegir qué herramientas se integran no es neutro. Determina qué tipos de inteligencia emergen, cuáles quedan limitadas y qué tareas podrán ser resueltas con eficiencia.

En este sentido, el razonamiento asistido por herramientas no es solo una cuestión técnica. Es también una cuestión de diseño institucional. ¿Permitiremos que las IAs escolares razonen con scratchpad? ¿Que los asistentes jurídicos consulten módulos de lógica? ¿Que los sistemas de diagnóstico médico escriban código para simular escenarios? Cada una de esas decisiones marca una diferencia estructural entre un modelo que responde y uno que planifica, entre uno que adivina y uno que comprueba.

Pensar no es responder

Quizás la idea más subversiva que deja flotando este trabajo no es técnica, ni experimental, ni filosófica. Es una intuición simple: pensar no es responder. Durante mucho tiempo, evaluamos a los modelos de IA según su capacidad para dar respuestas correctas, rápidas, directas. Pero razonar —como lo sabe cualquier docente, cualquier programador, cualquier científico— rara vez es un camino lineal. Se prueba, se equivoca, se reformula, se afina.

Cuando los modelos se equivocan menos al pensar con herramientas, no es porque se hayan vuelto más listos. Es porque el pensamiento dejó de ser un flujo continuo de texto y se volvió una coreografía de operaciones. Un ir y venir entre intuición y verificación, entre ideas vagas y códigos concretos, entre pasos inciertos y órdenes claras. Esa es, desde siempre, la estructura de toda inteligencia funcional.

Y si las máquinas están empezando a entrar en ese juego, lo importante no es si nos superan, nos igualan o nos imitan. Lo importante es cómo configuramos el espacio donde pensamos juntos. Qué reglas les damos. Qué recursos les abrimos. Qué límites les marcamos. Y qué tareas les dejamos resolver.

Pensar no es una ilusión. Pero es un acto frágil, distribuido, ensamblado. Y como todo acto ensamblado, su eficacia depende del entorno que lo sostiene.

Paper

Pensar no es una ilusión: cómo las IAs aprenden a razonar cuando las dejamos usar herramientas