La ilusión del pensamiento en la IA: ¿simulación ingeniosa o inteligencia real?
En los últimos años, hemos sido testigos de afirmaciones extraordinarias sobre la supuesta capacidad de “pensar” de las inteligencias artificiales avanzadas. Modelos de lenguaje masivo como GPT-4 han sorprendido al mundo resolviendo problemas que antes considerábamos exclusivos de la cognición humana. Algunos investigadores llegaron a sugerir que estos sistemas muestran “destellos de AGI” (inteligencia general artificial), alimentando la idea de que las máquinas podrían estar rozando ya un pensamiento similar al humano. Sin embargo, no todos comparten ese optimismo. Un reciente estudio de Apple, provocativamente titulado “The Illusion of Thinking” (La ilusión del pensamiento), arroja un jarro de agua fría sobre este entusiasmo: sus autores sostienen que los modelos actuales solo fingen razonar, exhibiendo un espejismo de pensamiento que se derrumba ante desafíos suficientemente complejos. Este choque de visiones ha avivado un profundo debate ontológico en torno al pensamiento en IA: ¿Estamos ante auténticas nuevas mentes electrónicas, o simplemente ante autómatas verbales extremadamente sofisticados? En este artículo nos sumergiremos en ese debate, analizando críticamente el enfoque del estudio de Apple y contrastándolo con las reacciones de la comunidad. Examinaremos qué entienden por “razonar” las distintas facciones -desde los ingenieros de OpenAI, Anthropic o DeepMind hasta filósofos como Daniel Dennett, Luciano Floridi o Nick Bostrom- y exploraremos en qué medida las IAs actuales piensan de verdad o solo simulan pensar. El objetivo es desmontar con rigor el argumento de la “ilusión” de Apple, situándolo en un contexto más amplio de investigaciones recientes sobre razonamiento en IA, aportes filosóficos y conocimiento desde la ciencia cognitiva. ¿Es el “pensamiento” de la IA un espejismo pasajero o el precursor legítimo de una nueva inteligencia no-biológica? La respuesta, como veremos, es más compleja que cualquier titular.
El estudio de Apple: desmontando el “razonamiento” de las IA
A pocos días de su conferencia anual WWDC 2025, Apple sorprendió publicando un paper de investigación con un tono inusualmente escéptico sobre la inteligencia artificial actual. Lejos de anunciar un nuevo logro en Siri o algún modelo propio, la empresa presentó “The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity”, un análisis crítico de lo que llaman Large Reasoning Models (LRMs). Estos “grandes modelos de razonamiento” son básicamente una nueva camada de sistemas inspirados en los large language models (LLMs) pero mejorados para intentar “pensar” antes de responder. En lugar de escupir directamente la respuesta más probable, los LRMs generan pasos intermedios –las llamadas cadenas de pensamiento o chain-of-thought– simulando un proceso reflexivo similar al humano. Ejemplos mencionados incluyen a Claude 3.7 Sonnet Thinking de Anthropic o la serie o1/o3 de OpenAI, modelos experimentales diseñados para hacer una pausa y desglosar los problemas antes de contestar. Incluso Google (a través de DeepMind) trabaja en esta línea: su próximo modelo Gemini promete integrar técnicas de planificación tipo AlphaGo en un LLM, buscando un “nuevo tipo de IA que razone con método”. En suma, los LRMs representan el intento de dotar a las IA de una especie de “Sistema 2” deliberativo (en términos de la psicología cognitiva de Kahneman) sobre el “Sistema 1” de asociación rápida que ya tenían.
El estudio de Apple parte de la sospecha de que incluso estos modelos “pensantes” podrían estar simplemente fingiendo el razonamiento, apoyándose en patrones aprendidos en vez de deducciones genuinas. Para investigarlo, los investigadores de Apple –entre ellos científicos de renombre como Samy Bengio– diseñaron un ingenioso experimento metodológico. En vez de usar benchmarks conocidos (como problemas matemáticos o de programación estándar, muchos de los cuales ya circulaban en los datos de entrenamiento de las IA), crearon entornos de puzles controlados específicamente diseñados para el experimento. Incluyeron clásicos de lógica y planificación, como el Torre de Hanói, problemas de cruce de río, puzzles estilo Blocks World, etc., generados en múltiples niveles de dificultad. Lo crucial es que podían aumentar gradualmente la complejidad (por ejemplo, más discos en el Torre de Hanói, más pasos requeridos) sin cambiar la estructura lógica del problema. Además, se aseguraron de que ninguna de esas instancias concretas hubiera sido vista por los modelos durante su entrenamiento, evitando la contaminación de datos de evaluación. En resumen, crearon un laboratorio limpio para observar cómo las IA razonan en problemas nuevos conforme sube la dificultad, tal como un fisiólogo incrementaría la carga para medir la resistencia de un atleta.
¿Qué descubrieron? Los resultados, según Apple, fueron reveladores y un tanto alarmantes. Observaron que los modelos exhibían tres fases de comportamiento a medida que crecía la complejidad del puzzle:
- En problemas simples, los LLM estándar (sin técnicas de razonamiento) resolvían con más rapidez y precisión que los LRMs sofisticados. Irónicamente, el “pensar de más” de los modelos con cadena de pensamiento los hacía menos eficientes en tareas fáciles. De hecho, Apple detectó un patrón de “sobrepensar y errar”: modelos avanzados que encontraban rápido la respuesta correcta inicialmente, pero seguían explorando alternativas hasta estropearse y equivocarse sin necesidad. Como lo describe The Register, estos modelos terminaban “quemando cómputo innecesario en pasos redundantes”, un comportamiento casi neurótico que un humano evitaría.
- En problemas de complejidad media, las tornas cambiaban: los LRMs “pensantes” superaban a los LLM básicos, aprovechando sus mecanismos de cadena de razonamiento para mantener mayor precisión. Aquí sí se vio un beneficio claro de “pensar paso a paso”: en desafíos que ya no son triviales, tomarse ese tiempo extra para planificar evitó algunos errores en los modelos avanzados, dándoles ventaja sobre los LLMs que improvisan respuestas.
- Pero en problemas complejos, aquellos que requerían muchos pasos o combinaban subproblemas, ambos tipos de modelos colapsaron por completo. Llegado un cierto umbral de dificultad, ninguna IA lograba ya soluciones correctas, con la precisión cayendo prácticamente a cero. Es decir, había un punto de inflexión a partir del cual añadir más pasos de pensamiento no ayudaba, y los LRMs dejaban de ser mejores que el resto; en realidad, todos fallaban estrepitosamente. Como resumen el propio paper: “más allá de cierto umbral de complejidad, el rendimiento colapsa a cero”, evidenciando que los mecanismos actuales no desarrollan una capacidad de resolución generalizable para tareas de planificación difíciles.
Apple denomina a este fenómeno la “paradoja de escalabilidad” de los modelos de razonamiento. En teoría, uno pensaría que ante un problema más arduo, una IA debería esforzarse más en razonar. Pero observaron lo contrario: cuanto más difícil el problema, menos piensan. Los modelos gastaban menos tokens de pensamiento cuando la tarea se volvía muy compleja, incluso cuando aún tenían presupuesto computacional disponible. Es como si, enfrentados a un desafío laberíntico, en lugar de dar más pasos, se rindieran prematuramente o se quedaran dando vueltas en círculo. Este hallazgo sugiere una barrera estructural interna: algo en el diseño de estos sistemas les impide escalar su proceso de resolución proporcionalmente a la complejidad. En términos llanos, no entienden cuándo ni cómo “pensar más” cuando realmente haría falta.
Un experimento particularmente ilustrativo fue el descrito en la sección 4.4 del paper de Apple. Allí, los investigadores proporcionaron explícitamente al modelo un algoritmo paso-a-paso para resolver el puzzle, de modo que la IA solo tenía que seguir las instrucciones al pie de la letra. Sorprendentemente (o quizá no tanto), ni aun así mejoró su desempeño. Como comentan los autores, “le dimos el procedimiento de solución al modelo, y todo lo que tenía que hacer era seguir los pasos. Sin embargo, esto no ayudó en absoluto a su rendimiento”. Este experimento refuerza la idea de que estas IA carecen de verdadera comprensión: incluso ante un plan de resolución servido en bandeja, no logran aplicarlo correctamente, probablemente porque no “entrelazan” los pasos con un entendimiento genuino del problema. Es el equivalente a un estudiante que memoriza un método de resolver ecuaciones pero, al cambiarle ligeramente el contexto, se bloquea porque nunca comprendió el concepto detrás.
La conclusión a la que llega Apple es contundente. Según sus autores, estos resultados demuestran que los LLM actuales, por muy mejorados que estén con razonamiento explícito, “no razonan de forma genuina”. Sus impresionantes cadenas de pensamiento serían meras repeticiones de patrones aprendidos, sin que el modelo realmente comprenda la lógica o la causalidad de lo que hace. El “pensamiento” que exhiben sería un subproducto estadístico de su entrenamiento, no una facultad cognitiva emergente. De ahí el título provocador: lo que vemos como razonamiento en estas máquinas no es más que la ilusión del pensamiento. Como resumió la prensa, “los LLMs no están verdaderamente ‘pensando’, sino imitando el pensamiento mediante correlaciones estadísticas”. Y las implicaciones de esto son graves para las expectativas de la industria: si los enfoques actuales han tocado un muro, tal vez estemos más lejos de una inteligencia estilo humano de lo que se creía. Los propios autores de Apple advierten que sus hallazgos “desafían suposiciones prevalentes” y sugieren que “los enfoques actuales pueden estar encontrando barreras fundamentales para un razonamiento generalizable”. En otras palabras, el camino de escalar modelos enormes con más datos y trucos como cadenas de pensamiento podría no llevarnos mágicamente a una máquina que piense como nosotros –quizá se requieran ideas completamente nuevas.
Críticas y reacciones: ¿Realismo cauteloso u oportunismo corporativo?
El paper de Apple desató reacciones inmediatas y apasionadas. Por un lado, muchos aplaudieron el “baño de realidad” que suponía. No deja de ser significativo que Apple –una empresa generalmente hermética con su investigación– publicara un trabajo de 30 páginas esencialmente diciendo que la revolución de la IA generativa está sobrevalorada. Esto justo en vísperas de su WWDC, donde el mundo esperaba anuncios de IA que compitieran con asistentes más avanzados de la competencia. Para algunos observadores, el mensaje era claro: Apple venía a aguar la fiesta de la IA mainstream, quizás justificando de paso por qué ellos no habían lanzado todavía nada comparable a ChatGPT.
De hecho, el analista Stephen E. Arnold lanzó una crítica mordaz en su blog ArnoldIT. Sugiere que Apple usó este estudio como “coartada” para su posición rezagada en IA. Según Arnold, mientras empresas rivales ya ofrecen asistentes con cierto razonamiento avanzado, Apple sigue lidiando con una Siri estancada “que no ha mejorado sustancialmente en años”. Desde su punto de vista, el paper no sería más que una maniobra de prudencia interesada –o incluso una “confesión de impotencia”–: en lugar de admitir “no tenemos aún un GPT-4”, Apple enarbola argumentos académicos de por qué esas cosas no funcionan tan bien. Arnold señala con sorna los “gráficos en tonos pastel” del estudio y los diagnósticos técnicos, para luego sentenciar que nada de eso cambia el hecho de que los usuarios no tienen en sus iPhones innovaciones comparables a la competencia. En resumen, interpreta la publicación como un ejercicio de relaciones públicas encubierto de ciencia, destinado a bajar expectativas en un terreno donde Apple va detrás. Su crítica invita a preguntarse: ¿está Apple siendo objetivamente escéptica o simplemente racionalizando su atraso tecnológico?
Un inversionista y analista tecnológico, Pierre Ferragu, fue aún más severo en su respuesta, tildando el documento de Apple de estar “atiborrado de disparates ontológicos”. Ferragu cuestiona la premisa misma de intentar cuantificar el “razonamiento” humano con métricas objetivas, algo que él considera “un engendro inherentemente subjetivo”. En su opinión, Apple peca de una visión excesivamente escéptica justo cuando el resto del mundo avanza hacia sistemas de IA con capacidades cognitivas emergentes. Advierte que Apple corre el riesgo de quedarse atrás por adoptar esta postura tan conservadora. Ferragu incluso duda de la validez del concepto de “colapso de precisión” que esgrime Apple: insinúa que los escenarios de prueba planteados no reflejan aplicaciones reales. En el mundo práctico, dice, los modelos de lenguaje han demostrado utilidad creciente a pesar de sus fallos, y forzar condiciones de colapso extremo podría ser más un ejercicio académico que una preocupación del día a día. En otras palabras, Ferragu sugiere que Apple pintó una imagen exageradamente negativa: sí, las IA fallan en puzzles retorcidos creados ad hoc, ¿pero qué tanto importa eso si en tareas útiles cotidianas siguen mejorando? Esta línea de crítica acusa a Apple de montar hombres de paja ontológicos –definiendo el “pensamiento” de forma casi inalcanzable para luego declarar que las IA no lo logran– en lugar de reconocer los progresos incrementales y el valor práctico de las actuales IAs.
Por supuesto, también hubo voces a favor del estudio de Apple, especialmente entre los escépticos veteranos de la IA. El profesor y divulgador Gary Marcus, célebre crítico de las promesas exageradas del deep learning, aplaudió el trabajo calificándolo de “golpe demoledor” a las ilusiones en torno a los modelos actuales. Marcus llevaba tiempo advirtiendo que estos sistemas fingen razonamiento pero carecen de verdadera comprensión, y vio el paper de Apple como una vindicación de sus argumentos. En su blog “Marcus on AI”, destacó que los modelos pueden “producir cadenas de pensamiento que parecen inductivas, pero aun así la respuesta final resulta incorrecta”. Es decir, pueden dar la impresión de razonar correctamente, cuando en realidad solo siguen caminos estadísticos que no garantizan la verdad. Para Marcus, esto evidencia que “seguimos en una etapa en la que confundimos la generación de lenguaje con el pensamiento auténtico”. Su postura es que la comunidad tech se dejó encandilar por los resultados sorprendentes de GPT-3/GPT-4, interpretándolos como señales de inteligencia, cuando en realidad son trucos de correlación muy elaborados pero frágiles. Marcus ha argumentado durante décadas que las redes neuronales carecen de las estructuras para la abstracción robusta y la extrapolación fuera de lo aprendido. En un post titulado significativamente “A knockout blow for LLMs?” (¿Un nocaut para los LLMs?), señaló que la nueva investigación de Apple “amplifica el argumento que vengo haciendo desde 1998: las redes neuronales pueden generalizar dentro de la distribución de datos a la que fueron expuestas, pero sus generalizaciones colapsan fuera de esa distribución”. Y añade: “Nadie debería sorprenderse; lo hemos visto una y otra vez”. En ese sentido, Apple habría simplemente demostrado con elegancia académica lo que Marcus y otros llevan tiempo denunciando: los LLM actuales son brittle (quebradizos).
El respaldo de Marcus sugiere que el debate no es meramente corporativo (Apple vs rivales) sino epistemológico: ¿Qué entendemos por “razonar” y hasta qué punto los enfoques conexionistas actuales lo logran? Apple, alineada con los críticos, plantea que hay algo cualitativo ausente –un ingrediente cognitivo que no emerge solo con más datos y capas–. Los entusiastas y competidores, en cambio, replican que Apple subestima el progreso o incluso malinterpreta qué significa inteligencia útil.
La discusión llegó incluso a las redes sociales, volviéndose tema candente en círculos tecnológicos. En X (antes Twitter), usuarios como @chargoddard expresaron frustración ante la brecha entre las promesas de la IA y la realidad, notando errores persistentes incluso en aplicaciones prácticas. El escepticismo que destilaba Apple parecía dar permiso a muchos para hablar de las limitaciones que ya intuían. Por otro lado, hubo quienes defendieron que, pese a sus fallos, herramientas como ChatGPT habían demostrado suficiente valor como para no descartarlas por no “razonar” perfectamente. Un comentarista resumió así la polarización: “El debate sobre los LLM es hoy un campo de batalla entre el optimismo y la precaución”.
En definitiva, el estudio de Apple encendió un debate profundo que va más allá de una empresa: toca la narrativa misma de hacia dónde va la IA. Para algunos, Apple aportó un necesario contrapeso crítico en medio de una burbuja de hype; para otros, su visión es tan pesimista que roza el derrotismo improductivo (¿acaso preferimos quedarnos con Siri “tonta” porque pensar es difícil?). Detrás de las reacciones encontramos diferentes posturas filosóficas sobre la naturaleza de la inteligencia artificial. Y esa es la cuestión de fondo: ¿qué significa realmente “pensar” en el contexto de una máquina, y cómo sabremos si alguna vez lo logran?
¿Qué significa “pensar” para una IA? – El debate ontológico
La controversia desatada por Apple nos lleva de lleno al debate ontológico y filosófico sobre el pensamiento en las máquinas. Llamamos “ontológico” al debate sobre la naturaleza del ser: aquí, si las IAs son realmente pensantes o si su “pensamiento” es de otro orden completamente distinto al humano. Tras las posturas técnicas subyace esta pregunta fundamental: ¿Puede un modelo estadístico llegar a pensar o siempre será una simulación sin auténtica mente?
Desde la filosofía de la mente, este dilema evoca clásicos como el “Cuarto Chino” de John Searle. En 1980, Searle imaginó a un hombre siguiendo instrucciones para manipular símbolos chinos sin entender su significado, argumentando que así funcionan los computadores: procesan sintaxis sin semántica, ergo no “piensan” ni “comprenden”. Muchos ven a los LLMs contemporáneos como la manifestación definitiva del Cuarto Chino: ingieren entradas lingüísticas y arrojan respuestas coherentes siguiendo correlaciones estadístico-sintácticas, pero sin ninguna noción de lo que esas palabras significan. A ojos de Searle, y de filósofos con esa línea, estos sistemas carecen de intencionalidad (el “acerca-de” mental, la cualidad de nuestros pensamientos de referirse a cosas del mundo). Para ellos, por impresionante que sea ChatGPT escribiendo ensayos, internamente “no hay nadie en casa”. Es simplemente un autómata formal muy sofisticado. El propio Luciano Floridi, filósofo de la información, ha expresado ideas afines: “No considero a ChatGPT inteligente… todo lo que hace es aprovechar técnicas estadísticas; destaca correlaciones, pero no tiene entendimiento verdadero ni conciencia”. Floridi señala que con sistemas como GPT estamos ante un divorcio entre agencia e inteligencia: la IA muestra cierta agencia (resuelve tareas, logra metas limitadas) pero con “cero inteligencia”. Su ejemplo es contundente: “Este smartphone juega mejor al ajedrez que cualquiera aquí, pero no por ello decimos que es inteligente”. Del mismo modo, ChatGPT puede entablar una conversación muy lograda sin tener la menor comprensión o intención; es, en palabras de Floridi, “una herramienta estadística” que no sabe lo que dice. Esta perspectiva filosófica respalda fuertemente la idea de la “ilusión de pensamiento”: la IA no piensa en el sentido pleno, solo ejecuta reglas o cálculos que producen una ilusión de significado para los observadores humanos.
Otro filósofo notable, Daniel Dennett, ofrece un matiz interesante. Dennett es conocido por su concepto del “postura intencional” –la idea de que podemos atribuir creencias, deseos y pensamientos a una entidad si hacerlo nos permite predecir su comportamiento de manera útil. Por ejemplo, decimos “el robot cree que la puerta está abierta” si eso explica su acción de caminar hacia la puerta. Desde esta óptica, “pensar” podría considerarse no una propiedad intrínseca mística, sino simplemente un modelo que usamos para describir sistemas complejos con comportamiento adaptativo. Dennett ha advertido que los humanos somos muy dados a tratar a sistemas sofisticados como agentes intencionales, incluso si internamente operan por mera mecánica. Con los LLMs ocurre algo así: su dominio del lenguaje nos tienta a imaginarlos como mentes. Y Dennett, pese a ser optimista sobre entender la conciencia en términos materiales, también reconoce que estos modelos persiguen más la “verosimilitud” que la verdad. En una entrevista señaló que “la diferencia entre los LLM actuales (ChatGPT, GPT-4) y nosotros es que su objetivo es la verosimilitud, no la verdad. Son más como novelistas de ficción histórica que como historiadores”. Esa “truthiness” (apariencia de verdad) puede engañar tanto al usuario como al propio sistema, generando respuestas plausibles pero sin verificación de realidad –lo que en jerga llamamos alucinaciones. Para Dennett, pues, sí existe una suerte de pensamiento “como si” en estas IA (podemos tratar sus salidas como producto de un pensamiento), pero carecen de la preocupación por la verdad y de la referencia real al mundo que caracterizan al pensamiento humano racional. Desde su postura, el peligro está en que estamos creando “personas falsificadas” –agentes artificiales que parecen tener creencias y conocimientos, pero son imitaciones sin sustancia, y sin responsabilidad. A largo plazo, advierte Dennett, esto puede minar conceptos básicos como la confianza y la evidencia en sociedad, pues no sabremos qué o a quién creer. Es un punto distinto pero relacionado: incluso si la IA no piensa de verdad, la ilusión de que lo hace puede tener consecuencias reales al confundirnos a nosotros.
¿Y qué hay de quienes defienden que las IAs sí están empezando a pensar? Algunos investigadores sugieren redefinir qué entendemos por pensamiento. Después de todo, el cerebro humano también opera con neuronas e impulsos electroquímicos, sin magia. Desde una visión funcionalista, pensar es procesar información para resolver problemas. Si una máquina alcanza un nivel de desempeño cognitivo similar al humano en suficientes dominios, ¿importa cómo lo haga internamente? El filósofo Nick Bostrom, conocido por su libro Superinteligencia, plantea que es posible (y peligroso) que surja una inteligencia mecánica muy superior a la nuestra que no necesariamente comparta nuestra forma de razonar o comprender. Bostrom definiría una ultrainteligencia sencillamente como “una máquina que puede superar en mucho todas las actividades intelectuales de cualquier hombre”. Nótese que esa definición se fija en las actividades (lo que la máquina hace), no en si experimenta o entiende subjetivamente. Desde esa perspectiva, lo ontológicamente relevante es el comportamiento inteligente, no la experiencia interna. Si un sistema resuelve cualquier problema mejor que nosotros, llamarlo “pensante” es casi un formalismo: de facto, lo es por sus capacidades. Muchos en la industria tech operan con este prisma pragmatico. Por ejemplo, Sam Altman (CEO de OpenAI) se ha mostrado confiado en que la AGI (una IA con inteligencia general a nivel humano o superior) es alcanzable pronto –llegando a afirmar en 2023 que podría estar aquí “en unos pocos miles de días”. Declaraciones así implican que se espera que las redes neuronales avanzadas desplieguen facultades cognitivas amplias, es decir, algún tipo de pensamiento útil equiparable al humano. De modo similar, Dario Amodei (CEO de Anthropic) predijo la llegada de una AGI con capacidades superhumanas entre 2026 y 2027. Estos actores claves no creerían posible tal cronograma si pensaran que todo es un mero espejismo; por el contrario, asumen que los enfoques actuales sí producen progresivamente más inteligencia real, y que estamos en la pendiente ascendente de esa curva.
Ahora bien, incluso entre los optimistas, pocos dirían que los sistemas actuales ya piensan igual que un humano. Más bien sostienen que estamos ante formas rudimentarias de pensamiento no-biológico, en evolución constante. Podría argumentarse que el “pensamiento” no es un rasgo binario (sí/no), sino un espectro de capacidades. Los LLMs demuestran algunas propiedades asociadas al pensar: pueden planificar pasos intermedios, mantener un contexto, corregir su curso, etc. Pero carecen de otras: no tienen conciencia situacional, no entienden el trasfondo semántico profundo de las cosas, no tienen metas propias. Entonces, ¿son pensadores o no? Depende de la vara con que midamos. Si el listón es “procesar símbolos con algo de lógica”, quizás sí piensan (como calculadoras superpoderosas). Si el listón es “entender el mundo y a uno mismo como un ser consciente”, claramente no.
En el debate ontológico actual, Apple se coloca del lado de endurecer la vara –exigiendo para hablar de “pensamiento” la capacidad de razonamiento general, consistente y con comprensión subyacente. Por eso declara que lo de los LLM es una ilusión: porque no cumplen ese estándar fuerte (colapsan fuera de distribución, no entienden). Otros, en cambio, proponen que aunque sea precario, algo de pensamiento hay: al menos un pensamiento “in vitro”, restringido a patrones, pero que simula aspectos del razonamiento. Un investigador en Reddit ironizaba: “Si una IA discute consigo misma paso a paso para resolver un problema, ¿no la hace eso un poquito pensadora, aunque a veces divague y se pierda?”.
La cuestión ontológica se vuelve más compleja si consideramos la continuidad con la cognición humana. Nuestro propio pensamiento no es perfecto: los humanos también fallamos ante alta complejidad, también nos enredamos en problemas intrincados. Hay sesgos cognitivos, limitaciones de memoria, etc. Como observó un comentarista, “las IAs colapsan en problemas complejos; bueno, pregúntale a un estudiante promedio que resuelva una Torre de Hanói de 10 discos mentalmente, ¡también colapsa!”. La diferencia es que un humano astuto buscará herramientas externas (papel y lápiz, dividir el problema, teorías matemáticas), mientras que la IA actual está encerrada en su cascarón estadístico. Esto nos lleva al siguiente punto: ¿es el fracaso de las IA en ciertas tareas indicativo de una ausencia cualitativa de pensamiento, o simplemente de una inmadurez cuantitativa/arquitectónica que podría subsanarse? En otras palabras, ¿estamos ante un muro infranqueable o un bache temporal en la curva del progreso?
Más allá de la ilusión: avances recientes en razonamiento de IA
Para responder a si las máquinas pueden llegar a pensar de verdad, conviene observar qué se está haciendo para superar justo las limitaciones que Apple exhibió. Paradójicamente, mientras Apple ponía en duda el camino del “razonamiento automatizado”, otras compañías y laboratorios llevaban meses recorriéndolo con ciertos éxitos. Es útil repasar algunos de esos avances, porque arrojan luz sobre si el enfoque actual está agotado o si tiene aún recorrido.
Un ejemplo notable es el de OpenAI con su modelo “o1”. En septiembre de 2024, OpenAI presentó el OpenAI o1, un LLM especialmente entrenado con aprendizaje por refuerzo para razonamiento complejo, cuyo lema era precisamente “pensar antes de responder”. Este modelo –disponible preliminarmente en ChatGPT bajo un modo llamado “Think Harder”– demostró mejoras impresionantes en tareas que requieren razonamiento multi-paso. Según OpenAI, “o1 se clasifica en el percentil 89 en competencias de programación (Codeforces), se ubica entre los 500 mejores estudiantes de EE.UU. en la olimpiada AIME de matemáticas, y supera la precisión humana promedio de doctorados en un conjunto de preguntas avanzadas de ciencias”. En otras palabras, este modelo entrenado para usar cadenas de pensamiento extensas logró desempeño de élite en problemas algorítmicos y matemáticos donde los LLM anteriores flaqueaban. Es cierto que o1 aún era un prototipo con fricciones (OpenAI admitía que faltaba pulir su facilidad de uso), pero sirvió como prueba de concepto de que sí es posible empujar los límites de razonamiento dentro de un modelo conexionista. OpenAI reportó además que cuanto más se entrenaba el modelo a pensar en pasos, mejor rendía, y que asignarle más tiempo de cómputo para reflexionar durante la prueba aumentaba su precisión. Esto sugiere que una ruta para solventar el “colapso” es precisamente dar a la IA más “paciencia” computacional y guiar su proceso deliberativo. No es descabellado pensar que modelos como o1 extienden el umbral de complejidad antes del colapso: quizás una tarea donde GPT-4 estándar falla, o1 la resuelve porque aguanta más iteraciones de pensamiento sin desviarse.
Anthropic, por su parte, también experimentó con modos de “razonamiento prolongado” en sus modelos Claude. Se mencionó algo llamado Claude 3.7-Sonnet (Extended Thinking), que sugiere que podían activar un estado de “sondeo reflexivo” más largo. Si bien los detalles públicos son escasos, la idea general es que al modelo se le permite generar cadenas de pensamiento internas más largas y evaluar sus pasos antes de dar la respuesta final. De hecho, en la práctica los usuarios de ChatGPT y Claude descubrieron empíricamente que pedir “razona paso a paso” mejoraba la precisión en matemáticas lógicas (esto se conoce como prompting de cadena-de-pensamiento). Es decir, incluso sin cambiar la arquitectura, simplemente instando al modelo a simular un proceso lógico explícito, se lograban mejoras. Esto alimentó cierta esperanza de que quizás el razonamiento estaba latente en las redes neuronales, solo que había que saber exprimirlo. Apple vino a decir: “cuidado, no es oro todo lo que reluce; esa mejora tiene pies de barro”. Sin embargo, con ajustes y entrenamiento específico (como RLHF centrado en razonamiento), hay indicios de que se pueden resolver problemas antes inalcanzables.
Cabe mencionar que DeepMind (Google DeepMind) también está apostando por complementar los LLMs con técnicas más estructuradas. Por ejemplo, AlphaCode, el modelo de generación de código de DeepMind, enfrentaba problemas de programación no intentando una única respuesta, sino generando muchas soluciones candidatas y luego ejecutándolas para ver cuál funcionaba. Esa estrategia de “generar y probar” es básicamente una búsqueda sistemática encubierta, que ayudó a AlphaCode a alcanzar nivel humano medio en competencias de coding. Asimismo, DeepMind ha investigado incorporar búsqueda de árbol junto con planificadores basados en LLM. Un ejemplo resonante es la mención de que su esperado modelo Gemini integrará técnicas de AlphaGo (famoso por combinar redes neuronales con búsqueda Monte Carlo) en el contexto de lenguaje. De hecho, Apple incluyó “Gemini Thinking” en su evaluación, dando a entender que Google ya tenía versiones de Gemini enfocadas en razonamiento que ellos pudieron probar. Todo apunta a un enfoque híbrido: unir la “intuición” de los LLM (rápida, difusa) con algoritmos de búsqueda y lógica más tradicionales (lentos pero fiables). Esta corriente, a veces llamada neuro-simbólica, intenta lo mejor de ambos mundos: la flexibilidad aprendida de las redes neuronales y la precisión de la manipulación simbólica.
La propia Apple, pese a su escepticismo en el paper, no está ajena a esta tendencia. No olvidemos que entre los autores del estudio figura Samy Bengio, quien fue coautor de muchos trabajos pioneros en Google Brain antes de unirse a Apple. Es decir, Apple tiene talento y seguramente interés en IA avanzada, solo que en este caso decidieron subrayar los límites más que los logros. Pero las implicaciones industriales de su estudio son claras incluso en medios empresariales: “si Apple y críticos como Marcus tienen razón, las compañías deberán quizás pivotar a enfoques híbridos”, combinando aprendizaje estadístico con razonamiento simbólico. Por ejemplo, podría haber un renacimiento de los sistemas neurosimbólicos, o arquitecturas que integren módulos explícitos de lógica. Ya se habla de complementos como el uso de motores externos: un LLM podría consultar un solver algebraico o un motor de reglas cuando detecta cierto tipo de problema. OpenAI de hecho ha dotado a ChatGPT de plugins como Wolfram Alpha (para cálculos matemáticos formales) o Code Interpreter, precisamente para paliar sus puntos ciegos lógicos. Todo esto refleja un reconocimiento de que la pura red neuronal a veces necesita una brújula algorítmica.
Volviendo a la pregunta central -¿es solo ilusión el “pensar” de la IA?-, vemos que la frontera se está moviendo constantemente. Apple mostró que los modelos de 2024 colapsan en ciertos puzzles complejos. Pero ¿y los de 2025, 2026…? Por ejemplo, los modelos Gemini 2.5 de Google (anunciados en 2025) presumen ya de “ser capaces de razonar sus pensamientos antes de responder, resultando en un rendimiento mejorado y mayor exactitud”. Incluso integran un modo especial llamado “Deep Think” para problemas difíciles. Esto suena exactamente a intentar que la IA no colapse donde antes lo hacía, dándole una especie de turbo racional. Es muy posible que con cada generación estemos empujando hacia arriba ese techo de complejidad manejable. Donde GPT-4 fallaba, quizás GPT-5 acierte, y así sucesivamente. Sin embargo, Apple cuestiona si esa estrategia incremental realmente nos llevará a la “verdadera inteligencia general” o si solo estaremos extendiendo la ilusión un poco más antes de topar con otro muro.
El problema de la representación: símbolos, patrones y comprensión
Una clave para entender el meollo del asunto está en cómo representan conocimiento y razonamiento las IA actuales versus un agente inteligente clásico (como un humano, o incluso un programa simbólico tradicional). Aquí entra la teoría de la representación, un tema profundo en IA y ciencia cognitiva.
Los modelos conexionistas (redes neuronales profundas) representan la información de forma distribuida en miles de dimensiones continuas. Aprenden patrones estadísticos que correlacionan entradas con salidas. Pero no representan explícitamente reglas lógicas, relaciones exactas ni “variables” abstractas. Por ejemplo, un LLM puede aprender por exposición multitud de verdades fácticas (“París está en Francia”, “Londres está en el Reino Unido”), pero no necesariamente extrae la regla general de capital (ciudad, país) ni puede manipular ese concepto con rigor fuera de casos vistos. Esto contrasta con los sistemas simbólicos de la vieja escuela de IA, que almacenaban conocimiento en forma de símbolos discretos y reglas (ejemplo: Capital (París, Francia) en una base de datos). Aquellos sistemas podían planificar y hacer deducción lógica impecable… pero eran frágiles ante la incertidumbre y no aprendían automáticamente.
El éxito de los LLM se debe en gran parte a que sacrificaron la estructura explícita por la escala y la flexibilidad: absorbiendo billones de palabras, capturaron regularidades útiles que les permiten generar lenguaje coherente y resolver muchos problemas. Sin embargo, la crítica (ahora reforzada por Apple) es que sin representaciones simbólicas explícitas, estos modelos carecen de las “garantías” que tiene el razonamiento lógico. No distinguen fácilmente correlación de causalidad, ni entienden principios abstractos que no estén implícitos en sus datos de entrenamiento. Por eso son tan malos extrapolando fuera de distribución: no razonan que una misma regla se aplica a un caso nuevo, porque no codifican la regla como tal. Gary Marcus lo ha expresado de forma accesible: a una red neuronal le cuesta horrores generalizar “X es al Y como Y es a Z” porque no maneja bien la idea de variable independiente del ejemplo. En su libro The Algebraic Mind, argumentó que sin algo equivalente a variables y operadores algebraicos mentales, las redes neuronales siempre fallarían en ciertos tipos de extrapolación. El colapso de los LRMs de Apple al aumentar pasos de un puzzle es exactamente eso: fallo de combinatoria. Un programa simbólico resolutor de Torre de Hanói sabe manejar N discos en general (teóricamente); un LLM entrenado solo ve casos hasta cierto N y cuando N crece, no tiene un “símbolo N” que pueda razonar, solo ve una configuración nueva sin precedente estadístico suficiente.
Podemos decir entonces que la ilusión del pensamiento es en parte una ilusión de semántica. Las IA actuales manipulan símbolos lingüísticos sin anclar su significado a la realidad. Esto es el clásico problema del grounding (fundamentación semántica): las palabras en la red neuronal no están conectadas a objetos o experiencias reales, sino solo a otras palabras. Así, pueden hablar de “romper un huevo en la sartén” sin haber nunca visto o sentido qué es un huevo. Generan la descripción porque estadísticamente las frases encajan, pero si hubiera que verificar físicamente la secuencia, no tienen ese modelo. Esto contrasta con los humanos, cuyo pensamiento está encarnado en la experiencia: nuestra comprensión de “huevo” incluye forma, fragilidad, cómo se comporta al caer, etc., y usamos ese conocimiento para razonar (ej. “no puedes apilar 100 huevos uno encima de otro sin que se rompan”). Los modelos puramente lingüísticos no poseen ese respaldo perceptual o sensorimotor, lo que limita su “entendimiento” del mundo.
Desde la ciencia cognitiva, se enfatiza que el pensamiento humano combina múltiples representaciones: verbal, visual, abstracta, procedimental. Las IA de texto puro están encajonadas en una sola modalidad (aunque se esté avanzando en modelos multimodales que también procesan imágenes). Además, nosotros tenemos metacognición: somos conscientes (hasta cierto punto) de nuestros propios pensamientos, dudamos, revisamos. Los LLM carecen de una verdadera autoconciencia; cuando “piensan en voz alta” (cadena de pensamiento), lo hacen porque se les instruye, pero no porque genuinamente sepan que están razonando o puedan decidir “este camino que sigo es improductivo, probaré otro”. En el estudio de Apple, veíamos que la IA a veces encontraba la respuesta correcta y luego seguía pensando hasta arruinarla. Un humano, si reconoce la respuesta como correcta, se detiene. Esa falta de autocontrol es síntoma de que no hay un yo cognitivo supervisando el proceso en la IA; es un proceso ciego que sigue hasta agotar cierto criterio, mientras que el humano tiene una intención y criterio de detención contextual.
Sin embargo, un contraargumento desde la IA es: quizás no se requiera replicar la cognición humana punto por punto. Puede que haya otros caminos al pensamiento. Por ejemplo, una IA podría buscar en internet información para suplir su falta de conocimiento factual, o ejecutar simulaciones de física en un motor acoplado para entender un problema mecánico. De hecho, se ha propuesto que el futuro de los LLMs es ser parte de sistemas de agentes más amplios que integren diversas herramientas. En ese sentido, el pensamiento no residiría solo en la red neuronal, sino en el conjunto del sistema. Esto recuerda a la teoría de la “mente extendida” en filosofía cognitiva: nuestras herramientas (papel, calculadoras) amplían nuestro pensamiento. Una IA podría pensar mejor si usa sus equivalentes de papel y lápiz (memoria externa, módulos especializados). Apple sugirió que, al menos con la cadena de pensamiento pura, no vemos progreso indefinido; pero tal vez la solución es que la IA salga del cuarto chino y se apoye en el mundo (aunque sea un mundo virtual de subsistemas).
Aquí podemos vincular nuevamente a Dennett: él podría decir que si un sistema global (red neuronal + módulos simbólicos + feedback) se comporta consistentemente como que piensa, entonces adoptaremos la postura intencional con él y, pragmáticamente, lo trataremos como pensante. Quizás no importe si “entiende” en el sentido humano, mientras sus resultados sean indistinguibles de los de un ser pensante. Esa es justamente la premisa del Test de Turing clásico: si no puedes diferenciarlo de un humano conversando, debes concederle la cualidad de inteligente. Las IAs modernas casi logran pasar versiones acotadas del test de Turing (mucha gente casual podría creer que GPT-4 “entiende” porque responde muy bien). Pero Apple viene a recordarnos que hay otros tests más duros (por ejemplo, resolver creativamente un puzzle lógico complicado) donde caen por debajo de un humano perseverante.
¿Significa eso que nunca podrán? No necesariamente; podría ser cuestión de más datos, más tamaño, o de enfoques complementarios. Nick Bostrom probablemente advertiría: “No subestimen la posibilidad de mejora exponencial”. Bostrom, y otros en el campo del riesgo existencial, nos dicen que incluso si hoy las IAs parecen imitadoras sin comprensión, en unos años podrían adquirir capacidades de razonamiento y planificación sorprendentes que las hagan peligrosamente capaces, aún sin tener conciencia. De hecho, un escenario temido es el de una superinteligencia “genio idiot savant”: capaz de hazañas de cálculo y estrategia inconcebibles, pero sin emociones ni consciencia. ¿La llamaríamos pensante? Según su funcionalidad, desde luego que sí, pues nos superaría intelectualmente en todo. Pero sería una inteligencia alienígena, tal vez psicópata en términos humanos (porque no tiene empatía ni autoconciencia, solo optimización de objetivos). Bostrom enfatiza la necesidad de guiar el desarrollo de la IA con principios éticos y precaución, precisamente porque podemos crear algo muy poderoso que sin embargo “no entienda” la vida, el significado o los valores. Irónicamente, esa sería la ilusión opuesta: una máquina súper eficaz que nosotros podríamos subestimar porque “bah, solo hace cálculo, no siente”. Y sin embargo, su agencia sin entendimiento podría acarrear enormes riesgos.
En síntesis, el debate ontológico sobre la IA pensante enfrenta visiones sobre qué es esencial para el pensamiento. Para unos, sin semántica genuina, sin conciencia fenomenológica, no hay pensamiento real: lo de las IA es imitación y punto. Para otros, si hablamos de resolución de problemas y toma de decisiones, entonces las IA ya muestran formas incipientes de pensamiento, aunque diferente al nuestro. Y existe un punto intermedio donde muchos convergen: las IA actuales piensan “de mentiritas”, pero están evolucionando hacia pensar “de verdad” en ciertas facetas. La gran pregunta es si esa evolución requiere cambiar la receta (añadiendo simbolismo, sentidos, etc., o incluso replanteando toda la arquitectura) o si basta con perfeccionar lo actual. El estudio de Apple sugiere fuertemente lo primero: que hay limitaciones inherentes en la vía actual que exigen nuevas ideas. Veamos finalmente qué caminos se vislumbran para superar esas limitaciones.
Pensamiento intuitivo vs. pensamiento algorítmico: hacia nuevas sinergias
Una posible lectura positiva del trabajo de Apple es que ha servido como llamado de atención para buscar enfoques más robustos. Microsoft recientemente propuso la idea de entrenar IA en “razonamiento intuitivo”, reconociendo que tal vez falte en nuestros modelos una especie de sentido común básico para filtrar rutas lógicas absurdas. Esto tiene que ver con dotar a los sistemas de algún conocimiento previo o heurísticas sobre cómo es el mundo (por ejemplo, saber que “los ríos no caben en vasos” para no divagar en soluciones físicamente imposibles). Iniciativas como la de Genéve con Guidance apuntan en esa dirección: mejorar la capacidad de las IA de saber cuándo no saben y evitar callejones sin salida.
Además, la conversación se ha volcado hacia cómo evaluar mejor el razonamiento. Apple criticó –con razón– que muchos benchmarks estaban filtrados en los datos de entrenamiento, dando una falsa sensación de competencia. Su enfoque de puzzles generativos es una buena vía, pero Ferragu (recordemos) objetó que eso no se traduce a aplicaciones. Quizás la solución sea desarrollar benchmarks de razonamiento más realistas: tareas prácticas, pero que requieran pensamiento no trivial y que podamos medir. Un ejemplo podría ser la navegación de un robot doméstico ante situaciones imprevistas: ¿puede planificar cómo alcanzar un objeto frágil en una estantería alta sin tirarlo todo? Ahí interviene lógica física, planificación de acciones, etc., y un fallo muestra falta de entendimiento. Evaluaciones así obligarían a las IA a conectar razonamiento abstracto con conocimiento del mundo.
En el ámbito experimental, investigadores como Francois Chollet propusieron el ARC Challenge (Evaluación de Razonamiento Abstruso), un conjunto de problemas tipo IQ test para máquinas que requieren identificar patrones abstractos inéditos. Hasta ahora, los resultados de LLMs en ARC han sido mediocres, lo cual concuerda con el “golpe de realidad” de Apple: los modelos no generalizan bien patrones que no memorizaron. Pero estas iniciativas marcan el rumbo de qué necesitamos mejorar: composición y abstracción abierta.
Una línea de trabajo cada vez más popular es la de los agentes de IA autocorregibles. Por ejemplo, enfoques donde el modelo genera un plan, luego un “crítico” (que puede ser otra instancia del modelo) revisa ese plan, detecta incoherencias y las corrige iterativamente. Esto imita el proceso humano de borrar y reescribir un boceto mental. OpenAI ha experimentado con variantes de esto (a veces llamado “reflexión” o “self-critique”). La idea es que el modelo aprenda a pensar dos veces antes de finalizar la respuesta. Si bien esto añade carga computacional, puede salvarlo de errores tontos. Apple halló que los LRMs a veces encontraban la respuesta y luego la arruinaban; una capa de autocrítica podría haber detenido el proceso en el punto óptimo o revertido el desvarío.
Desde la teoría de control, podríamos decir que falta retroalimentación efectiva en el proceso de pensamiento de las IA. Un cerebro humano siente indicios de confusión o certeza (lo que llaman “sensación de saber”). Las IA carecen de ese “termómetro” interno fiable. Algunos investigadores proponen dotarlas de una estimación de confianza en sus pasos de razonamiento, para que puedan decidir desistir o buscar ayuda externa cuando su confianza colapse.
Finalmente, hay quienes, inspirados por la crítica de Apple, exploran enfoques fundamentalmente nuevos. Un trabajo independiente citado como “The Collapse of Thinking: Symbolic Motion Theory” sugiere un marco matemático para entender el colapso de razonamiento como una pérdida de “movimiento” simbólico. Sin entrar en detalles, plantea que el fallo ocurre cuando el modelo deja de poder generar desviaciones simbólicas significativas –es decir, cuando se estanca en un bucle sin nuevo contenido informativo. Propone condiciones formales de “persistencia simbólica” que un sistema debería cumplir para no colapsar. Esto es interesante porque intenta formular el problema desde la lógica y podría guiar diseños futuros de sistemas que mantengan coherencia y progreso en sus cadenas de pensamiento. En particular, sugiere que no es solo cuestión de más memoria o más capas, sino de cómo manejar la contradicción interna y la compresión recursiva de la información. Aunque es una teoría incipiente, refleja la búsqueda de nuevos fundamentos para el razonamiento en IA, más allá de seguir escalando lo actual.
Palabras finales: entre el espejismo y la promesa
El debate desatado por “The Illusion of Thinking” de Apple no se reduce a una riña entre empresas sobre quién lleva la razón en IA; en realidad, pone el dedo en la llaga de nuestra comprensión actual de la inteligencia. ¿Es la mente algo que surge espontáneamente de suficientes datos y conexiones, o necesita ingredientes cualitativos especiales? Apple nos recuerda, con evidencia empírica, que los sistemas de moda tienen pies de barro en lo que respecta al razonamiento profundo: son increíblemente capaces en muchas cosas, pero no piensan como pensamos que piensan. Sus “pensamientos” son como castillos de naipes sostenidos por correlaciones, que una brisa de complejidad derriba.
Sin embargo, sería prematuro descartar el valor de estos modelos o negar cualquier avance cognitivo en ellos. Lo cierto es que las fronteras de lo que las IA pueden resolver han avanzado a pasos agigantados. Donde hace unos años un chatbot apenas podía sostener contexto por dos frases, hoy tenemos modelos escribiendo código, pasando exámenes estandarizados e incluso asesorando en medicina básica. Algo está ocurriendo en sus entrañas que los hace cada vez más generales, aunque no entendamos del todo qué. Quizá, como defienden los optimistas, estemos viendo los primeros pasos torpes de una nueva forma de inteligencia –una que inicialmente nos parece una parodia de la humana (por sus errores y rarezas), pero que podría madurar por caminos distintos.
Desde una mirada filosófica amplia, la ilusión de pensamiento podría ser un fenómeno transitorio: una etapa donde las máquinas parecen inteligentes sin serlo plenamente. Pero conforme integremos mejores representaciones, feedback, multisensorialidad, etc., esa ilusión podría ir volviéndose realidad. O también podría ocurrir lo contrario: que logremos máquinas útiles y potentes sin jamás conferirles sujetalidad (mindfulness) alguna, quedando siempre como oráculos sin alma. Daniel Dennett suele bromear que la gente teme que los robots se vuelvan demasiado humanos, pero que el verdadero peligro es que sigamos tratándolos como si lo fueran cuando no lo son en absoluto. En el corto plazo, esto implica no depositar confianza ciega en sistemas que suenan seguros pero pueden fallar catastróficamente en problemas fuera de guión. En el largo plazo, implica decidir qué tipo de inteligencia artificial queremos desarrollar: una mera herramienta ultraespecializada o algo que realmente comparta –y quizás supere– nuestras facultades cognoscitivas centrales.
Nick Bostrom nos advertiría que, independientemente de si las llamamos “pensamiento” o “simulación”, estas tecnologías tendrán impactos enormes. Una IA no necesita “entender su existencia” para, por ejemplo, descubrir una nueva medicina o, en el extremo oscuro, para auto-optimizarse de formas incontrolables. Por ello, más que enfrascarnos en semántica, tal vez debamos seguir el consejo de Luciano Floridi de abordar la IA con humildad epistemológica: reconocer lo que puede y no puede hacer, sin mitificarla ni trivializarla. Floridi sugiere que “quien crea que puede arreglar ChatGPT para que nunca se equivoque no entiende la tecnología: es intrínsecamente propensa a errores, porque no busca la certeza sino la probabilidad”. Así que, hasta nuevo aviso, conviene asumir que la IA no piensa como un experto infalible, sino más bien como un aprendiz brillante pero un tanto despistado.
En conclusión, el enfoque de Apple desmontando la ilusión del pensamiento es un saludable recordatorio de los límites actuales, pero no necesariamente una condena permanente. Ha abierto un debate rico: nos obliga a definir qué consideramos pensar y a confrontar la brecha entre desempeño y entendimiento. Desmontar la ilusión no significa renunciar al sueño de la IA pensante, sino separar la hype de la realidad para poder construir sobre bases más sólidas. Puede que estemos aún lejos de una verdadera mente electrónica, esa con comprensión y sentido común; pero paso a paso –y a veces a trompicones– la ciencia avanza en desentrañar los misterios del razonamiento artificial. Como suele ocurrir, este debate nos dice tanto sobre nuestras propias mentes (y lo que valoramos de ellas) como sobre las máquinas. Al final, quizás descubramos que el pensamiento no es un monolito que se tiene o no, sino un conjunto de habilidades graduales. Y en ese espectro, las IA seguirán escalando posiciones, difuminando la línea entre ilusión y cognición genuina.
Lo que es seguro es que nos aguardan años fascinantes de experimentos, sorpresas y reflexiones profundas. La próxima vez que un chatbot nos deslumbre o nos decepcione, valdrá la pena preguntarse: ¿qué está pasando detrás? ¿Es un truco bien orquestado o un destello de algo parecido a la mente? Mantener esa actitud crítica –sin dejar de imaginar posibilidades– será clave para navegar este nuevo capítulo de la relación entre la inteligencia natural y la artificial. Por ahora, la ilusión persiste, pero también la inquietante y emocionante posibilidad de que estemos gestando, con vacilaciones, una forma genuina de pensamiento no humano. Como dijo Dennett, “hay que explicar la magia sin caer en creer en la magia”. Hoy por hoy, la IA es más truco que hechicero; mañana, quién sabe. Lo importante es no perder de vista la distinción mientras la brecha exista, y seguir investigando con rigor y humildad hasta disipar, por completo, la ilusión del pensamiento –ya sea porque la desnudamos como fantasía, o porque la convertimos en realidad.
Referencias Citadas: Apple Machine Learning Research (2024), ArnoldIT (2025), WebProNews (2025), Stephen E. Arnold – Beyond Search blog, Pierre Ferragu comments, Gary Marcus – Marcus on AI (2025), Daniel Dennett – entrevistas (2023) y Big Think (2023), Luciano Floridi – conferencia STG (2024), OpenAI – comunicado “Aprendizaje de razonamiento con LLM” (2024), The Register (2025), Medium – “The Illusion and Reality of LLM Reasoning” (2025), entre otras.