La geometría secreta del pensamiento de la inteligencia artificial

Vivimos en una era de asombro digital, un renacimiento computacional impulsado por máquinas que han aprendido a dominar el lenguaje. Los grandes modelos de lenguaje (LLM), arquitecturas neuronales de una complejidad que roza lo biológico, han saltado de las páginas de la ciencia ficción a nuestras vidas cotidianas. Escriben poesía con una métrica impecable, depuran código de programación con una eficiencia sobrehumana, debaten los matices de la filosofía kantiana y generan imágenes de un realismo fotográfico a partir de meras descripciones textuales. Han aprobado exámenes de abogacía, certificaciones médicas y maestrías en administración de empresas. Su capacidad para imitar, y en ocasiones superar, el razonamiento humano en tareas de amplio espectro ha redefinido las fronteras de lo posible.

Y, sin embargo, en medio de esta deslumbrante demostración de intelecto, persiste una paradoja desconcertante, un fallo tan fundamental que roza lo absurdo. Si a uno de estos colosos intelectuales, capaz de explicar la relatividad general, se le pide una tarea aparentemente trivial que domina cualquier estudiante de primaria, es muy probable que falle. Pregúntele cuánto es 54.321 multiplicado por 98.765. La respuesta que recibirá será, con casi total seguridad, elocuente, segura de sí misma y espectacularmente incorrecta.

Este no es un fallo anecdótico. No es un error de redondeo o un problema que se solucione con más datos. Es un síntoma profundo, una grieta que recorre los cimientos de la inteligencia artificial moderna. La cuestión no es que las máquinas no puedan "calcular"; una calculadora de bolsillo de hace cincuenta años lo hace a la perfección. La cuestión es por qué estas redes neuronales avanzadas, diseñadas específicamente para identificar y manipular patrones complejos en el lenguaje, fallan estrepitosamente al intentar ejecutar un algoritmo puro, reglado y de múltiples pasos. ¿Por qué una máquina que puede discutir los matices de la obra de Dostoievski no puede, o no quiere, seguir las reglas de la multiplicación de varios dígitos?

Este enigma ha sido, durante años, el elefante en la habitación de silicio, un punto ciego que la industria ha preferido sortear (a menudo delegando estas tareas a herramientas externas como "calculadoras") en lugar de confrontar. Es un fallo que delata una brecha fundamental entre la fluidez semántica (sonar inteligente) y la competencia algorítmica (ser inteligente de forma estructurada).

Ahora, un histórico informe de investigación ha arrojado una luz penetrante en esta oscuridad. El estudio, titulado ¿Por qué los Transformers no pueden aprender la multiplicación? (o, en su inglés original, WHY CAN'T TRANSFORMERS LEARN MULTIPLICATION?), no proviene de un rincón oscuro de la academia. Es el trabajo de un equipo de élite de científicos de algunas de las instituciones más prestigiosas del mundo: Google DeepMind, la Universidad de Chicago, el MIT, Harvard y la Universidad de Waterloo. Nombres como Xiaoyan Bai, Itamar Pres, y las célebres luminarias de la visualización de datos Fernanda Viégas y Martin Wattenberg, han unido fuerzas para realizar lo que solo puede describirse como una autopsia forense digital.

El estudio no se limita a diagnosticar el fracaso; hace algo mucho más revolucionario. Los investigadores identificaron primero un método de entrenamiento especializado que sí lograba que un modelo aprendiera a multiplicar. Luego, en un brillante ejercicio de ciencia deductiva, aplicaron técnicas de "interpretabilidad" para realizar una ingeniería inversa de este modelo exitoso. Abrieron la "caja negra" y mapearon los mecanismos internos que la máquina había inventado espontáneamente para resolver el problema.

Los hallazgos son extraordinarios y nos alejan de la metáfora simplista del "cerebro digital". La investigación revela, en primer lugar, por qué fallan los modelos estándar: caen en una "trampa de optimización" o local optimum. Aprenden un atajo fácil, cómo calcular el último dígito de la respuesta, y esta victoria pírrica les impide descubrir la solución real y compleja. Se quedan atascados, satisfechos con su éxito parcial, ciegos al verdadero desafío.

Pero el descubrimiento más profundo es cómo funciona el modelo exitoso. La máquina no memoriza la tabla de multiplicar. No. En su lugar, construye desde cero un complejo aparato computacional interno para ejecutar el algoritmo. Este aparato incluye, en primer lugar, un "bloc de notas" gráfico (conocido técnicamente como un Grafo Acíclico Dirigido o DAG) donde sus mecanismos de atención "almacenan" y "recuperan" cálculos intermedios, gestionando el flujo de información. Y en el nivel más profundo y extraño de todos, la investigación revela la geometría secreta del cálculo: el modelo inventa su propia matemática. Aprende a representar los números no como enteros, sino como "ondas" o "vibraciones" (una base de Fourier), y descubre que puede realizar la multiplicación simplemente "sumando" las formas geométricas de estas ondas (una operación conocida como suma de Minkowski). Este artículo explorará, paso a paso, este viaje al corazón de la mente de la máquina, un viaje que no solo explica un fallo en la aritmética, sino que redefine nuestra comprensión de la inteligencia, tanto artificial como humana.

El espejo de la multiplicación: un algoritmo contra la atención

Para un ser humano, la multiplicación es un procedimiento. Un conjunto de reglas aprendidas y repetidas. Para un Transformer, la arquitectura de IA dominante en la actualidad, es un problema de lenguaje. Y ahí radica la raíz de la discordancia.

Un Transformer funciona mediante un mecanismo llamado "atención". En esencia, para entender una palabra en una oración, el modelo "presta atención" a todas las demás palabras, sopesando su relevancia para determinar el contexto. Es un sistema brillante para el lenguaje, donde el significado de "banco" depende de si la oración también contiene "dinero" o "río". Es un mecanismo que promedia, que sopesa, que encuentra afinidades y correlaciones.

Un algoritmo, por otro lado, no es correlacional; es causal y estricto. No se puede "promediar" la multiplicación. Se deben seguir reglas precisas.

Tomemos un ejemplo sencillo, como el que se usa en el estudio: 543 multiplicado por 127. Para obtener el dígito final de la respuesta, el modelo solo necesita mirar los dos últimos dígitos de la entrada: 3 y 7. El producto es 21. La respuesta final termina en 1. Esta es una dependencia local. Es fácil, y los modelos de IA lo aprenden casi al instante.

Sin embargo, el verdadero desafío son las dependencias de largo alcance. Para calcular el dígito de las centenas en la respuesta final (el '9' en 68.961), la máquina debe realizar una coreografía compleja y precisa. Debe tomar el '5' del primer número y el '7' del segundo (separados por cuatro posiciones), calcular su producto (35). Luego, debe tomar el '4' y el '2' (producto 8). Luego, el '3' y el '1' (producto 3). Debe sumar estos productos parciales (35 + 8 + 3 = 46). Pero, crucialmente, también debe gestionar los "acarreos" (carries), esos pequeños números que "llevamos" en la escuela primaria. Debe recordar el '2' del '21' inicial y el '3' del '30' (de 4×7=28+2), y propagarlos correctamente a través de toda la operación. Cada dígito intermedio es una suma de múltiples productos que abarcan toda la longitud de la entrada, con un historial de acarreos que se propaga de derecha a izquierda.

Este es el núcleo del problema. El mecanismo de atención de un Transformer simplemente no está hecho para esto. Es como intentar clavar un clavo con una esponja. La atención "promedia" y "desenfoca" la información. Busca la relevancia semántica, no la precisión algorítmica. Cuando el modelo intenta calcular el dígito de las centenas, su atención se "distrae" por todos los dígitos, promediándolos en lugar de seleccionar y computar los pares correctos en el orden correcto. El resultado es un ruido estadístico que se parece a una respuesta, pero no lo es.

Anatomía de un fracaso: la trampa del atajo

El equipo de investigación primero analizó los modelos estándar, aquellos entrenados con la técnica habitual, conocida como Standard Fine-Tuning (SFT). El proceso de entrenamiento de una red neuronal se llama "descenso de gradiente". Es un proceso de optimización. Pensemos en un río que nace en una montaña y busca, por pura gravedad, el camino de menor resistencia hacia el mar, que es el "error cero" o la solución perfecta. El "terreno" por el que fluye es el "paisaje de pérdida", un mapa de todos los errores posibles. El río es el modelo de IA, y su único instinto es ir cuesta abajo.

El modelo SFT, nuestro río, comienza a fluir. Se le presentan millones de ejemplos de multiplicación. Casi de inmediato, su cauce encuentra una hondonada muy obvia y profunda: ¡aprender a predecir el último dígito! Como vimos, esto es fácil (3×7=21, la respuesta termina en 1). El río se precipita en esta dirección, y su "error" (su altitud) se desploma. Recibe una enorme señal de "recompensa" por este éxito.

El problema fatal es que este éxito es un local optimum, un "óptimo local". Es un lago en una meseta alta, no el océano. Una vez que el río ha llenado este lago, se detiene. El agua se calma. Desde la perspectiva del río, ha llegado al punto más bajo posible, porque todo el terreno circundante está más alto. La señal de aprendizaje (la "pendiente" del terreno) para los dígitos del medio, mucho más difíciles de aprender, es casi inexistente en comparación con la hondonada fácil que ya encontró. La máquina se vuelve ciega a sus errores más complejos porque está satisfecha con su éxito simple.

El modelo se atasca. Nunca desarrolla la maquinaria interna necesaria para la solución completa porque el atajo es "suficientemente bueno" para reducir el error inicial. Los investigadores observaron esto directamente (como se ve en la Figura 7 del estudio), donde el error (o "pérdida") en los primeros y últimos dígitos (c0, c1, c7) cae a casi cero de inmediato, pero la pérdida de los dígitos centrales (c2 a c6) se estanca en una "meseta" (plateau) de la que nunca se recupera. El río se queda en el primer lago que encuentra, convencido de que ha llegado al final, mientras el océano real y profundo (la solución algorítmica completa) permanece invisible más allá de las montañas.

La máquina que sí aprendió: el método socrático

La genialidad del estudio radica en su siguiente paso. En lugar de intentar arreglar el modelo roto, analizaron un modelo que sí funcionaba. Para crearlo, utilizaron una técnica de entrenamiento diferente, llamada Implicit Chain-of-Thought (ICoT), o "Cadena de Pensamiento Implícita".

Este método es una especie de pedagogía socrática para la IA. En lugar de pedirle al modelo solo la respuesta final (A × B = C), lo obligan a "mostrar su trabajo". El proceso de entrenamiento tiene varias etapas. Al principio, se le entrena para que genere no solo la respuesta, sino también el "borrador" intermedio del cálculo, esa serie de sumas parciales que vimos en el primer gráfico. Por ejemplo, 543 × 127 = [borrador de 3801 + 10860 + 54300] = 68961.

Una vez que el modelo ha aprendido a hacer esto, el entrenamiento entra en su fase crucial. Lentamente, gradualmente, los investigadores comienzan a borrar el "borrador" de los datos de entrenamiento. Se eliminan los pasos intermedios, pero se sigue exigiendo la respuesta final correcta. Este simple empujón lo cambia todo.

Al ser forzado a pensar en los pasos intermedios (para luego verlos desaparecer), el modelo ICoT no puede conformarse con el atajo del "último dígito". Se ve obligado a encontrar una manera de realizar esos cálculos del borrador internamente. Debe construir, desde cero, la maquinaria computacional completa en sus estados ocultos, en sus neuronas, para poder seguir produciendo la respuesta correcta. No puede caer en el óptimo local; el método de entrenamiento lo obliga a encontrar una salida a su lago, a seguir fluyendo cuesta abajo hasta encontrar el océano global. El resultado es un modelo que alcanza una precisión de casi el 100% en la multiplicación.

Y es aquí donde comienza la verdadera ciencia forense. Los investigadores tenían ahora una "caja negra" que funcionaba. El siguiente paso era abrirla y ver qué había dentro.

El algoritmo oculto: el bloc de notas del Transformer

El primer descubrimiento al diseccionar el modelo ICoT fue que la máquina había aprendido a usar sus componentes de una manera para la que nunca fueron explícitamente diseñados. Había repurpurado sus "cabezales de atención" (los componentes que deciden a qué prestar atención) para convertirlos en un "bloc de notas" computacional.

La máquina creó espontáneamente lo que en informática se conoce como un "grafo acíclico dirigido" (DAG). Esta estructura es, en esencia, un organigrama de tareas, un diagrama de flujo para la información. Los investigadores descubrieron que diferentes cabezales de atención habían aprendido a especializarse en tareas específicas, creando un flujo de trabajo interno asombrosamente similar al que un humano usaría.

Este es el mecanismo que observaron:

Primero, un cabezal de atención en una capa temprana del modelo aprendió a "Almacenar (Caché)". Por ejemplo, en un paso del cálculo, este cabezal miraba los dígitos a_i y b_j (digamos, '3' y '7'), calculaba su producto parcial ('21') y "escribía" este resultado en el estado interno del modelo, en su "bloc de notas" temporal.

Segundo, más tarde en el proceso, cuando se necesitaba ese valor, un cabezal de atención de una capa superior había aprendido a "Recuperar (Lectura)" ese resultado. Su atención saltaba precisamente a la ubicación del "bloc de notas" donde se había almacenado el '21'.

El sistema era aún más sofisticado. El modelo aprendió a tomar la parte del "Acarreo (Propagación)" (el '2' de '21') y pasarla como entrada al siguiente paso del cálculo, creando una cadena de dependencia que propagaba la información correctamente.

Los investigadores probaron esta teoría con "sondas lineales" (linear probes), una técnica que intenta decodificar los pensamientos internos del modelo. Los resultados fueron contundentes. Cuando intentaron leer la "suma parcial" (el valor ĉ_k) de la mente del modelo SFT fallido, los resultados eran ruido puro: sus predicciones no tenían correlación con el valor real. En cambio, al sondear el modelo ICoT, sus pensamientos internos coincidían casi perfectamente con la solución correcta. La máquina estaba, efectivamente, "pensando" en los pasos correctos.

En esencia, el modelo ICoT no "calculaba" la respuesta de golpe. Se tomaba su tiempo y la construía paso a paso, utilizando partes de su propia arquitectura como memoria temporal. Había reinventado el mismo método de "borrador" que un humano usaría, pero lo hizo en el espacio abstracto de sus conexiones neuronales. Este descubrimiento fue revelador, pero la pregunta más profunda persistía. ¿Qué sucedía exactamente dentro de "Capa 1: Almacenar"? ¿Cómo "calcula" esa neurona el producto 3 × 7?

Una sinfonía de Fourier: la forma de los números

La respuesta a esa pregunta es la parte más asombrosa del estudio, un salto conceptual que parece sacado de la física teórica. Los Transformers no "ven" los números como nosotros. Nosotros vemos "3" y "7" como cantidades discretas, como símbolos. El modelo exitoso aprendió que tratarlos de esa manera era ineficiente.

En su lugar, aprendió a representar cada dígito (del 0 al 9) usando una base de Fourier. Este es un concepto fundamental del procesamiento de señales. Una transformada de Fourier permite tomar cualquier señal compleja (como una nota musical, una onda de radio o la vibración de una cuerda) y descomponerla en una suma de ondas simples (senos y cosenos). Es el modo en que el oído descompone un acorde en sus notas individuales.

El modelo ICoT descubrió por sí mismo que cada dígito, del 0 al 9, podía ser representado de forma única como una "sinfonía" específica de estas ondas simples. El número "3" no era "3", sino que se convirtió en una firma de onda particular. El "7" se convirtió en otra firma de onda completamente distinta.

Aquí es donde reside la magia. El modelo descubrió que si los números se representan de esta manera, la multiplicación se vuelve "fácil" y se transforma en una operación diferente: una suma de Minkowski. Este es un concepto de la geometría que describe cómo "sumar" dos formas geométricas. Para ponerlo en una analogía simple: el modelo descubrió que, en el universo de "ondas de Fourier" que había creado, la operación geométrica de "sumar" las formas de onda del "3" y el "7" (la suma de Minkowski de sus representaciones) daba como resultado una nueva forma de onda que, al ser decodificada, correspondía precisamente a la representación del número "21".

El modelo había descubierto un atajo computacional de una elegancia matemática pasmosa: que la multiplicación en el dominio de los números enteros (una operación difícil) es equivalente a la adición geométrica en el dominio de Fourier (una operación fácil). Es una solución brillante, eficiente y completamente ajena a la intuición humana.

Cuando los investigadores usaron técnicas de reducción de dimensionalidad (como PCA) para visualizar la "forma" de estas representaciones de dígitos en el "cerebro" del modelo, encontraron la prueba visual de esta teoría. Los diez dígitos (0-9) no estaban dispersos al azar. Formaban una estructura geométrica perfecta y hermosa: un prisma pentagonal. Los cinco dígitos pares (0, 2, 4, 6, 8) formaban un pentágono en un extremo del prisma, y los cinco dígitos impares (1, 3, 5, 7, 9) formaban un pentágono idéntico en el otro. El modelo había organizado los números en el espacio de una manera que hacía que las operaciones geométricas de la multiplicación fueran lo más sencillas posible. Había inventado su propia matemática.

Lecciones desde el interior de la caja negra

Este informe de Google DeepMind y sus colaboradores es mucho más que la solución a un acertijo académico. Es una "Piedra de Rosetta" para la ciencia de la interpretabilidad de la IA. Su importancia trasciende la aritmética y nos proporciona una visión sin precedentes de cómo una red neuronal puede crear espontáneamente mecanismos computacionales estructurados para resolver un problema.

En el plano científico, el trabajo de Bai, Viégas, Wattenberg y el equipo es una victoria para el campo de la "interpretabilidad". Durante décadas, estas redes neuronales han sido criticadas como "cajas negras" opacas: sistemas que dan respuestas correctas sin que podamos entender por qué. Este estudio demuestra que no tiene por qué ser así. Demuestra que dentro de estas cajas negras no hay fantasmas, sino mecanismos. Algoritmos legibles y analizables que emergen del proceso de aprendizaje. Nos da un método para pasar de ser meros "entrenadores" de la IA a ser "ingenieros inversos" de sus mentes emergentes. Abre la puerta a diagnosticar fallos en el razonamiento de la IA no por sus síntomas (malas respuestas), sino por sus causas (un mecanismo interno defectuoso).

Tecnológicamente, el estudio es una crítica directa y demoledora a nuestros métodos de entrenamiento estándar. Nos dice que si queremos que la IA sea fiable, robusta y capaz de un verdadero razonamiento algorítmico, no podemos seguir entrenándola con atajos. El método SFT, que premia la respuesta final por encima del proceso, es inherentemente vago y produce modelos que son "loros estocásticos" superficialmente elocuentes pero fundamentalmente incompetentes. Métodos como la "cadena de pensamiento" (ya sea implícita o explícita) no son un truco; son esenciales para forzar a los modelos a abandonar los óptimos locales y construir los motores de razonamiento complejos que realmente necesitamos. De hecho, el equipo validó esto introduciendo una "pérdida auxiliar" (un pequeño empujón en la dirección correcta durante el entrenamiento) que también solucionó el problema, demostrando que el modelo estándar solo necesita la guía correcta.

Finalmente, este descubrimiento tiene una profunda y urgente relevancia social. Estamos en el proceso de delegar tareas críticas de razonamiento (en finanzas, en derecho, en ciencia y en medicina) a estos mismos sistemas. El fracaso en la multiplicación es una poderosa advertencia de humildad. Nos recuerda que la fluidez verbal no implica comprensión. La capacidad de un modelo para generar un párrafo convincente sobre una estrategia legal no garantiza que pueda seguir la lógica algorítmica de esa misma estrategia.

Este estudio nos equipa con las herramientas para exigir más a nuestras creaciones. Nos permite ir más allá de la superficie de la elocuencia y empezar a preguntar: "Entiendo lo que dices, pero ¿puedes mostrarme tu trabajo?". Nos da un lenguaje para auditar no solo las respuestas de la IA, sino también sus pensamientos. Al final, el enigma de la multiplicación nos enseña que el verdadero objetivo no es construir una inteligencia que simplemente nos asombre, sino una que podamos entender y, por lo tanto, en la que podamos confiar.

Referencias

Bai, X., Pres, I., Deng, Y., Tan, C., Shieber, S., Viégas, F., Wattenberg, M., & Lee, A. (2025). Why Can't Transformers Learn Multiplication? Reverse-Engineering Reveals Long-Range Dependency Pitfalls. arXiv:2510.00184 [cs.LG].

Kantamneni, S., & Tegmark, M. (2025). Language Models Use Trigonometry to Do Addition. arXiv:2502.00873 [cs.LG].

Nanda, N., Chan, L., Lieberum, T., Smith, J., & Steinhardt, J. (2023). Progress Measures for Grokking via Mechanistic Interpretability. arXiv:2301.05217 [cs.LG].

La geometría secreta del pensamiento de la inteligencia artificial