Por qué los cerebros digitales fallan en problemas infantiles

Grietas en el espejo: por qué los sistemas de cómputo avanzado todavía tropiezan con la lógica de un niño

Un estudio profundo de instituciones como Stanford y Caltech revela que, detrás de la elocuencia de los modelos de lenguaje, persiste una fragilidad cognitiva que desafía nuestra comprensión del razonamiento sintético y cuestiona la solidez de sus aplicaciones actuales.

Por el equipo editorial | 11 de febrero, 2026

Alicia tiene cuatro hermanas y un hermano. ¿Cuántas hermanas tiene el hermano de Alicia? Para cualquier niño de primaria, la respuesta es una obviedad inmediata: cinco. Sin embargo, al plantear este acertijo a los sistemas más sofisticados del planeta, aquellos capaces de aprobar exámenes de abogacía o diagnosticar enfermedades raras, la respuesta suele ser un asombroso y seguro: cuatro. Este fenómeno, documentado por investigadores de Caltech y la Universidad de Stanford, no es una anécdota aislada, sino el síntoma de una patología profunda en la arquitectura de lo que hoy denominamos inteligencia.

La elocuencia ha sido el gran caballo de Troya de la tecnología moderna. Al interactuar con estos agentes lingüísticos, su fluidez nos seduce hasta hacernos creer que existe un proceso deliberativo similar al humano detrás de cada palabra. Pero un nuevo y exhaustivo mapa de fallos revela que estamos ante un espejo deformante. Estos sistemas operan sobre una base de predicción estadística tan avanzada que imita la razón, pero cuando la estructura lógica se aleja un ápice de los patrones habituales de entrenamiento, el castillo de naipes se derrumba. Es lo que los científicos han empezado a llamar el colapso de la composición.

El reciente análisis sistemático presentado por académicos como Peiyang Song y Noah Goodman expone una taxonomía de fracasos que van desde lo trivial hasta lo existencial para la industria. No se trata simplemente de falta de datos o de potencia de cálculo; se trata de debilidades intrínsecas en la forma en que estas redes neuronales procesan la información. Al dividir estos errores en categorías fundamentales, específicas y de robustez, el estudio nos obliga a replantearnos si realmente estamos construyendo mentes o simplemente loros estocásticos de una escala sin precedentes.

🧩 Escenario 1: El colapso de la Teoría de la Mente

El experimento: Se le narra al sistema que Sam ve una bolsa transparente llena de palomitas pero etiquetada como chocolate. Sam lee la etiqueta.

El fallo: Al preguntar qué cree Sam que hay dentro, el sistema responde chocolate con un noventa y cinco por ciento de probabilidad. A pesar de que Sam está mirando directamente las palomitas, el modelo prioriza la etiqueta textual sobre la lógica de la percepción ajena.

Raíz del problema: Una incapacidad de atribuir estados mentales ajenos de forma consistente, lo que en psicología se conoce como fracaso en la Teoría de la Mente.

La paradoja del genio que olvida sus propias premisas

Uno de los hallazgos más inquietantes es la debilidad en las llamadas funciones ejecutivas. En los seres humanos, la memoria de trabajo nos permite retener y manipular información durante periodos cortos para resolver problemas complejos. Los modelos actuales, a pesar de sus inmensas ventanas de contexto, sufren de lo que se denomina interferencia proactiva. La información previa degrada la capacidad de asimilar datos nuevos, provocando que el sistema se aferre a patrones antiguos incluso cuando las reglas del juego han cambiado drásticamente. Un ejemplo recurrente es el error A-no-B, donde el modelo persiste en dar una respuesta que fue correcta en un contexto anterior pero que ya no lo es en la situación presente.

La flexibilidad cognitiva es otra asignatura pendiente. Cuando se les somete a pruebas clásicas de psicología, como el Test de Clasificación de Tarjetas de Wisconsin, estos agentes muestran una rigidez asombrosa. Si aprenden a clasificar por color y de repente la regla cambia a forma, su precisión cae en picado. No logran inhibir la respuesta impulsiva basada en el hábito estadístico. Esta incapacidad para el cambio de paradigma sugiere que no existe una comprensión de la regla en sí, sino una adherencia ciega a la probabilidad de la secuencia observada billones de veces durante su entrenamiento.

        Nota del investigador: Los modelos actuales sufren de una ceguera representacional. Al no percibir la estructura interna de las palabras o los conceptos individuales, sino fragmentos numéricos llamados tokens, su comprensión del mundo es puramente superficial y carente de anclaje físico.
    

Bajo esta misma luz aparece el sesgo de confirmación algorítmico. Al igual que los humanos, estos sistemas tienden a favorecer hipótesis iniciales y buscar evidencias que las respalden, ignorando alternativas plausibles. Si se les pide que prueben una regla numérica, generarán ejemplos que la confirmen en lugar de intentar refutarla. Esta tendencia se ve amplificada por el diseño de las arquitecturas de atención, que dispersan el foco en tareas complejas, perdiendo el hilo conductor de la lógica pura en favor de la sonoridad del lenguaje. Es, en esencia, una memoria prodigiosa disfrazada de entendimiento analítico.

🔄 Escenario 2: La maldición de la reversibilidad

La lógica: Si Mary Lee Pfeiffer es la madre de Tom Cruise, entonces Tom Cruise es el hijo de Mary Lee Pfeiffer.

El fallo: El sistema responde correctamente a la primera afirmación, pero al preguntarle quién es el hijo de Mary Lee Pfeiffer, admite frecuentemente desconocer la respuesta.

Causa técnica: Las arquitecturas actuales se entrenan para predecir el siguiente término en una secuencia, lo que impide crear una base de conocimiento bidireccional sólida, un principio fundamental de la razón humana.

El laberinto de la deducción y los muros del lenguaje

Este problema se extiende al razonamiento compositivo, la capacidad de unir piezas de conocimiento para llegar a una conclusión nueva. Los modelos actuales pueden conocer el hecho X y el hecho Y por separado, pero fracasan sistemáticamente al intentar integrarlos en una deducción de dos pasos. A medida que aumenta la profundidad de la composición o se añaden elementos distractores, la precisión se desploma. Es como tener un bibliotecario que recuerda cada página de cada libro pero es incapaz de conectar una idea del tomo uno con una consecuencia en el tomo dos, un fallo que invalida su uso en investigaciones científicas profundas.

Incluso las matemáticas revelan grietas profundas. El conteo básico de caracteres o palabras sigue siendo un desafío humillante para sistemas que pueden resolver ecuaciones diferenciales. Esto se debe a que el modelo no cuenta del mismo modo que nosotros. Al fragmentar las palabras en tokens, pierde la noción de la letra individual. Es una inconsistencia que se manifiesta incluso en los modelos especializados en razonamiento, los cuales pueden fallar en tareas aritméticas simples como determinar cuántas veces aparece una letra específica en una cadena de texto aparentemente sencilla.

Tasa de error sistémico según la modalidad de razonamiento. Nótese cómo la precisión colapsa en entornos físicos y lógicos formales comparado con el lenguaje informal.

La aritmética elemental no escapa a esta fragilidad. A medida que el número de dígitos aumenta, los modelos dejan de calcular para empezar a estimar. Dependen de atajos heurísticos y de la coincidencia de patrones superficiales. Investigaciones demuestran que tienen más éxito identificando el primer dígito de un resultado que el último, una inconsistencia que sería imposible para cualquier algoritmo de cálculo tradicional. No están operando con algoritmos matemáticos internos, sino con una mímica de los resultados que han visto anteriormente en su inmenso océano de datos.

⚠️ Riesgos de la dependencia ciega

Atrofia del instinto crítico: Delegar decisiones lógicas a sistemas que fallan en la inversión de premisas básicas puede generar errores en cadena indetectables para el ojo humano desprevenido.

Inseguridad física: En robótica, el fallo en el razonamiento de alcance (affordance) provoca que los agentes intenten acciones imposibles, como agarrar objetos por su parte más frágil o ignorar la gravedad.

Sesgo corporativo: Los fallos a menudo reflejan los prejuicios de los datos de entrenamiento, perpetuando errores lógicos que el sistema presenta como verdades irrefutables.

Una mente sin cuerpo ante el desafío del mundo físico

Quizás la limitación más profunda sea la falta de anclaje en la realidad física. El razonamiento encarnado es aquel que surge de interactuar con el mundo: saber que una taza se rompe si cae, que el fuego quema o que un objeto grande no cabe en una caja pequeña. Los modelos actuales son mentes en un vacío, cerebros en una cubeta de datos que jamás han experimentado la gravedad o la resistencia de los materiales. Esta carencia se traduce en predicciones imposibles y planes de acción absurdos cuando se les pide que operen en entornos tridimensionales complejos.

En el ámbito de la visión, los modelos actuales muestran una vulnerabilidad similar. Aunque pueden describir una imagen con gran detalle, a menudo fallan en detectar anomalías físicas evidentes, como sombras que caen en direcciones opuestas o personas patinando sobre suelos de madera como si fuera hielo. Sufren de lo que en ciencia cognitiva se conoce como el problema de vinculación, la incapacidad de procesar múltiples objetos distintos y sus relaciones espaciales de forma simultánea. Ven las partes, pero no comprenden el todo dinámico que rige nuestra realidad cotidiana.

✅ Opciones para una mejora futura

Sistemas de verificación formal: Integrar asistentes de prueba matemáticos que filtren las alucinaciones del lenguaje mediante reglas lógicas inquebrantables.

Escalado en tiempo de inferencia: Permitir que el sistema genere pensamientos intermedios antes de dar la respuesta final, mejorando la coherencia en deducciones de varios pasos.

Entrenamiento bidireccional: Modificar la arquitectura para que aprenda relaciones en ambos sentidos, mitigando la maldición de la reversibilidad.

A medida que nos adentramos en una era donde estos sistemas gestionarán infraestructuras críticas, comprender estas fallas se vuelve una prioridad de seguridad global. La propuesta de los investigadores no es el pesimismo, sino la transparencia necesaria para construir herramientas seguras. Solo reconociendo que estamos ante dispositivos de una potencia lingüística inmensa pero de una fragilidad lógica persistente, podremos diseñar las salvaguardas adecuadas. El objetivo no es que los sistemas dejen de fallar, sino que sus fallos sean predecibles, transparentes y, sobre todo, recuperables ante la intervención humana.

Fuentes y Referencias

Song, P., Han, P., & Goodman, N. (2026). "Large Language Model Reasoning Failures". Transactions on Machine Learning Research (01/2026).

Berglund, L., et al. (2023). "The reversal curse: LLMs trained on 'A is B' fail to learn 'B is A'". arXiv:2309.12288.

Gong, D., & Zhang, H. (2024). "Self-attention limits working memory capacity of transformer-based models". arXiv:2409.10715.

Ullman, T. (2023). "Large language models fail on trivial alterations to theory-of-mind tasks". arXiv:2302.08399.

Shin, A., & Kaneko, K. (2024). "Large language models lack understanding of character composition of words". arXiv:2405.11357.

Mirzadeh, I., et al. (2024). "GSM-Symbolic: Understanding the limitations of mathematical reasoning in LLMs". arXiv:2410.05229.

Por qué los cerebros digitales fallan en problemas infantiles