La frontera final de la inteligencia sintética no resultó ser la creatividad artística ni la profundidad filosófica, como anticipaban las obras de ciencia ficción. El verdadero obstáculo ha resultado ser mucho más prosaico y, a la vez, insuperablemente complejo: entender qué está delante y qué está detrás. Existe una ironía fundamental en el desarrollo tecnológico actual: hemos fabricado mentes digitales capaces de aprobar exámenes de abogacía y medicina con honores, pero que tropiezan, tanto metafóricamente como literalmente si tuvieran cuerpo, al intentar navegar una habitación desordenada.
Esta disonancia entre la competencia lingüística y la torpeza espacial es el núcleo de una investigación reciente y exhaustiva titulada SpatialBench. Este trabajo, desarrollado por un consorcio de investigadores de instituciones de prestigio como la Universidad Sun Yat-Sen y la Universidad de Pekín, arroja luz sobre una de las sombras más persistentes en el desarrollo de la inteligencia general: la cognición espacial. Hasta ahora, la evaluación de los Grandes Modelos de Lenguaje Multimodales, conocidos por sus siglas en inglés como MLLM, se basaba en premisas simples, como identificar un gato en una fotografía. Sin embargo, saber que el felino existe es irrelevante si el sistema no comprende que el animal está a tres metros de distancia, oculto parcialmente tras un sofá y bloqueando la trayectoria hacia la salida.
El Estándar SpatialBench
El estudio introduce el S-Score, una métrica unificada que evalúa 15 tareas distintas. A diferencia de las pruebas anteriores que solo median la identificación ("¿qué es esto?"), este nuevo marco exige medición y acción ("¿qué tan lejos está?" y "¿cómo llego ahí?").
El estudio propone un cambio de paradigma crucial. En lugar de tratar la visión artificial como una habilidad monolítica y plana, los autores argumentan que la inteligencia espacial es una estructura jerárquica, una pirámide de competencias que asciende desde la mera observación hasta la planificación compleja. SpatialBench no es solo un examen; es un mapa de la ignorancia actual de nuestras máquinas y una hoja de ruta hacia un futuro donde los asistentes digitales puedan, finalmente, operar en el mundo tridimensional con la misma soltura con la que operan en el mundo del texto.
La arquitectura de la percepción espacial
Para comprender la magnitud del aporte de este paper, debemos primero desmantelar nuestra propia intuición. Los seres humanos damos por sentada la ubicación espacial. No necesitamos realizar cálculos conscientes para saber que la taza de café está al alcance de la mano o que debemos girar el torso para esquivar una silla. Esta fluidez es producto de millones de años de evolución biológica en un entorno físico. Las inteligencias artificiales, por el contrario, son entidades nativas del mundo digital, entrenadas con secuencias de datos unidimensionales o matrices de píxeles estáticos. Para ellas, el concepto de profundidad o distancia es una abstracción matemática, no una realidad vivida.
El documento académico establece que la mayoría de los bancos de pruebas existentes, los llamados benchmarks, adolecen de un reduccionismo peligroso. Simplifican la cognición espacial a métricas unidimensionales que no logran capturar la interdependencia de las habilidades necesarias para habitar un entorno real. Para subsanar esta deficiencia, los investigadores han diseñado una taxonomía que descompone la inteligencia espacial en cinco niveles progresivos de complejidad. Esta estructura permite identificar con precisión quirúrgica dónde se rompe la ilusión de competencia de modelos tan avanzados como GPT-4o o Gemini.
La Pirámide de Cognición Espacial
La cúspide. Requiere orquestar movimientos complejos ("encuentra la cocina y trae la taza"). Aquí es donde la IA actual falla dramáticamente.
Manipulación mental. Capacidad de inferir lo invisible o predecir vistas tras un movimiento ("si giro a la izquierda, ¿qué veré?").
El salto cuántico. Estimar distancias reales, volúmenes y tamaños en 3D a partir de una imagen plana.
Relaciones posicionales relativas. Comprender conceptos como "izquierda", "detrás", "encima" o "entre".
La base. Reconocer qué objetos existen en la escena. La IA moderna ya domina este nivel.
El primer escalón de esta escalera cognitiva es la Semántica Espacial. Se trata del nivel más básico, donde el sistema debe reconocer la existencia y la categoría de los objetos dentro de un entorno, así como sus atributos fundamentales. Es el equivalente digital a un niño aprendiendo a señalar y nombrar cosas. Aquí, la mayoría de los modelos modernos muestran un desempeño robusto, casi humano. Identificar una silla, una mesa o una persona es una tarea que la visión por computadora ha dominado en gran medida gracias a décadas de entrenamiento supervisado.
Sin embargo, la dificultad aumenta exponencialmente al ascender al segundo nivel: la Referencia Espacial. En esta etapa, ya no basta con saber qué hay en la imagen; el sistema debe comprender las relaciones posicionales entre los elementos. Conceptos como izquierda, derecha, encima, debajo o entre entran en juego. Aunque parece trivial, para una red neuronal esto implica decodificar la geometría de la escena y entender que la posición es relativa al observador o a otros objetos. SpatialBench revela que, si bien los modelos pueden describir estas relaciones en escenarios sencillos, comienzan a vacilar cuando la escena se satura de elementos o cuando la perspectiva es inusual.
El abismo de la medición y el razonamiento
La verdadera fractura entre la percepción humana y la sintética se hace evidente en el tercer nivel de la jerarquía propuesta: la Medición Espacial. Aquí es donde la ilusión de inteligencia comienza a desmoronarse dramáticamente. Esta competencia exige que el modelo estime distancias, dimensiones y orientaciones en un espacio tridimensional, a menudo a partir de una imagen bidimensional. Cuando se le pregunta a un modelo avanzado a cuántos metros está ese coche o qué objeto es más grande, el que está en primer plano o el que está al fondo, las respuestas suelen ser alucinaciones estadísticas.
El problema radica en que los MLLM carecen de una comprensión intrínseca de la física y la óptica. No tienen un sentido innato de la escala. Para un modelo de lenguaje, la diferencia entre un metro y un kilómetro es semántica, no experiencial. Los investigadores de SpatialBench demostraron que, en tareas de estimación métrica, incluso los sistemas comerciales más sofisticados fallan estrepitosamente, ofreciendo cifras que desafían la lógica del sentido común. Esta limitación es crítica, pues sin la capacidad de medir, cualquier intento de interacción física, como la que realizaría un robot doméstico, se vuelve potencialmente peligrosa.
Más arriba en la pirámide se encuentra el Razonamiento Espacial. Este nivel requiere una manipulación mental del entorno. No se trata solo de ver lo que está ahí, sino de inferir lo que no se ve o predecir cómo cambiaría la escena bajo ciertas condiciones. Un ejemplo clásico sería preguntar: Si camino hacia la cocina y giro a la izquierda, ¿qué veré?. Para responder, el modelo debe construir un mapa mental, situarse virtualmente en él y simular un movimiento. Los resultados obtenidos en el estudio indican que la capacidad de razonamiento espacial de las IAs actuales es frágil y poco fiable, dependiendo en gran medida de patrones aprendidos en lugar de una verdadera comprensión geométrica.
La cúspide de esta jerarquía es la Planificación Espacial, el santo grial de la robótica y la navegación autónoma. Este nivel integra todas las competencias anteriores para ejecutar secuencias de acciones orientadas a un objetivo. Implica trazar rutas, evitar obstáculos y anticipar consecuencias. Si el razonamiento espacial es imaginar el movimiento, la planificación es orquestar una coreografía compleja en un entorno dinámico. Como era de esperar, este es el dominio donde los modelos actuales muestran las mayores deficiencias, a menudo sugiriendo rutas imposibles o acciones que violan las leyes de la física.
Metodología y rigor: cómo se mide lo intangible
La construcción de SpatialBench no fue una tarea menor. Los autores recopilaron y curaron meticulosamente datos provenientes de diversas fuentes para crear un conjunto de evaluación que abarca 15 tareas distintas. Utilizaron conjuntos de datos ya existentes y respetados en la comunidad científica, como nuScenes para la conducción autónoma o ScanNet para interiores tridimensionales, pero los reconfiguraron para desafiar específicamente las capacidades cognitivas de los modelos de lenguaje multimodales.
Una de las innovaciones más destacadas del paper es la introducción de una métrica unificada denominada S-Score. En el pasado, comparar el desempeño de un modelo en una tarea de respuesta a preguntas visuales (VQA) con una tarea de detección de objetos (bounding box) era como comparar peras con manzanas. Cada tarea tenía sus propias métricas de éxito: precisión, recuperación, distancia de edición, entre otras. El S-Score normaliza estos resultados, permitiendo una comparación directa entre diferentes habilidades y modelos. Esto proporciona una visión holística de la inteligencia espacial general de un sistema, en lugar de una colección fragmentada de estadísticas.
El estudio evaluó una amplia gama de modelos, dividiéndolos en dos categorías principales: los de código cerrado o propietarios, como GPT-4o de OpenAI y Gemini 1.5 Pro de Google, y los de código abierto, como LLaVA o Qwen-VL. Esta distinción es crucial para entender el estado del arte, ya que los modelos propietarios suelen tener una escala de entrenamiento y recursos computacionales muy superiores.
Los hallazgos son reveladores y, en cierto modo, humillantes para la industria tecnológica. Existe una estratificación clara en el rendimiento. Mientras que los modelos de vanguardia alcanzan puntuaciones respetables en semántica y referencia espacial, su rendimiento cae en picada al enfrentarse a la medición y el razonamiento. Se observa una brecha significativa entre los modelos propietarios y los de código abierto, aunque incluso los líderes del mercado están lejos de alcanzar una competencia similar a la humana en los niveles superiores de la jerarquía.
El fracaso del pensamiento en cadena
Uno de los descubrimientos más fascinantes y contraintuitivos que emerge de la lectura detallada de SpatialBench es la ineficacia de ciertas técnicas de prompting que han demostrado ser milagrosas en otros dominios. En el campo del razonamiento lógico o matemático textual, la técnica conocida como Chain of Thought (Cadena de Pensamiento), que consiste en pedirle al modelo que explique paso a paso su razonamiento antes de dar una respuesta final, suele mejorar drásticamente los resultados.
Sin embargo, en el dominio espacial, esta técnica mostró beneficios marginales o incluso nulos. Los investigadores postulan que esto se debe a la naturaleza de la información espacial. El espacio es continuo, simultáneo y geométrico, mientras que el lenguaje es secuencial, discreto y simbólico. Intentar forzar una comprensión espacial a través de una descomposición lingüística paso a paso puede no ser el mecanismo adecuado. Es posible que el cerebro humano, y por ende una inteligencia artificial que aspire a imitarlo, procese el espacio de una manera fundamentalmente distinta a como procesa el lenguaje. Esta resistencia de los problemas espaciales a ser resueltos mediante más palabras sugiere que necesitamos nuevas arquitecturas o modalidades de entrenamiento que incorporen la geometría de manera nativa, y no solo como una traducción a texto.
El abismo entre el 2D y el 3D es otro tema recurrente en el análisis. Los modelos entrenados predominantemente con imágenes de internet (fotografías estáticas) desarrollan una ceguera de profundidad. Pueden identificar que hay una manzana y una naranja en una mesa, pero les cuesta horrores determinar cuál está más cerca de la cámara si no hay pistas visuales obvias como la oclusión o la perspectiva forzada. SpatialBench expone que la transición de la comprensión de imágenes 2D a la comprensión de entornos 3D no es automática; requiere un tipo de inferencia que los modelos actuales no han desarrollado completamente.
La importancia de los datos sintéticos y reales
Para construir un banco de pruebas robusto, el equipo detrás de SpatialBench tuvo que equilibrar el uso de datos del mundo real con entornos sintéticos. Los datos reales, capturados por cámaras en calles o interiores de casas, ofrecen la complejidad y el ruido propios de la realidad. Las texturas son imperfectas, la iluminación varía y los objetos no siempre están claramente delimitados. Esto es esencial para probar la robustez de los modelos.
Por otro lado, los entornos sintéticos generados por computadora permiten un control absoluto sobre la verdad terreno, conocida técnicamente como ground truth. En una simulación, sabemos con precisión milimétrica la distancia entre dos puntos o el volumen exacto de un objeto. Esta dualidad permitió a los investigadores evaluar tanto la capacidad de los modelos para lidiar con la imperfección visual como su precisión matemática en escenarios controlados.
Un aspecto crítico que aborda el estudio es la alucinación espacial. A diferencia de una alucinación textual, donde el modelo inventa un dato histórico, la alucinación espacial implica ver cosas que no están ahí o ubicarlas donde no corresponde. En tareas de planificación de rutas, esto puede ser catastrófico. Imaginemos un robot asistente que alucina una puerta abierta donde hay una pared de cristal. El paper documenta casos donde los modelos, confundidos por reflejos o sombras, sugieren trayectorias físicamente imposibles, lo que subraya la necesidad de integrar algún tipo de sentido común físico en el proceso de entrenamiento.
Implicaciones para la robótica y la industria
La relevancia de SpatialBench trasciende el ámbito académico de la visión por computadora y golpea directamente en las aspiraciones de la industria de la robótica. Durante años, se ha prometido la llegada de robots domésticos generales, capaces de doblar la ropa, cocinar o limpiar una casa desordenada. Empresas como Tesla con su Optimus, o Figure AI, están invirtiendo miles de millones en este sueño. Sin embargo, si el cerebro de estos robots, que cada vez más se basa en MLLMs, no puede distinguir con precisión la profundidad o planificar una ruta sin chocar, esos robots seguirán siendo demostraciones controladas en lugar de productos útiles.
El documento sugiere que la integración de la visión y el lenguaje no es suficiente. Se necesita un tercer pilar: la acción y la física. La inteligencia espacial es, en última instancia, inteligencia para la acción. Saber que hay una taza no sirve de nada si no sé cómo mover mi mano para agarrarla sin tirarla. Los bajos puntajes en las tareas de planificación dentro de SpatialBench son una señal de advertencia para la industria: la mera escala (hacer modelos más grandes con más datos de internet) podría no ser suficiente para resolver el problema espacial. Es probable que se requieran datos de entrenamiento que incluyan propiocepción y física, algo que el texto y las imágenes estáticas no pueden proporcionar por sí solos.
Además, el estudio tiene implicaciones para la conducción autónoma. Aunque los vehículos autónomos utilizan sensores especializados como LiDAR y radar, la tendencia actual es moverse hacia sistemas basados puramente en visión y redes neuronales de extremo a extremo, conocidas como end-to-end. Si estos sistemas comparten las mismas debilidades cognitivas que los MLLMs evaluados en SpatialBench, especialmente en situaciones nuevas o ambiguas, los llamados casos de borde, la seguridad podría verse comprometida. La capacidad de razonar sobre el comportamiento de otros agentes en la vía, siendo esta una forma de razonamiento espacial y temporal, es vital, y es precisamente una de las áreas donde los modelos actuales flaquean.
La brecha entre código abierto y cerrado
Un análisis sociológico de los resultados de SpatialBench revela la creciente disparidad tecnológica. Los modelos propietarios como GPT-4o dominan consistentemente la tabla de clasificación. Esto se debe, presumiblemente, a la calidad y cantidad de sus datos de entrenamiento, así como a técnicas de alineación humana más refinadas, como el aprendizaje por refuerzo con retroalimentación humana (RLHF). Sin embargo, incluso estos titanes de la industria muestran un desempeño que apenas supera el azar en las tareas más complejas de razonamiento y medición espacial.
Por su parte, los modelos de código abierto, aunque vitales para la democratización de la tecnología, luchan por mantenerse competitivos en este dominio específico. Esto plantea interrogantes sobre el futuro de la investigación accesible. Si la cognición espacial requiere recursos computacionales masivos para ser simulada, ¿quedará este campo reservado exclusivamente para un puñado de corporaciones tecnológicas? SpatialBench, al ser un benchmark público, ofrece al menos una vara de medir común, permitiendo que la comunidad de código abierto identifique sus debilidades y concentre sus esfuerzos de manera más eficiente.
El diseño de las tareas específicas dentro del benchmark merece una mención especial por su creatividad y rigor. Por ejemplo, en la tarea de Navegación Visión-Lenguaje, no basta con que el modelo diga ve a la cocina. Debe interpretar una secuencia de imágenes y comandos para guiar a un agente paso a paso. En la tarea de Razonamiento de Espacio 3D, se le puede presentar al modelo una nube de puntos (una representación digital de un escaneo 3D) y pedirle que identifique objetos basándose en descripciones complejas de su posición. Estas pruebas obligan al modelo a salir de su zona de confort bidimensional.
El misterio de la ceguera espacial
¿Por qué es tan difícil el espacio para una IA? La respuesta podría yacer en la naturaleza misma de cómo aprenden estas redes. Los MLLM aprenden correlaciones estadísticas entre píxeles y palabras. Aprenden que la palabra perro suele aparecer junto a un patrón de píxeles con forma de perro. Pero el espacio no es solo una correlación visual; es una estructura lógica y física consistente. Un objeto no puede estar en dos lugares a la vez. Si un objeto está dentro de una caja, y muevo la caja, el objeto se mueve con ella. Estas son reglas de permanencia y transitividad que los humanos aprendemos en la etapa sensoriomotora, antes incluso de aprender a hablar.
Los modelos de lenguaje intentan aprender estas reglas de oídas, leyendo sobre ellas o viendo fotos estáticas, sin haber tenido nunca la experiencia de mover un objeto. SpatialBench pone de manifiesto que este aprendizaje indirecto tiene un techo. La inteligencia artificial parece haber llegado a un punto donde la falta de cuerpo o de interacción física directa con el entorno se convierte en un lastre cognitivo. Los errores que cometen no son errores de cálculo; son errores de concepto sobre cómo funciona la realidad física.
El estudio también aborda la cuestión de la granularidad. A menudo, los modelos fallan no porque no entiendan la escena general, sino porque no pueden procesar los detalles finos. En una tarea de conteo espacial denso (contar cuántas personas hay en una multitud), los modelos tienden a perder la cuenta o a fusionar individuos. Esto sugiere limitaciones en la resolución de su atención visual. La capacidad de atender a múltiples regiones espaciales simultáneamente y mantenerlas separadas en la memoria de trabajo es un desafío pendiente.
Hacia una inteligencia corporeizada
La publicación de SpatialBench llega en un momento crucial. La comunidad científica está empezando a girar su atención desde los chatbots puramente conversacionales hacia los agentes autónomos. Un agente es una IA que puede usar herramientas y actuar en el mundo. Para que un agente sea útil, debe entender el espacio donde opera esas herramientas. Si le pido a una IA que organice mi escritorio, necesita una comprensión espacial exquisita para saber dónde colocar cada documento sin crear una pila inestable.
Los autores del paper concluyen que necesitamos mejores datos, no solo más datos. Necesitamos datasets que capturen la causalidad espacial (qué pasa si empujo esto), la dinámica temporal y la geometría 3D explícita. También sugieren que las arquitecturas futuras de MLLM podrían necesitar módulos especializados para el procesamiento espacial, en lugar de tratar todo (texto, imagen, sonido) como una sopa homogénea de tokens. Tal vez, al igual que el cerebro humano tiene el hipocampo y la corteza parietal dedicados al procesamiento espacial, las IAs necesiten componentes arquitectónicos específicos para mapear el mundo.
El guardián que legitima el avance hacia la AGI
Al contemplar el vasto panorama que dibuja SpatialBench, nos encontramos ante una encrucijada fascinante en la historia de la tecnología. Hemos construido oráculos digitales que pueden recitar poesía, escribir código informático y diagnosticar enfermedades raras, pero que se encuentran funcionalmente perdidos en el espacio físico. Este contraste no disminuye los logros de la inteligencia artificial generativa; más bien, resalta la maravillosa complejidad de nuestra propia cognición biológica. Lo que la evolución tardó millones de años en perfeccionar, es decir, la capacidad de movernos por el mundo sin morir en el intento, resulta ser el problema computacional más arduo de todos.
La relevancia social de este trabajo es inmensa. A medida que delegamos más responsabilidades en sistemas autónomos, desde coches que nos llevan al trabajo hasta robots que cuidarán de nuestros mayores, la fiabilidad de su cognición espacial se convierte en una cuestión de seguridad pública y ética. No podemos permitirnos alucinaciones cuando hay objetos físicos y vidas humanas en juego. SpatialBench actúa como un guardián necesario, un filtro de realidad que nos impide confiar ciegamente en sistemas que, bajo su elocuencia verbal, esconden una profunda ignorancia sobre la naturaleza del mundo material.
Científicamente, este paper marca el fin de la inocencia para los modelos multimodales. Ya no basta con impresionar con demos llamativas; ahora hay una métrica, una escala y un estándar. La jerarquía de cinco niveles propuesta por los investigadores proporciona un lenguaje común para diagnosticar y mejorar estos sistemas. Nos recuerda que la verdadera inteligencia no es solo procesar información, sino situarse en un contexto, entender las relaciones entre las cosas y navegar la geometría de la existencia.
En última instancia, SpatialBench nos enseña que el camino hacia una Inteligencia Artificial General (AGI) no pasa solo por leer todo internet. Pasa por aprender a ver, a medir y a moverse. Hasta que nuestras máquinas no comprendan el espacio que ocupan, seguirán siendo visitantes turistas en nuestra realidad, observadores pasivos detrás de una pantalla de cristal, incapaces de tocar el mundo que tan perfectamente pueden describir. La próxima gran revolución de la IA no será sobre lo que dicen, sino sobre dónde están y hacia dónde van.
Referencias
Xu, P., Wang, S., Zhu, Y., Li, J., & Zhang, Y. (2025). SpatialBench: Benchmarking Multimodal Large Language Models for Spatial Cognition. arXiv preprint arXiv:2511.21471.



