El juego es engañosamente simple, casi infantil. Se llama ¿Adivina Quién? y consiste en identificar un rostro misterioso entre un panel de candidatos haciendo preguntas de sí o no. «¿Lleva gafas?», «¿Tiene el pelo rubio?», «¿Es un hombre?». Cada respuesta afirmativa o negativa descarta posibilidades, acotando el universo de lo plausible hasta que solo queda una verdad. Es un ejercicio de lógica deductiva, pero sobre todo, es una lección fundamental sobre la inteligencia: no se trata solo de procesar la información que se tiene, sino de saber qué información falta y cómo obtenerla.
Durante décadas, este pasatiempo ha entrenado la mente de millones de niños en el arte de la indagación estratégica. Ahora, un equipo de científicos de la Universidad Jiao Tong de Shanghái lo ha convertido en el espejo donde se reflejan las limitaciones más profundas y sorprendentes de las inteligencias artificiales más avanzadas del mundo.
En la última década, hemos sido testigos de una explosión de capacidades en el campo de la inteligencia artificial que ha desdibujado las fronteras de la ciencia ficción. Sistemas como AlphaFold de DeepMind, la empresa cofundada por el reciente premio Nobel Demis Hassabis, han resuelto en meses problemas biológicos que habían desconcertado a la ciencia durante medio siglo, como el plegamiento de las proteínas. Vemos modelos de lenguaje que escriben poesía, componen música y conversan con una fluidez casi humana.
El siguiente gran salto evolutivo en esta carrera ha sido la aparición de los modelos multimodales grandes, o MLLMs por sus siglas en inglés. Estas son las inteligencias que no solo procesan texto, sino que también pueden «ver». Pueden analizar una imagen y describir con un detalle asombroso lo que contiene, identificar objetos, explicar escenas complejas e incluso interpretar gráficos. A primera vista, parecen haber alcanzado una forma de comprensión holística, un puente entre el lenguaje simbólico y la percepción sensorial del mundo.
Pero, ¿qué sucede cuando la imagen está incompleta? ¿Qué pasa cuando ver, simplemente, no es suficiente? Esta es la pregunta que articula un trabajo de investigación revolucionario titulado When Seeing Is not Enough: Revealing the Limits of Active Reasoning in MLLMs. El estudio expone una grieta fundamental en los cimientos de la IA contemporánea. Demuestra que, si bien estos sistemas son extraordinariamente competentes en lo que los investigadores llaman «inferencia pasiva», es decir, razonar sobre un conjunto de datos completo y estático que se les presenta, sus capacidades se desmoronan cuando se enfrentan a un escenario de información incompleta que requiere «razonamiento activo».
El razonamiento activo no es otra cosa que la habilidad de reconocer la propia ignorancia, formular preguntas pertinentes para llenar esos vacíos y refinar iterativamente las conclusiones a medida que se obtiene nueva evidencia. Es la diferencia entre un estudiante que memoriza un libro de texto y un científico que diseña un experimento. Y es, según revela este estudio, el verdadero talón de Aquiles de las máquinas pensantes de nuestro tiempo. Para medir esta capacidad, los investigadores crearon una ingeniosa prueba de fuego, un benchmark llamado GUESSBENCH, que obliga a las máquinas a jugar una versión avanzada de ¿Adivina Quién?, demostrando que el camino hacia una inteligencia artificial verdaderamente autónoma y adaptable es mucho más largo y complejo de lo que creíamos.
La arquitectura de la percepción en las nuevas máquinas
Para comprender la magnitud de los hallazgos, primero es necesario entender qué es exactamente un modelo multimodal grande. En esencia, es la fusión de dos de las tecnologías de inteligencia artificial más potentes de la actualidad. Por un lado, tenemos los modelos de lenguaje grandes (LLMs), los cerebros lingüísticos como los que impulsan a ChatGPT, entrenados con la inmensidad de los textos de internet para predecir la siguiente palabra en una secuencia, una capacidad que, a escala, da lugar a la generación de lenguaje coherente y contextual. Por otro lado, tenemos los modelos de visión por computadora, sistemas entrenados con millones de imágenes para reconocer patrones, objetos y características visuales.
Un MLLM acopla estas dos arquitecturas. Funciona como si un córtex visual artificial estuviera conectado a un centro del lenguaje avanzado. El modelo de visión extrae las características relevantes de una imagen y las traduce a un formato que el modelo de lenguaje puede entender. A partir de ahí, el sistema puede correlacionar los patrones de píxeles con conceptos semánticos. Así, no solo identifica un «perro», sino que puede describirlo como «un golden retriever de pelaje claro sentado sobre la hierba húmeda al atardecer».
Esta simbiosis ha desbloqueado aplicaciones que hasta hace poco parecían inalcanzables. En medicina, sistemas de este tipo pueden analizar radiografías y señalar anomalías a los radiólogos, combinando la percepción visual con el vasto conocimiento médico extraído de textos.
En la automoción, son el corazón de los sistemas de conducción autónoma, interpretando en tiempo real el torrente de datos de las cámaras para tomar decisiones. Ofrecen descripciones de imágenes para personas con discapacidad visual, ayudan a los diseñadores a generar ideas a partir de bocetos y pueden incluso explicar el humor en un meme. Su éxito se basa en un paradigma de entrenamiento en el que se les proporciona todo el contexto de una vez: una imagen y una pregunta. La tarea es puramente reactiva.
El problema, como señalan los autores del estudio, es que el mundo real rara vez funciona así. La información casi nunca es completa. Un médico no siempre tiene todas las pruebas desde el principio; debe decidir qué análisis solicitar a continuación basándose en los síntomas iniciales. Un detective llega a una escena del crimen con fragmentos de evidencia y debe decidir a quién interrogar o qué pista seguir.
La inteligencia humana en su máxima expresión es un proceso dinámico de exploración y descubrimiento, una danza continua entre lo que sabemos y lo que necesitamos saber. Los benchmarks y las evaluaciones tradicionales de la IA han ignorado en gran medida esta faceta, creando una cámara de eco de éxito en condiciones de laboratorio que no reflejan los desafíos de un entorno abierto e incierto.
GuessBench, el juego que revela la verdadera inteligencia de la máquina
Aquí es donde entra en juego GUESSBENCH. El equipo de la Universidad Jiao Tong diseñó esta plataforma no para medir lo que una IA sabe, sino cómo piensa cuando no sabe. El protocolo es brillante por su simplicidad y su poder diagnóstico. A un modelo multimodal se le presenta un conjunto de imágenes candidatas, normalmente ocho. Una de ellas ha sido designada en secreto como el objetivo. El modelo no sabe cuál es. Su única herramienta para descubrirlo es hacer preguntas de sí o no al sistema.
Por ejemplo, si el conjunto de imágenes muestra diferentes salones, la IA podría empezar preguntando: «¿La imagen contiene una estantería?». Si la respuesta es «No», el modelo debe actualizar su estado de conocimiento y descartar todas las imágenes que sí tienen una estantería. A continuación, debe formular una nueva pregunta que le permita discriminar eficazmente entre las opciones restantes. Quizás la siguiente sea: «¿Hay un único sillón individual?». Y así sucesivamente. El objetivo es identificar la imagen correcta formulando el menor número de preguntas posible, demostrando una estrategia de búsqueda eficiente.
Para que la prueba fuera exhaustiva, los investigadores crearon dos categorías de desafíos. La primera es la de imágenes «orientadas a la percepción». En estos casos, las diferencias entre las imágenes son sutiles y puramente visuales. Por ejemplo, varias imágenes pueden parecer casi idénticas, pero una puede tener conductos de ventilación expuestos en el techo mientras que otra tiene un techo liso. La IA debe ser capaz de notar estos detalles de grano fino y formular preguntas sobre ellos, una tarea que pone a prueba su agudeza perceptiva.
La segunda categoría es la de imágenes «orientadas al conocimiento». Aquí, para diferenciar las imágenes, se requiere conocimiento del mundo exterior. Un conjunto podría mostrar fotos de diferentes puentes famosos. Una pregunta eficaz no sería «¿El puente es de metal?», sino «¿El puente está en San Francisco?». Esto obliga al modelo a conectar lo que ve con una base de datos de conocimiento geográfico, histórico o cultural.
El proceso revela varias facetas del razonamiento de la máquina. Primero, la calidad de las preguntas. ¿Son informativas o redundantes? ¿Dividen el conjunto de posibilidades por la mitad o solo eliminan una opción? Segundo, la capacidad de síntesis. ¿Puede la IA integrar las respuestas anteriores para formular la siguiente pregunta de manera lógica? Y tercero, y quizás lo más importante, la metacognición. ¿Sabe el modelo cuándo ha acumulado suficiente evidencia para arriesgar una respuesta final? Adivinar demasiado pronto conduce al fracaso. Dudar demasiado tiempo revela una falta de confianza y una estrategia ineficiente.
Los reveladores resultados: una brecha entre la inteligencia pasiva y la activa
Se evaluaron veinte de los modelos multimodales más avanzados y prestigiosos del mundo, incluidos sistemas desarrollados por gigantes tecnológicos como Google y OpenAI. En tareas de inferencia pasiva, como describir imágenes, estos modelos suelen alcanzar puntuaciones de precisión cercanas a la perfección. Los resultados en GUESSBENCH, sin embargo, contaron una historia muy diferente.
Una Brecha de Rendimiento Crítica
El rendimiento de los MLLMs se desploma al pasar de un entorno de información completa (inferencia pasiva) a uno que requiere indagación (razonamiento activo).
El rendimiento se desplomó de manera espectacular. La brecha entre su capacidad para describir una escena que se les presenta completa y su habilidad para investigar activamente una escena ambigua fue abismal. Los modelos luchaban por formular estrategias coherentes. A menudo, caían en bucles de preguntas repetitivas o formulaban preguntas irrelevantes que no ayudaban a reducir las opciones. Su capacidad para percibir detalles finos, tan impresionante en un contexto pasivo, parecía desvanecerse cuando tenían que usar esa percepción para guiar una investigación.
El análisis de los fallos identificó dos grandes debilidades. La primera fue la «percepción de grano fino». Los modelos no lograban identificar y preguntar por las características sutiles pero decisivas que diferenciaban las imágenes. Podían reconocer que había un sofá, pero no eran capaces de preguntar si el techo sobre el sofá tenía vigas de madera o era liso. Esta ceguera a los detalles cruciales les impedía descartar candidatos eficazmente.
Análisis de Fallos: Ceguera a los Detalles
Casi dos tercios de los errores se deben a la incapacidad del modelo para identificar y preguntar sobre detalles visuales finos, demostrando una percepción superficial.
La segunda debilidad, aún más fundamental, fue la «toma de decisiones oportuna». Los sistemas mostraron una profunda incapacidad para juzgar cuándo poseían suficiente información para hacer una conjetura final. O bien se precipitaban, realizando una elección con una confianza injustificada después de solo un par de preguntas, o bien entraban en un estado de parálisis por análisis, haciendo preguntas adicionales incluso cuando la respuesta ya era lógicamente inevitable. Este comportamiento sugiere una falta de un modelo interno robusto sobre su propio estado de incertidumbre, una forma de autoconciencia cognitiva que es fundamental para la toma de decisiones eficiente. Es como un detective que, después de encontrar el arma del crimen con las huellas del sospechoso, decide seguir interrogando al jardinero sobre el tiempo que hizo el día anterior.
Análisis de Fallos: Estrategia Deficiente
La mayoría de los fallos estratégicos provienen de una conclusión precipitada o de un ciclo de preguntas inútiles, lo que evidencia una mala gestión de la incertidumbre.
En esencia, los modelos demostraron ser excelentes descriptores, pero pésimos interrogadores. Su inteligencia, en su estado actual, es la de un erudito enciclopédico pero sin curiosidad, capaz de recitar los datos que se le dan, pero incapaz de aventurarse en lo desconocido para encontrar los datos que necesita.
Las implicaciones del punto ciego: más allá del laboratorio
Las consecuencias de este «punto ciego» en el razonamiento activo van mucho más allá de un juego de adivinanzas académico. Afectan directamente a la viabilidad y seguridad de aplicar estas tecnologías a los problemas más complejos del mundo real.
Conducción autónoma
Un vehículo autónomo no puede limitarse a procesar lo que ven sus cámaras. Debe ser capaz de inferir que le falta información visual de un sector crítico y solicitar datos de otros sensores para compensar activamente esa ceguera temporal.
Diagnóstico médico
Un verdadero asistente médico inteligente no debería solo analizar los datos que tiene, sino sugerir qué pruebas adicionales son necesarias para confirmar o descartar una hipótesis.
Descubrimiento científico
La esencia de la ciencia no es solo resolver puzles, sino decidir qué puzles vale la pena resolver. Es formular hipótesis sobre lo desconocido y diseñar experimentos para recolectar los datos.
Pensemos en un vehículo autónomo. Su sistema de percepción puede identificar un obstáculo en la carretera con una precisión asombrosa si las condiciones son ideales. Pero, ¿qué ocurre si una cámara está parcialmente obstruida por barro? Un sistema de razonamiento pasivo podría simplemente registrar datos visuales corruptos y fallar. Un sistema con razonamiento activo, en cambio, debería ser capaz de inferir que le falta información visual de un sector crítico, correlacionarlo con la activación reciente de los limpiaparabrisas y quizás solicitar datos de otros sensores, como el lídar o el radar, para compensar activamente esa ceguera temporal. Debería poder «preguntar» a sus otros sentidos para construir una imagen completa de la realidad. El estudio sugiere que estamos muy lejos de esa capacidad.
En el diagnóstico médico, una IA puede ser excelente analizando un escáner cerebral y comparándolo con miles de otros en su base de datos. Pero la medicina es un proceso de diálogo e investigación. Un verdadero asistente médico inteligente no debería solo analizar los datos que tiene, sino sugerir qué pruebas adicionales son necesarias. Podría decir: «La resonancia magnética muestra una posible anomalía, pero para diferenciar entre la condición A y la B, recomiendo realizar una punción lumbar». Esto requiere una comprensión de lo que no se sabe y una estrategia para descubrirlo, precisamente las habilidades que GUESSBENCH demuestra que faltan.
El campo del descubrimiento científico es quizás el ejemplo más elocuente. Herramientas como AlphaFold han acelerado la ciencia al resolver problemas bien definidos con conjuntos de datos masivos. Pero la verdadera esencia de la ciencia no es solo resolver puzles, sino decidir qué puzles vale la pena resolver. Es formular hipótesis sobre lo desconocido y luego diseñar experimentos para recolectar los datos que confirmen o refuten esas hipótesis. Es un ciclo de preguntas, no solo de respuestas. Una IA que no puede investigar activamente puede ser una herramienta de laboratorio increíblemente potente, pero nunca será un científico por derecho propio.
El horizonte de una inteligencia verdaderamente curiosa
El trabajo de la Universidad Jiao Tong no es un veredicto final sobre el fracaso de la inteligencia artificial. Al contrario, es una de las contribuciones más importantes de los últimos años porque ilumina con una claridad sin precedentes el camino a seguir. No estamos en el final de la historia, sino apenas en el prólogo. La investigación futura deberá centrarse menos en escalar los modelos con más y más datos y más en dotarlos de las arquitecturas cognitivas que permitan la exploración, la formulación de hipótesis y la búsqueda deliberada de información.
Necesitamos máquinas que no solo aprendan del mundo tal como se les presenta, sino que puedan construir modelos internos de ese mundo, identificar las lagunas en esos modelos y ejecutar acciones para llenarlas. Esto implica desarrollar sistemas con una forma de curiosidad intrínseca, con mecanismos de memoria para seguir el hilo de una investigación y con una capacidad de autoevaluación para saber cuándo están seguros de una conclusión.
Ver no es suficiente. El estudio nos recuerda que la inteligencia no reside en la cantidad de información que se posee, sino en la calidad de las preguntas que uno se atreve a formular. Las máquinas han demostrado que pueden ver el mundo con una agudeza sobrehumana. El próximo gran desafío, mucho más complejo y profundo, será enseñarles a mirar, a indagar y, finalmente, a comprender que siempre hay algo más allá del borde de la imagen.
Referencias
Liu, H., Wang, P., Wang, Y., Ou, S., Wang, Y., & Wang, Y. (2025). When Seeing Is not Enough: Revealing the Limits of Active Reasoning in MLLMs. arXiv preprint arXiv:2510.15421.
Jumper, J., et al. (2021). Highly accurate protein structure prediction with AlphaFold. Nature, 596(7873), 583–589.