NEWSLETTER

MIRA: el benchmark que revela la ceguera espacial de la IA

Generated Image November 12, 2025 - 4_31PM

MIRA: el benchmark que revela la ceguera espacial de la IA

Cuando dibujar es pensar: MIRA revela el talón de Aquiles de la inteligencia artificial
Los modelos de lenguaje más avanzados del mundo, incluyendo GPT-5 y Gemini 2.5 Pro, fracasan estrepitosamente cuando deben resolver problemas que requieren visualización intermedia. Un nuevo benchmark llamado MIRA demuestra que estos sistemas alcanzan apenas un 16.5% de precisión en tareas donde los humanos naturalmente dibujan para pensar. La brecha revela una limitación fundamental: mientras el razonamiento puramente textual domina el diseño actual, los problemas espaciales, geométricos y físicos exigen representaciones visuales que las máquinas no pueden generar. Cuando se proporcionan imágenes intermedias anotadas manualmente, el rendimiento mejora un 33.7%, señalando tanto la importancia crítica del razonamiento visual como la urgencia de desarrollar sistemas capaces de "pensar mientras dibujan". ByteDance, UNC-Chapel Hill, UC Santa Cruz y Stanford presentan 546 problemas cuidadosamente diseñados que abarcan desde envolturas convexas hasta dados rodantes, exponiendo cómo el pensamiento puramente lingüístico colapsa ante desafíos que un humano resolvería con lápiz y papel.

La inteligencia artificial ha conquistado territorios que hace una década parecían inexpugnables. Traduce idiomas con fluidez nativa, diagnostica enfermedades con precisión clínica, programa aplicaciones complejas y mantiene conversaciones indistinguibles de las humanas. Sin embargo, existe una frontera donde estos sistemas colapsan sistemáticamente: aquella que requiere visualizar para razonar.

Un equipo de investigadores de ByteDance Seed, UNC-Chapel Hill, UC Santa Cruz y Stanford acaba de exponer esta brecha con claridad perturbadora. Su trabajo, materializado en un benchmark llamado MIRA (Imaginación Multimodal para Evaluación de Razonamiento), presenta 546 problemas diseñados meticulosamente, en los que la generación de representaciones visuales intermedias no es opcional sino indispensable para alcanzar la respuesta correcta. Los resultados sacuden las certezas sobre las capacidades reales de los modelos más avanzados disponibles.

GPT-5, el sistema más reciente de OpenAI, alcanza apenas un 16.5% de precisión cuando debe resolver estos problemas sin ayuda visual. Gemini 2.5 Pro de Google obtiene un 16.9%. El modelo o3, también de OpenAI y diseñado específicamente para razonamiento avanzado, llega al 16.4%. Ningún sistema evaluado supera el 20% de aciertos. Para contextualizar la magnitud del fracaso: estos mismos modelos logran entre un 70% y un 85% de precisión en benchmarks establecidos como MMMU, MMStar y RealWorldQA.

La diferencia no es trivial ni se explica por un incremento en la dificultad. Revela algo más profundo: una desconexión fundamental entre cómo las máquinas razonan y cómo los humanos abordan ciertos tipos de problemas. Cuando un humano enfrenta la pregunta "¿cuántos puntos rojos caen dentro de la intersección de dos envolturas convexas formadas por puntos azules y verdes?", instintivamente dibuja las envolturas sobre el papel. Cuando debe determinar la cara superior de un dado después de una secuencia de rotaciones, visualiza mentalmente cada giro. Estas operaciones mentales, tan automáticas que rara vez las reconocemos como habilidades, constituyen obstáculos insuperables para sistemas diseñados para operar exclusivamente en el espacio textual.

La ilusión del razonamiento completo

El paradigma dominante en inteligencia artificial durante los últimos años ha sido el Chain-of-Thought, o cadena de pensamiento. La idea es elegante: en lugar de exigir que un modelo salte directamente a la respuesta, se le solicita que articule pasos intermedios en lenguaje natural. Este enfoque ha producido mejoras dramáticas en aritmética, razonamiento lógico y comprensión de múltiples pasos. Sin embargo, descansa sobre un supuesto implícito que MIRA desafía frontalmente: que el lenguaje natural es suficiente para representar todos los estados intermedios relevantes de cualquier proceso de razonamiento.

Esta suposición colapsa ante problemas inherentemente visuales. Cuando se le pide a GPT-5 que determine qué cable cortar para desactivar una bomba en una caja donde los cables cambian de dirección solo en puntos visibles, el modelo intenta verbalizar trayectorias ocultas. Sus descripciones textuales se vuelven laberínticas, contradictorias, imposibles de seguir. En contraste, un humano simplemente traza las líneas mentalmente o con lápiz, conectando los puntos de entrada y salida. La respuesta emerge de la visualización, no de la verbalización.

Los investigadores diseñaron MIRA basándose en tres principios fundamentales. Cada problema debe requerir genuinamente información visual intermedia para resolverse. Cada instancia debe estar acompañada de imágenes intermedias anotadas manualmente que representen los pasos visuales que un humano usaría. Y cada ejemplo debe pasar por una validación cruzada rigurosa para garantizar una respuesta única y no ambigua.

El resultado es un conjunto de 546 problemas distribuidos en cuatro dominios desafiantes: Geometría Euclidiana, Razonamiento Basado en Física, Rompecabezas Espaciales y Lógicos Abstractos, y Transformaciones Causales. Cada categoría captura un aspecto diferente del razonamiento visual. La geometría exige comprensión de envolturas convexas, superposiciones de formas y conteos espaciales. La física requiere simular trayectorias de bolas de billar que rebotan en cojines o determinar fuerzas netas sobre cargas eléctricas. Los rompecabezas involucran desplegar cubos, ensamblar piezas o contar estructuras tridimensionales desde vistas ortogonales. Las transformaciones causales rastrean estados cambiantes de objetos a través del tiempo, como dados rodantes o engranajes giratorios.

Rendimiento de modelos líderes en MIRA versus benchmarks establecidos. La caída dramática expone limitaciones del razonamiento puramente textual.

Tres niveles de evaluación, una verdad incómoda

La arquitectura de evaluación de MIRA introduce una jerarquía de tres niveles diseñada para aislar exactamente dónde y cómo fallan los modelos. El nivel uno es la evaluación directa: el sistema recibe solo la imagen inicial y la pregunta, sin pistas adicionales. Debe producir la respuesta final inmediatamente. Este escenario refleja cómo operarían estos modelos desplegados en aplicaciones reales sin intervención humana.

El nivel dos introduce el razonamiento Text-CoT: se solicita al modelo que genere una cadena de pensamiento textual antes de responder. Esto replica el paradigma que ha demostrado efectividad en otros dominios. El nivel tres implementa un Visual-CoT simulado: dado que los modelos actuales no pueden generar imágenes intermedias relevantes durante el razonamiento, los investigadores proporcionan manualmente las imágenes que un humano crearía como ayuda visual. Estas incluyen diagramas de envolturas convexas dibujadas, trayectorias de reflexión de bolas de billar, estados intermedios de los dados después de cada rotación y estructuras tridimensionales construidas paso a paso.

Los resultados de esta arquitectura revelan tres hallazgos que cuestionan suposiciones fundamentales del campo. El razonamiento Text-CoT, lejos de ayudar, frecuentemente perjudica el rendimiento. Gemini 2.5 Pro cae de 16.9% a 13.8% cuando se le pide razonar textualmente. El modelo o3 desciende de 16.4% a 14.1%. Esta degradación es especialmente pronunciada en las categorías más difíciles: rompecabezas y transformaciones causales, donde Text-CoT reduce la precisión un promedio de 4.2% y 2.6%, respectivamente, para los modelos propietarios.

La explicación se vuelve clara al examinar los intentos de razonamiento textual. Los modelos generan descripciones verborrágicas que intentan capturar relaciones espaciales complejas mediante palabras. Estas descripciones rápidamente se vuelven imposibles de seguir, incluso para los humanos. El modelo pierde la coherencia de su propio razonamiento, contradiciéndose entre pasos o introduciendo errores geométricos que solo serían evidentes con una visualización.

El caso de las envolturas convexas: Cuando se enfrenta al problema de contar puntos rojos dentro de la intersección de dos envolturas convexas (una azul, una verde), GPT-5 intenta verbalizar: "La envoltura azul abarca aproximadamente desde (0.10, 0.40) hasta (0.66, 0.69), mientras la verde se extiende desde (0.02, 0.35) hasta (0.79, 0.97)...". La descripción continúa por párrafos densos, intentando determinar qué puntos rojos caen dentro de la región de intersección mediante coordenadas textuales. Falla, y concluye erróneamente que 4 puntos están en la intersección cuando la respuesta correcta es 7. En contraste, cuando se proporciona una imagen intermedia con las envolturas dibujadas, el mismo modelo identifica correctamente los 7 puntos de inmediato, porque puede verificar visualmente en lugar de calcular textualmente.

El hallazgo más significativo emerge del nivel tres: cuando se proporcionan pistas visuales intermedias, todos los modelos mejoran dramáticamente. GPT-5-mini salta de 13.7% a 23.2%. El promedio general muestra una ganancia relativa del 33.7%. En tareas de física, donde visualizar trayectorias es crítico, la mejora es aún más pronunciada: los modelos propietarios casi duplican su rendimiento, pasando de 20.7% a 40.0%.

Este patrón sostiene una conclusión incómoda: los modelos poseen capacidades perceptuales y de razonamiento que permanecen inaccesibles porque no pueden generar las representaciones visuales intermedias necesarias para desbloquearlas. Las imágenes anotadas manualmente actúan como muletas cognitivas, compensando una habilidad ausente. El rendimiento mejorado no proviene de un nuevo conocimiento, sino de un formato transformado: la misma información, presentada visualmente en lugar de describirse textualmente, permite un razonamiento exitoso.

Modelo Directo Text-CoT Visual-CoT Mejora relativa
GPT-5 16.5% 17.2% 25.9% +56.9%
GPT-5-mini 13.7% 12.9% 23.2% +69.3%
o3 16.4% 14.1% 23.4% +42.7%
Gemini 2.5 Pro 16.9% 13.8% 18.9% +11.8%
Qwen2.5-VL (72B) 13.1% 11.5% 16.2% +23.7%
GLM 4.5V (106B) 13.1% 13.0% 18.0% +37.4%

Ampliando el espacio de búsqueda: cuando más intentos no bastan

Los investigadores exploraron si el problema es simplemente probabilístico: quizás los modelos ocasionalmente razonan correctamente, pero sus respuestas correctas se pierden entre múltiples intentos incorrectos. Para probar esta hipótesis, implementaron la evaluación pass@k, donde el modelo genera k respuestas diferentes y se considera exitoso si al menos una es correcta. También aplicaron la votación por mayoría, tomando la respuesta más frecuente entre ocho intentos.

Los resultados son esclarecedores. Expandir el espacio de búsqueda ayuda, pero con rendimientos decrecientes muy marcados. Entre pass@1 y pass@4, el rendimiento mejora un promedio del 15.3%. Entre pass@4 y pass@8, la mejora cae a apenas un 3.0%. Gemini 2.5 Flash y GPT-5 muestran ganancias mínimas entre estos niveles: 1.3% y 0.6% respectivamente. La votación por mayoría proporciona mejoras igualmente modestas: 5.1% para Gemini 2.5 Flash, y apenas 0.3% para Gemini 2.5 Pro.

El patrón revela que los fracasos no son errores aleatorios sino deficiencias sistemáticas. Los modelos más débiles se benefician más de múltiples intentos porque cometen errores accidentales que ocasionalmente evitan. Los modelos más fuertes muestran consistencia: fallan de la misma manera repetidamente porque carecen de la capacidad fundamental necesaria. Ninguna cantidad de intentos adicionales compensa una habilidad ausente.

El rendimiento por categoría revela que los rompecabezas espaciales presentan el desafío más severo, mientras la física muestra el mayor beneficio de Visual-CoT.

El caso del reloj espejo y la envoltura convexa

Dos ejemplos ilustran vívidamente las limitaciones expuestas. El problema del reloj espejo presenta la imagen de un reloj reflejado en un espejo. La pregunta solicita determinar la hora que será en 3 horas y 5 minutos. Un humano inmediatamente visualiza la reflexión del reloj, interpreta la hora reflejada y suma el tiempo indicado. GPT-5 intenta resolverlo textualmente: describe los ángulos de las manecillas, calcula transformaciones de coordenadas, confunde las direcciones de rotación horaria y antihoraria. Su razonamiento textual, aunque extenso y aparentemente lógico, concluye con una respuesta incorrecta.

Cuando se proporciona una imagen intermedia que muestra el reloj después de la reflexión, con las manecillas claramente visibles en sus posiciones transformadas, GPT-5 resuelve el problema instantáneamente. La visualización elimina la carga cognitiva de mantener transformaciones geométricas en la memoria textual. Este patrón se repite consistentemente: los problemas donde los humanos dibujarían naturalmente un diagrama intermedio son precisamente aquellos donde los modelos fracasan sin ayuda visual pero triunfan con ella.

El problema de la envoltura convexa citado anteriormente ofrece una disección aún más detallada. Los investigadores documentan el razonamiento completo de GPT-5 con y sin ayuda visual. Sin visualización, el modelo intenta construir las envolturas convexas mediante descripciones de coordenadas. Identifica puntos extremos verbalmente, describe bordes inclinados mediante ecuaciones textuales, y enumera los puntos rojos uno por uno, verificando textualmente si caen dentro de las regiones descritas geométricamente. El proceso es laborioso, propenso a errores y, finalmente, incorrecto.

Con la imagen intermedia que muestra ambas envolturas dibujadas y su intersección sombreada, el mismo modelo adopta una estrategia radicalmente diferente: identifica visualmente los polígonos formados, localiza la región de intersección oscurecida y cuenta directamente los puntos rojos dentro de esa región. El razonamiento es conciso, directo y correcto. La diferencia no es de inteligencia sino de formato: información idéntica, presentada visualmente en lugar de textualmente, habilita un razonamiento exitoso.

Geografía inesperada del talento artificial

La distribución geográfica de usuarios de Lovable, mencionada en el artículo sobre "vibe coding" del usuario, ofrece un paralelo interesante. Kenia lidera con un 12.78% de usuarios, seguida por Estados Unidos, India, Camerún y Brasil. Esta distribución sugiere que las herramientas que democratizan las capacidades técnicas encuentran una adopción más fuerte donde la escasez de talento tradicional es mayor. MIRA sugiere un paralelo inverso: las capacidades que los modelos de IA más avanzados no poseen son precisamente aquellas que los humanos sin entrenamiento técnico ejecutan naturalmente.

Un niño de 11 años puede resolver intuitivamente problemas de MIRA que derrotan a GPT-5. Esto no refleja una superioridad cognitiva general del niño, sino la posesión de una habilidad específica: la visualización espacial integrada con el razonamiento. La inteligencia artificial ha conquistado dominio tras dominio mediante la escala computacional y la optimización estadística, pero tropieza ante habilidades que emergen del hecho de que los humanos poseen cuerpos que navegan en un espacio tridimensional desde la infancia.

Arquitecturas unificadas: la promesa incumplida

Los investigadores evaluaron dos clases de modelos de código abierto: aquellos enfocados exclusivamente en la comprensión visual, como Qwen2.5-VL y GLM 4.5V, y modelos unificados con capacidades tanto de comprensión como de generación, como Bagel y Janus-Pro. La hipótesis era que los modelos unificados, arquitectónicamente capaces de generar imágenes, mostrarían una mayor capacidad para integrar información visual intermedia.

Los resultados son matizados. Los modelos unificados efectivamente muestran ganancias con Visual-CoT: Bagel mejora un 17.3%, y Janus-Pro un 46.9%. Sin embargo, su rendimiento base permanece muy inferior al de los modelos propietarios y al de los de comprensión especializada. Bagel alcanza apenas un 7.5% en la evaluación directa; Janus-Pro un 4.9%. Incluso con Visual-CoT, Bagel llega solo al 8.8%, y Janus-Pro al 7.2%.

La brecha expone que poseer una arquitectura unificada no equivale a un razonamiento visual integrado. Los modelos unificados actuales se entrenan predominantemente en generación fotorrealista o síntesis descriptiva, no en crear diagramas abstractos específicos para tareas que asistan al razonamiento. Un modelo puede generar impresionantes imágenes de gatos o paisajes sin poseer la capacidad de dibujar un diagrama de fuerzas que ayude a resolver un problema de física. Las habilidades son ortogonales.

El impacto de Visual-CoT varía dramáticamente por categoría. La física muestra los beneficios más grandes, mientras los rompecabezas permanecen desafiantes incluso con ayuda visual.

Prompts especializados: cerrando la brecha textual

En un experimento final, los investigadores diseñaron prompts Text-CoT especializados para cada uno de los 20 tipos de tareas. En lugar de instrucciones genéricas como "razona paso a paso", estos prompts proporcionan una orientación específica del dominio. Para problemas de envolturas convexas, el prompt instruye: "Analiza los puntos y determina los vértices de la envoltura convexa... identifica los puntos extremos que no pueden expresarse como una combinación convexa de otros puntos... cuenta cuántos puntos objetivo contendría esta envoltura...". Para problemas de relojes espejo, especifica: "Refleja la cara del reloj... registra los ángulos de las manecillas después de reflejar... convierte los ángulos reflejados de vuelta a tiempo...". Para dados rodantes, detalla: "Lista la situación de cada cara del dado después de cada rotación, marca la superior y la inferior...".

Los prompts especializados mejoran el rendimiento modestamente. Los modelos propietarios ganan un promedio del 1.4%, y los de código abierto un 1.5%. Sin embargo, estas mejoras palidecen comparadas con el salto del 4.7% que Visual-CoT proporciona a los modelos propietarios. Incluso con una guía textual óptima, el razonamiento puramente lingüístico no puede capturar completamente la información espacial que la visualización transmite instantáneamente.

Este resultado subraya el límite inherente del texto como medio. El lenguaje natural evolucionó para comunicar eventos, intenciones, relaciones causales y narrativas. Captura pobremente configuraciones espaciales complejas, transformaciones geométricas y estados físicos dinámicos. Ciertos tipos de información se resisten a la compresión lingüística sin una pérdida catastrófica. Una imagen de envolturas convexas superpuestas comunica más que párrafos de descripción de coordenadas, porque explota una representación bidimensional directa en lugar de una codificación simbólica unidimensional.

Implicaciones para sistemas autónomos y robótica

Las limitaciones expuestas por MIRA tienen consecuencias directas para las aplicaciones del mundo real. Considérese un vehículo autónomo que debe planear un adelantamiento a un camión en una carretera rural. La decisión requiere estimar trayectorias de múltiples agentes móviles, calcular ventanas temporales seguras y anticipar cambios en la visibilidad de la curva. Un humano visualiza mentalmente el escenario completo, proyectando posiciones futuras en un espacio-tiempo integrado.

Un sistema basado puramente en razonamiento textual intentaría describir verbalmente estas relaciones espaciotemporales complejas. La latencia sería inaceptable. La precisión, dudosa. MIRA demuestra que incluso los modelos más avanzados fallan en problemas espaciales mucho más simples que los enfrentados por vehículos reales. La brecha entre los benchmarks y el despliegue seguro sigue siendo vasta.

La robótica enfrenta desafíos similares. Un robot manipulador debe razonar sobre configuraciones tridimensionales de objetos, planear secuencias de agarre que eviten colisiones y anticipar la estabilidad de ensamblajes parcialmente construidos. Estas tareas son fundamentalmente espaciales. Un sistema que no puede visualizar estados intermedios dependerá de heurísticas preprogramadas rígidas en lugar de un razonamiento flexible y adaptativo.

Los investigadores sugieren que MIRA proporciona una hoja de ruta: los sistemas futuros necesitarán capacidades integradas de generación visual durante el razonamiento. No una generación de imágenes fotorrealistas arbitrarias, sino una síntesis específica de tarea de diagramas, bocetos y representaciones estructurales que asista al pensamiento. Un agente que enfrente un problema de envolturas convexas debería poder dibujar las envolturas como un paso intermedio de su proceso de razonamiento, exactamente como lo haría un humano con lápiz y papel.

Paradigmas de entrenamiento: el largo camino adelante

Crear sistemas con la verdadera capacidad de "pensar mientras dibujan" requiere repensar fundamentalmente los paradigmas de entrenamiento. Los modelos actuales se entrenan en corpus masivos de texto, con imágenes ocasionales como entradas, pero rara vez como salidas intermedias de razonamiento. Los datos de entrenamiento no capturan cómo los humanos usan la visualización para resolver problemas, porque estos procesos internos permanecen invisibles en las transcripciones textuales.

Un enfoque prometedor involucra recopilar trazas detalladas de la resolución humana de problemas, capturando no solo las respuestas finales, sino cada boceto, diagrama y visualización intermedia. Los investigadores de MIRA han dado el paso inicial al proporcionar 936 imágenes intermedias anotadas manualmente para sus 546 problemas. Sin embargo, escalar esto a millones de ejemplos requerirá una infraestructura significativa y colaboración interdisciplinaria.

Arquitectónicamente, los modelos necesitarán capacidades más sofisticadas de generación condicional multimodal. En lugar de alternar rígidamente entre consumir imágenes y producir texto, deberían poder entrelazar la generación de visualizaciones relevantes dentro de secuencias de razonamiento. Esta intercalación (interleaving) no es trivial: requiere que el modelo reconozca cuándo la visualización ayudaría, determine qué tipo de visualización sería útil, genere esa visualización y luego la incorpore en los pasos subsiguientes.

Los resultados subrayan tanto los límites del razonamiento puramente textual como las promesas del visual. MIRA proporciona una plataforma de evaluación reproducible y un sistema métrico para el desarrollo y la comparación de métodos futuros. La urgencia es clara: los sistemas que dependen exclusivamente del razonamiento textual enfrentan un techo fundamental en muchos problemas del mundo real.

Dibujando el futuro

MIRA expone con claridad incómoda que los modelos de lenguaje más sofisticados del mundo operan con una ceguera parcial severa. No son ciegos a las imágenes en el sentido perceptual; estos sistemas pueden ver y describir escenas visuales con una precisión impresionante. Su ceguera es más sutil y fundamental: la incapacidad para generar las representaciones visuales intermedias que desbloquean un razonamiento exitoso en dominios espaciales, geométricos y físicos.

Esta limitación no es un defecto menor que una escala computacional adicional resolverá. Es una consecuencia arquitectónica de diseñar sistemas que razonan exclusivamente mediante el lenguaje natural. El lenguaje es una herramienta poderosa, pero no universal. Algunos problemas se resisten a la descripción textual eficiente. Para estos, la visualización no es una decoración, sino una necesidad cognitiva.

El camino adelante requiere reconocer que una inteligencia genuinamente flexible demanda múltiples modalidades de representación y razonamiento. Así como los humanos integramos el lenguaje, la visión, la audición y la sensación física en una cognición unificada, los sistemas artificiales necesitarán combinar el procesamiento textual, visual y potencialmente otras modalidades en arquitecturas verdaderamente multimodales, donde la información fluya bidireccionalmente entre las representaciones.

Los 546 problemas de MIRA son solo el comienzo. Representan una fracción minúscula del espacio de tareas donde la visualización intermedia es crítica. La medicina diagnóstica, el diseño de ingeniería, la planificación urbana y el análisis científico involucran un razonamiento espacial y visual extensivo. A medida que la inteligencia artificial busque conquistar estos dominios, enfrentará repetidamente la brecha que MIRA expone: la distancia entre describir y visualizar, entre narrar y mostrar, entre palabras y diagramas.

Cerrar esta brecha requerirá una innovación sostenida en arquitecturas de modelos, paradigmas de entrenamiento y metodologías de evaluación. MIRA proporciona la métrica. Las imágenes intermedias anotadas manualmente ofrecen la prueba de existencia de que el problema es resoluble: los humanos lo resuelven rutinariamente. Lo que permanece es cerrar la distancia entre la capacidad demostrada y la realidad artificial.

Mientras tanto, los resultados advierten contra sobrestimar las capacidades actuales. Un sistema que alcanza un 85% de precisión en tareas de comprensión visual pero colapsa al 16.5% cuando debe visualizar para razonar no está cerca de la inteligencia general. Domina un tipo de tarea mientras falla completamente en otra igualmente importante. El progreso real se medirá no solo por qué tan bien los modelos responden preguntas sobre imágenes proporcionadas, sino por qué tan efectivamente generan las imágenes que necesitan para razonar.

La historia de la inteligencia artificial está marcada por momentos donde limitaciones previamente invisibles se vuelven obvias súbitamente. MIRA representa uno de esos momentos. Expone que el pensamiento visual no es un lujo, sino un componente esencial de un razonamiento robusto. Los sistemas que aspiran a una inteligencia genuina no pueden eludir esta realidad. Deben aprender, como lo hacen los humanos, que a veces el camino hacia la respuesta correcta comienza no con palabras, sino con lápiz, papel y el acto fundamental de dibujar para pensar.

Referencias

Zhou, Y., Tu, H., Wang, Z., Wang, Z., Muennighoff, N., Nie, F., Choi, Y., Zou, J., Deng, C., Yan, S., Fan, H., Xie, C., Yao, H., & Ye, Q. (2025). When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought. arXiv:2511.02779.

Wei, J., Wang, X., Schuurmans, D., Bosma, M., Xia, F., Chi, E., Le, Q. V., & Zhou, D. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. Advances in Neural Information Processing Systems, 35, 24824-24837.

Yue, X., Ni, Y., Zhang, K., Zheng, T., Liu, R., Zhang, G., Stevens, S., Jiang, D., Ren, W., Sun, Y., et al. (2024). MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 9556-9567.

OpenAI. (2025). GPT-5 System Card. Reporte técnico.

Comanici, G., Bieber, E., Schaekermann, M., Pasupat, I., Sachdeva, N., Dhillon, I., et al. (2025). Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities. arXiv:2507.06261.

Chen, J., Xu, Z., Pan, X., Hu, Y., Qin, C., Goldstein, T., Huang, L., Zhou, T., Xie, S., Savarese, S., et al. (2025). Blip3-o: A Family of Fully Open Unified Multimodal Models-Architecture, Training and Dataset. arXiv:2505.09568.

Bai, S., Chen, K., Liu, X., Wang, J., Ge, W., Song, S., Dang, K., Wang, P., Wang, S., Tang, J., et al. (2025). Qwen2.5-VL Technical Report. arXiv:2502.13923.

Hu, Y., Shi, W., Fu, X., Roth, D., Ostendorf, M., Zettlemoyer, L., Smith, N. A., & Krishna, R. (2024). Visual Sketchpad: Sketching as a Visual Chain of Thought for Multimodal Language Models. Advances in Neural Information Processing Systems, 37, 139348-139379.

Kahneman, D. (2011). Thinking, Fast and Slow. Farrar, Straus and Giroux.

ByteDance Seed. (2025). MIRA Benchmark Project Page. https://mira-benchmark.github.io/

Recent Posts

Generated Image November 15, 2025 - 2_58AM

La “granja de portátiles”: el arma secreta de Corea del Norte

  Cinco ciudadanos estadounidenses se declararon culpables de operar ‘granjas de portátiles’ para blan
Read More
815fb62d-1f9f-41f9-8bb7-e8bbde4e5928

De archivador a investigador: la nueva era de NotebookLM

  NotebookLM deja de ser un simple anotador. Sus nuevas funciones de investigación automatizada y generación mult
Read More

Para estar informado, Ingresá o Creá tu cuenta en MundoIA...

Sign In

Recordá revisar la carpeta de "no deseados", el correo puede llegar allí