En los últimos años, hemos sido testigos de una explosión en la competencia de la inteligencia artificial. Hemos visto sistemas que generan imágenes fotorrealistas a partir de descripciones textuales, asistentes que redactan correos electrónicos con una elocuencia impecable y modelos de lenguaje capaces de conversar sobre casi cualquier tema. Sin embargo, detrás de esta fachada de asombrosa fluidez, persiste una profunda limitación, un abismo conceptual que separa la percepción de la cognición. Las máquinas se han vuelto expertas en ver, oír y hablar, pero siguen tropezando estrepitosamente cuando se les pide que razonen.
Este es el gran desafío de la inteligencia artificial moderna. Un modelo puede identificar con precisión un gráfico de barras en una imagen, pero fracasa al intentar explicar qué implican esas barras para una estrategia de negocio. Puede describir una molécula, pero no inferir sus propiedades químicas en un contexto novedoso. Esta brecha entre el "qué es" y el "por qué" ha sido el territorio casi exclusivo de un puñado de sistemas colosales, desarrollados a puerta cerrada por gigantes tecnológicos con presupuestos de miles de millones de dólares. Modelos como GPT-4V de OpenAI o Gemini de Google han mostrado destellos de este razonamiento profundo, pero sus mecanismos internos permanecen ocultos, como cajas negras inaccesibles para la comunidad científica global.
Ahora, un nuevo y exhaustivo trabajo de investigación amenaza con romper este monopolio cognitivo. Un consorcio de investigadores de la Nanyang Technological University (NTU) en Singapur, la Universidad de Tsinghua en Pekín y el laboratorio emergente MiroMind AI ha publicado un artículo que no se limita a presentar un modelo más, sino que ofrece algo mucho más valioso: una receta abierta y general. El proyecto, bautizado como OpenMMReasoner, detalla un método completo para construir sistemas de inteligencia artificial con capacidades de razonamiento multimodal (es decir, que entienden texto e imágenes) que no solo superan a todas las alternativas de código abierto existentes, sino que compiten directamente con los titanes de la industria.
El documento, titulado OpenMMReasoner: Pushing the Frontiers for Multimodal Reasoning with an Open and General Recipe (OpenMMReasoner: Empujando las fronteras del razonamiento multimodal con una receta abierta y general), es una hoja de ruta para la democratización de la inteligencia artificial avanzada. La propuesta se basa en dos pilares fundamentales que atacan el núcleo del problema. Por un lado, la creación de un vasto y meticulosamente curado conjunto de datos de entrenamiento llamado SPARC, diseñado específicamente para enseñar a las máquinas a pensar paso a paso. Por otro lado, el diseño de una nueva arquitectura de modelo, TORAX, optimizada no solo para percibir, sino para reflexionar sobre la información visual de manera continua.
El resultado es un sistema que no aprende a base de fuerza bruta, sino a través de una pedagogía refinada. Es la diferencia entre memorizar un libro de texto y aprender a resolver problemas como un físico. Este avance no es meramente incremental; representa un cambio de paradigma que podría nivelar el campo de juego, permitiendo a laboratorios más pequeños y a la academia construir la próxima generación de máquinas pensantes.
El espejismo de la percepción
Para entender la magnitud de lo que OpenMMReasoner ha logrado, primero debemos diseccionar el fracaso de sus predecesores. El campo de la IA está lleno de lo que se conoce como Grandes Modelos Multimodales o LMMs (por sus siglas en inglés, Large Multimodal Models). Estos sistemas han sido entrenados con miles de millones de imágenes y sus correspondientes descripciones, extraídas de la vasta biblioteca de internet. Este entrenamiento les ha otorgado una asombrosa capacidad de percepción visual. Pueden identificar razas de perros, leer matrículas, transcribir texto borroso y describir escenas complejas.
La brecha cognitiva actual
Identificación de objetos
Comprensión del contexto
Pero el razonamiento es una bestia diferente. Razonar implica tomar esa información percibida y someterla a un proceso lógico de múltiples pasos, integrando conocimiento del mundo y realizando inferencias. Es aquí donde la mayoría de los modelos, especialmente los de código abierto, se desmoronan.
El problema es doble. Primero, los datos con los que se les entrena son fundamentalmente superficiales. Una imagen con la etiqueta un gato sobre un tejado le enseña al modelo una asociación, no un concepto. No le enseña por qué el gato podría estar allí (buscando sol, cazando), cómo llegó allí (saltando desde una ventana, trepando un árbol) o qué podría pasar después (podría saltar al suelo). Los datos de internet carecen, en su inmensa mayoría, de esta profundidad explicativa, de este pensamiento en voz alta.
Segundo, las arquitecturas de muchos modelos no están diseñadas para pensar. A menudo, el componente visual del modelo (el codificador de visión) procesa la imagen una sola vez. Genera una especie de resumen digital o postal de la imagen y se lo entrega al componente de lenguaje (el cerebro del sistema). A partir de ese momento, el cerebro debe realizar todo su razonamiento basándose únicamente en esa postal estática. Si en mitad de un complejo problema de física, el modelo necesita volver a mirar el diagrama para comprobar un ángulo o una fuerza específica, no puede. Ya solo le queda el recuerdo de la postal.
Este es el cuello de botella que OpenMMReasoner se propuso resolver. Los investigadores de MiroMind y sus socios académicos comprendieron que para construir una máquina que razone, no bastaba con hacerla más grande; había que cambiar su dieta y rediseñar su cerebro.
SPARC: el ingrediente secreto para el pensamiento
La primera mitad de la solución es SPARC, un acrónimo de Razonamiento Visual-Textual Escalable y Progresivo (Scalable and Progressive Visual-Textual Reasoning). Este no es simplemente otro conjunto de datos; es un currículo educativo diseñado a medida para una inteligencia artificial. El objetivo de SPARC no es enseñar qué hay en una imagen, sino cómo pensar sobre ella.
El proceso de aprendizaje SPARC
Tópicos
Generación masiva de problemas diversos
Profesor
Generación de explicaciones lógicas
Filtrado
Verificación rigurosa de calidad
SPARC
Dataset final de alta pureza
Para lograrlo, el equipo desarrolló un sofisticado proceso de generación de datos. En lugar de depender de simples etiquetas humanas, utilizaron un modelo profesor de última generación (como GPT-4V) como punto de partida para generar explicaciones ricas y detalladas. Este proceso, o pipeline, es una coreografía de varios pasos.
Comienza con la generación de miles de preguntas o tópicos que abarcan un espectro masivo de dominios: desde problemas de matemáticas y física extraídos de libros de texto, hasta análisis de gráficos científicos, interpretación de diagramas de flujo de código y preguntas de conocimiento general que requieren pistas visuales.
Luego viene el paso crucial: la generación de una Cadena de Pensamiento o CoT (por sus siglas en inglés, Chain-of-Thought). Este es un concepto que ha revolucionado el campo de la IA. En lugar de pedirle al modelo solo la respuesta final, se le pide que muestre su trabajo, que explique su proceso de razonamiento paso a paso, en lenguaje natural. En el contexto de SPARC, esto significa generar una explicación que entrelaza la lógica textual con la evidencia visual. Por ejemplo, Para resolver este problema, primero observo el vector A en el gráfico, que apunta hacia arriba. Luego, veo el vector B....
Tras generar el razonamiento y derivar la respuesta correcta, el sistema no se detiene. Aquí entra la fase más importante: la verificación y el filtrado. El equipo sabía que incluso los mejores modelos profesores pueden cometer errores, alucinar detalles o tomar atajos lógicos. Por lo tanto, implementaron un riguroso sistema de control de calidad. Utilizaron otros modelos de IA como verificadores para comprobar la coherencia fáctica, la corrección lógica y la precisión de la respuesta. Solo los ejemplos de razonamiento que superaban este filtro de alta calidad se incorporaban a SPARC.
El resultado es un conjunto de datos de una riqueza sin precedentes. Es progresivo porque la dificultad de las preguntas aumenta gradualmente, llevando al modelo de un pensamiento simple a uno complejo. Y es escalable porque este proceso semi-automatizado puede generar nuevo material de estudio de alta calidad de forma continua. Con SPARC, el equipo de OpenMMReasoner no estaba simplemente dándole más comida a su IA; le estaba ofreciendo una dieta de nivel gourmet, un festín de lógica curada diseñado para nutrir una mente artificial.
TORAX: una arquitectura diseñada para la reflexión
Tener los mejores libros de texto del mundo (SPARC) sirve de poco si el estudiante (el modelo) no tiene la arquitectura cognitiva adecuada para absorberlos. Aquí es donde entra en juego la segunda innovación: TORAX, o Arquitectura de Razonamiento Orientada al Pensamiento con Atención Intermodal (Thinking-Oriented Reasoning Architecture with Cross-modal attention).
TORAX es un diseño elegante que aborda directamente el problema de la postal estática. En lugar de que el modelo mire la imagen una sola vez, TORAX le permite volver a consultar la información visual tantas veces como sea necesario durante su proceso de pensamiento.
Arquitectura Tradicional
Pérdida de detalles visuales
Arquitectura TORAX
Consulta dinámica y continua
Funciona separando claramente las tareas. Por un lado, tiene un codificador de visión (un componente especializado en procesar imágenes, como un ViT de la familia CLIP) que actúa como los ojos del sistema. Por otro lado, tiene un gran modelo de lenguaje (el LLM, como Llama 3) que actúa como el cerebro o el procesador lógico.
La magia reside en el puente que los conecta. TORAX implementa un sofisticado mecanismo de atención intermodal (cross-modal attention). Este mecanismo funciona como el foco de atención de la mente humana. Mientras el cerebro (el LLM) está desarrollando su cadena de pensamiento, puede, en cualquier momento, enviar una consulta a los ojos (el codificador de visión). Esta consulta no es genérica; es específica. Puede ser el equivalente a preguntar: ¿Puedes volver a mirar la parte inferior izquierda del diagrama? Necesito los valores de ese eje.
Este proceso es dinámico. El cerebro genera un pensamiento, se detiene, consulta a los ojos sobre una región específica de la imagen, recibe esa información visual fresca y detallada, y luego la integra en el siguiente paso de su cadena de pensamiento. Esto es mucho más parecido a cómo un ser humano resuelve un problema visual. Miramos el problema, pensamos, enfocamos nuestra vista en un detalle clave, pensamos un poco más, volvemos a mirar otro detalle, y así sucesivamente.
Esta capacidad de re-examinar la evidencia visual es fundamental para el razonamiento complejo. Permite al modelo corregir sus propias suposiciones iniciales y manejar tareas donde los detalles visuales sutiles son la clave para la solución. TORAX no está limitado por un único vistazo, sino que está equipado para una introspección visual continua.
OpenMMReasoner: la suma de las partes
OpenMMReasoner es el nombre del modelo final que nace de la unión de estas dos ideas: la arquitectura TORAX entrenada con la dieta cognitiva de SPARC. Y sus resultados, detallados en el artículo, son notables.
Los investigadores probaron su creación contra un verdadero quién es quién de las evaluaciones comparativas de razonamiento multimodal. Estas no son pruebas de descripción de imágenes. Son los exámenes de acceso a la universidad para las IAs, pruebas como MMMU (una colección de problemas de nivel universitario en ciencia, ingeniería y humanidades), MathVista (problemas de razonamiento matemático que requieren interpretación visual) y DynaMath (problemas de matemáticas dinámicos).
Rendimiento en pruebas estandarizadas (Benchmarks)
Valores más altos indican mayor precisión en el razonamiento.
Los datos presentados en el artículo (como el gráfico de barras de la Figura 1) son contundentes. OpenMMReasoner supera de manera decisiva a todos los demás modelos de código abierto, incluidos los muy respetados LLaVA-OV-1.5 y Qwen2.5-VL. Las barras que representan el rendimiento de OpenMMReasoner se elevan consistentemente por encima de sus pares en casi todas las categorías de razonamiento complejo.
Pero la historia no termina ahí. Lo más sorprendente es cómo se compara con los gigantes de código cerrado. Aunque los modelos propietarios como GPT-4V y Gemini 1.5 Pro siguen manteniendo una ligera ventaja en algunas áreas, OpenMMReasoner se les acerca peligrosamente. En varias pruebas de rendimiento específicas de razonamiento, el modelo de código abierto logra igualar e incluso superar a sus contrapartes multimillonarias.
Esto demuestra una tesis fundamental: la fuerza bruta y el tamaño del modelo no son el único camino hacia la inteligencia. Una combinación más inteligente de datos de alta calidad (SPARC) y una arquitectura diseñada para pensar (TORAX) puede producir resultados comparables con una fracción de los recursos.
Ejemplo Práctico: Ley de Yerkes-Dodson
Tarea: Identificar qué gráfico (entre 5 opciones) representa correctamente esta ley psicológica.
Modelo Tradicional
La respuesta es A.
Incorrecto. Falla al analizar la curva.
OpenMMReasoner
1. Definición: Recupera que la ley implica rendimiento ascendente hasta un pico y luego descenso (curva de campana).
2. Análisis: Evalúa los gráficos: A (V invertida), B/C (líneas rectas), D (campana), E (U).
3. Inferencia: El único gráfico que coincide con la definición es el D.
4. Conclusión: Selecciona la respuesta correcta D.
El artículo también ofrece un ejemplo fascinante (Tabla 9) que ilustra esta diferencia en la práctica. Ante una pregunta sobre la Ley de Yerkes-Dodson (una teoría psicológica) acompañada de cinco gráficos diferentes (curva de campana, línea recta, etc.), un modelo anterior da una respuesta incorrecta. OpenMMReasoner, en cambio, expone su cadena de pensamiento: primero, define la ley (el rendimiento aumenta con la excitación hasta un punto, luego disminuye). Segundo, evalúa cada gráfico en función de esa ley. Tercero, identifica la curva de campana como la única que coincide. Y cuarto, selecciona la respuesta correcta. Es un ejemplo perfecto de razonamiento, no de reconocimiento de patrones.
La democratización de la razón artificial
Las implicaciones del trabajo de OpenMMReasoner se extienden mucho más allá de las tablas de clasificación académicas. Al publicar no solo sus resultados, sino su receta completa (el método para crear SPARC y el código para construir TORAX), el equipo de MiroMind, NTU y Tsinghua ha hecho un regalo invaluable a la comunidad global de inteligencia artificial.
Desde un punto de vista científico, el artículo valida una hipótesis crucial: el camino hacia el razonamiento artificial general no pasa solo por escalar los modelos, sino por mejorar fundamentalmente la calidad de los datos de entrenamiento y la idoneidad de las arquitecturas. Han demostrado que el pensamiento paso a paso no es solo un truco, sino una capacidad fundamental que puede ser enseñada, y que los modelos necesitan un foco de atención visual dinámico para implementarla.
Tecnológicamente, esto es un terremoto. Hasta ahora, cualquier startup, universidad o laboratorio de investigación que quisiera experimentar con el razonamiento multimodal de alto nivel se encontraba con un muro. No podían competir con los recursos de las grandes corporaciones. Ahora, tienen un plan de acción. Tienen una receta. Esto podría desencadenar una nueva ola de innovación, ya que equipos de todo el mundo comenzarán a construir sobre la base de TORAX y a crear sus propias versiones de SPARC, adaptadas a dominios específicos como la medicina, el derecho o la ingeniería.
Las repercusiones sociales son, quizás, las más profundas. Una IA que puede razonar sobre datos visuales y textuales es la clave para aplicaciones verdaderamente transformadoras. Pensemos en un tutor de IA que no solo te dice si tu respuesta de matemáticas es incorrecta, sino que puede mirar tu trabajo escrito a mano, entender tu error lógico específico y guiarte a través de la cadena de pensamiento correcta. Pensemos en un asistente de radiología que no solo detecta una anomalía en una resonancia magnética, sino que la correlaciona con las notas del historial del paciente y los resultados de laboratorio para sugerir un diagnóstico diferencial razonado.
OpenMMReasoner, y la filosofía de apertura que representa, es un paso vital hacia una inteligencia artificial más fiable y transparente. Al entrenar a los modelos para que muestren su cadena de pensamiento, creamos sistemas cuyo proceso de toma de decisiones puede ser inspeccionado, auditado y, en última instancia, mejorado. Dejamos de depender de una caja negra y empezamos a construir un motor de razonamiento con un capó que podemos abrir.
Este trabajo no es el final del camino. El razonamiento humano sigue siendo inmensamente más rico y flexible. Pero la publicación de esta receta abierta marca un punto de inflexión. Ha redefinido lo que es posible en el ámbito del código abierto y ha proporcionado a toda una comunidad las herramientas no solo para imitar la cognición, sino para empezar a construirla de verdad.
Referencias
Zhang, K., Wu, K., Yang, Z., Hu, K., Wang, B., Liu, Z., Li, X., & Bing, L. (2025). OpenMMReasoner: Pushing the Frontiers for Multimodal Reasoning with an Open and General Recipe. arXiv:2511.16334v1 [cs.AI]. https://arxiv.org/pdf/2511.16334



