NEWSLETTER

MiroThinker v1.0 valida la tercera dimensión: conversar más con el mundo supera a procesar más neuronas

Generated Image November 13, 2025 - 10_10PM

MiroThinker v1.0 valida la tercera dimensión: conversar más con el mundo supera a procesar más neuronas

Seiscientas llamadas por tarea: el agente de investigación que escala más allá del tamaño del modelo
MiroMind libera MiroThinker v1.0, primer sistema completamente abierto que introduce escalamiento interactivo como tercera dimensión de rendimiento. El modelo de 72B parámetros ejecuta hasta 600 llamadas a herramientas por tarea, supera a agentes de código abierto previos y cierra la brecha con contrapartes comerciales como GPT-5 mediante interacciones profundas y sostenidas con su entorno.

Durante décadas, el escalamiento en sistemas algorítmicos siguió una trayectoria predecible: más parámetros en el modelo generaban mejor rendimiento. La industria invirtió miles de millones persiguiendo modelos cada vez más grandes, desde miles de millones hasta billones de parámetros. Paralelamente, extender la ventana de contexto permitía procesar documentos más largos y conversaciones más extensas. Estas dos dimensiones, tamaño de modelo y longitud de contexto, definían los límites de lo posible. MiroMind acaba de proponer una tercera dimensión que podría resultar igualmente fundamental: el escalamiento interactivo, donde la frecuencia y profundidad de las interacciones entre el sistema y su entorno mejoran las capacidades de manera sistemática y predecible.

MiroThinker v1.0, liberado bajo licencia MIT completamente abierta, representa la primera implementación exhaustiva de este enfoque. Disponible en escalas de 8B, 30B y 72B parámetros, el sistema soporta una ventana de contexto de 256K tokens y puede ejecutar hasta 600 llamadas a herramientas por tarea individual. Esto contrasta dramáticamente con agentes de investigación previos que típicamente manejaban decenas de llamadas antes de alcanzar sus límites operacionales. Los resultados empíricos demuestran que el rendimiento mejora predeciblemente conforme el modelo se involucra en interacciones cada vez más profundas y frecuentes con su entorno, aprovechando la retroalimentación externa y la adquisición de información para corregir errores y refinar trayectorias.

El rendimiento de MiroThinker-v1.0-72B en benchmarks establecidos valida la efectividad del escalamiento interactivo. El sistema alcanza 37.7% en HLE-Text, 47.1% en BrowseComp, 55.6% en BrowseComp-ZH, y 81.9% en GAIA-Text-103. Estos números superan consistentemente a agentes de código abierto anteriores y estrechan significativamente la brecha con contrapartes comerciales como GPT-5-high, que hasta hace poco mantenían ventajas insuperables. La clave no reside solamente en el tamaño del modelo o la extensión del contexto, sino en entrenar sistemáticamente el sistema para manejar interacciones más profundas y frecuentes como dimensión fundamental de mejora de rendimiento.

🔬 Características distintivas de MiroThinker v1.0

Escalamiento interactivo: Primera implementación sistemática de entrenamiento para interacciones profundas con el entorno. Los modelos afinados con RL exhiben trayectorias de interacción sustancialmente más largas y profundas que sus contrapartes entrenadas solo con SFT.

Ventana de contexto extendida: Soporte nativo para 256K tokens permite razonamiento de largo horizonte y análisis multi-paso profundo sin perder coherencia en tareas complejas que requieren mantener un estado extenso.

Capacidad de llamadas masivas: Hasta 600 llamadas a herramientas por tarea representa una mejora sustancial sobre agentes previos, permitiendo una exploración exhaustiva de espacios de búsqueda y verificación iterativa de hipótesis.

Disponibilidad multi-escala: Tres tamaños (8B, 30B, 72B) con la suite completa de herramientas y flujos de trabajo soportan diversos entornos de investigación y presupuestos computacionales.

Licencia MIT completamente abierta: Código, pesos del modelo, datasets de entrenamiento y frameworks de inferencia completamente accesibles sin restricciones comerciales.

La tercera dimensión: cuando interactuar supera a escalar

El concepto de escalamiento interactivo representa un cambio paradigmático en cómo concebimos la mejora de capacidades algorítmicas. Los dos ejes tradicionales de escalamiento, tamaño de modelo y longitud de contexto, operan aumentando recursos computacionales estáticos: más neuronas procesando información o más tokens retenidos en memoria. El escalamiento interactivo opera fundamentalmente diferente: aprovecha la retroalimentación del entorno y la adquisición externa de información para corregir errores y refinar trayectorias de manera dinámica. En lugar de simplemente procesar más datos pasivamente, el sistema se involucra activamente con su entorno, aprendiendo de cada interacción.

Los datos empíricos demuestran este efecto dramáticamente. El modelo MiroThinker-v1.0-30B afinado con RL exhibe trayectorias de interacción significativamente más largas y profundas que su contraparte entrenada solo con SFT a través de los cuatro benchmarks principales. Mientras los modelos SFT frecuentemente terminan después de apenas unas pocas llamadas a herramientas, el modelo RL realiza un razonamiento multi-turno extendido, explorando y verificando información antes de concluir. Este cambio comportamental genera ganancias de rendimiento de 8 a 10 puntos porcentuales, demostrando un vínculo claro entre la profundidad de interacción y la capacidad de razonamiento investigativo.

La implementación técnica del escalamiento interactivo requiere la coordinación entre múltiples componentes. MiroThinker se apoya en MiroFlow, un framework agéntico probado que completa confiablemente tareas complejas de uso de herramientas. El framework alcanza consistentemente 72.2% (pass@1 promediado en 3 intentos) en el conjunto de validación GAIA, estableciendo un estándar de reproducibilidad. Simultáneamente, MiroTrain proporciona una infraestructura eficiente para el post-entrenamiento de modelos agénticos a gran escala, soportando entrenamiento SFT y DPO de modelos de 32B parámetros en un solo nodo GPU con 8 tarjetas de 80GB. Esta infraestructura tecnológica completa, enteramente liberada, permite a los investigadores replicar y extender el trabajo.

📊 Anatomía del escalamiento interactivo

Dimensión 1 - Tamaño del modelo (tradicional): Incrementar parámetros de 8B a 30B a 72B mejora las capacidades de razonamiento base y la comprensión de instrucciones complejas. Requiere una inversión computacional masiva pero alcanza rendimientos decrecientes.

Dimensión 2 - Longitud de contexto (tradicional): Extender la ventana de 32K a 128K a 256K tokens permite el razonamiento de largo horizonte y la retención de estado complejo. Escala linealmente con la memoria disponible.

Dimensión 3 - Profundidad interactiva (innovación): Entrenar sistemáticamente para manejar más turnos de interacción con el entorno. El modelo RL ejecuta 10-15 llamadas a herramientas donde el modelo SFT ejecuta 2-3. Mejora el rendimiento 8-10 puntos porcentuales con el mismo tamaño de modelo.

Sinergia multiplicativa: Las tres dimensiones operan conjuntamente. Un modelo grande con contexto extenso y entrenamiento interactivo profundo supera dramáticamente a cualquier dimensión aislada.

Eficiencia asimétrica: El escalamiento interactivo requiere menos recursos computacionales que duplicar el tamaño del modelo, pero puede generar mejoras de rendimiento comparables en tareas de investigación complejas.

El dataset MiroVerse-v0.1 utilizado para entrenar MiroThinker ilustra la escala del esfuerzo. Contiene 1.9 mil millones de tokens y más de 602 mil interacciones con herramientas, con cada muestra incluyendo trazas completas de ejecución de "rollouts" exitosos de MiroFlow que alcanzaron respuestas verificadas. Este enfoque de entrenar con trayectorias completas, no solo con resultados finales, permite al modelo internalizar patrones de exploración efectiva, recuperación de errores y verificación iterativa. La liberación del dataset bajo licencia CC-BY-NC-4.0 (con licencias comerciales disponibles) representa un compromiso con la transparencia mientras protege la inversión significativa en la generación de datos de alta calidad.

La arquitectura subyacente se construye sobre Qwen2.5, modificado sustancialmente para optimizar el uso de herramientas y el razonamiento de largo contexto. Las modificaciones incluyen ajustes a los mecanismos de atención para manejar eficientemente secuencias de 256K tokens, regularización especializada para prevenir el colapso durante interacciones extensas, y un diseño cuidadoso de las representaciones de herramientas que facilitan la generalización a nuevos instrumentos. El resultado es un sistema que no simplemente memoriza patrones de uso de herramientas específicas, sino que desarrolla una comprensión flexible de cómo aprovechar capacidades externas para resolver problemas novedosos.

Contexto histórico de agentes de investigación: El camino hacia agentes de investigación sofisticados ha sido gradual. Primeras implementaciones como WebGPT (OpenAI, 2021) demostraron la viabilidad básica de la búsqueda web aumentada por lenguaje natural. ReAct (2022) introdujo la combinación sistemática de razonamiento y acción, permitiendo que los modelos justificaran sus decisiones antes de llamar a las herramientas. Toolformer (Meta, 2023) enseñó a los modelos cuándo y cómo usar APIs mediante auto-supervisión. AutoGPT y BabyAGI (2023) popularizaron los agentes autónomos pero sufrían fallas frecuentes en tareas complejas. GPT-4 con plugins (2023) proporcionó la primera implementación comercial estable de un agente multi-herramienta, pero permaneció propietaria y cara. MiroThinker representa la culminación de esta evolución: combina la estabilidad de los sistemas comerciales con la transparencia completa del código abierto, mientras introduce el escalamiento interactivo como principio organizador para la mejora continua.

Los benchmarks revelan fortalezas y limitaciones comparativas

GAIA (General AI Assistants), desarrollado colaborativamente por Meta-FAIR, Meta-GenAI, HuggingFace y equipos de AutoGPT, proporciona el marco de evaluación más riguroso para asistentes de propósito general. El benchmark consiste en 466 preguntas curadas que requieren una combinación de habilidades fundamentales: razonamiento multi-modal, navegación web, uso proficiente de herramientas y comprensión de contexto. Las tareas están conceptualmente diseñadas para ser simples para humanos (92% de tasa de éxito) pero desafiantes para sistemas algorítmicos avanzados (GPT-4 con plugins alcanza solo 15%). Esta disparidad deliberada enfoca la evaluación en una robustez de tipo humana para tareas cotidianas, no en trucos académicos que requieren experticia sobrehumana.

Los resultados de MiroThinker-v1.0-72B en GAIA-Text-103 (81.9%) representan un logro notable, superando substancialmente iteraciones previas y acercándose a sistemas comerciales de frontera. El rendimiento no proviene únicamente del tamaño del modelo, dado que sistemas propietarios más grandes frecuentemente obtienen puntuaciones menores. La ventaja de MiroThinker reside en su capacidad para mantener la coherencia a través de cadenas largas de razonamiento, recuperarse de intentos fallidos de uso de herramientas, y verificar la información iterativamente antes de emitir respuestas. El modelo afinado con RL demuestra una particular ventaja en preguntas que requieren múltiples pasos de verificación, donde terminar prematuramente resulta en respuestas incorrectas.

HLE (High-Level Evaluation) y BrowseComp proporcionan perspectivas complementarias sobre las capacidades de navegación web y la comprensión de documentos complejos. El rendimiento de 37.7% en HLE-Text coloca a MiroThinker como líder entre los sistemas de código abierto, aunque la brecha con los humanos permanece sustancial. BrowseComp-ZH (55.6%) demuestra capacidades multilingües razonables a pesar de que MiroVerse-v0.1 contiene predominantemente datos en inglés. Esta generalización multilingüe sugiere que los patrones de razonamiento investigativo se transfieren efectivamente a través de los idiomas, aunque un rendimiento óptimo en chino probablemente requiere datos de entrenamiento específicos del idioma.

Comparación contextual de rendimiento: Para apreciar los logros de MiroThinker, hay que considerar que GPT-4 Turbo (un modelo comercial costoso) alcanza aproximadamente 30% en el conjunto de validación de GAIA sin frameworks especializados. H2O.ai's h2oGPTe Agent, un sistema comercial especializado, recientemente logró 75% en el conjunto de prueba de GAIA, la primera vez que cualquier sistema alcanzó una calificación "C". Claude Sonnet 3.7 integrado con MiroFlow alcanza 81.8% pass@3, pero requiere una API comercial costosa. MiroThinker-v1.0-72B alcanza 81.9% en GAIA-Text-103 con un modelo completamente abierto ejecutable localmente en hardware de consumidor (aunque con requisitos sustanciales de memoria). El sistema más pequeño de 30B parámetros afinado con RL demuestra mejoras de 8-10 puntos sobre la variante SFT, validando el escalamiento interactivo como un principio de diseño efectivo independientemente del tamaño absoluto del modelo.

Las limitaciones actuales de MiroThinker proporcionan direcciones claras para la investigación futura. El sistema ocasionalmente sufre alucinaciones en escenarios de baja confianza, particularmente cuando la información requerida está parcialmente disponible pero incompleta. La recuperación de errores, aunque mejorada sustancialmente versus los modelos SFT, todavía no alcanza la robustez humana en situaciones donde múltiples intentos fallan consecutivamente. La generalización a tipos de herramientas completamente novedosas permanece desafiante, sugiriendo que el entrenamiento actual no ha capturado completamente las abstracciones de meta-nivel sobre el uso de herramientas. Estas áreas representan oportunidades para contribuciones de la comunidad de investigación más amplia.

Comparación de rendimiento en el benchmark GAIA: trayectoria de mejora desde GPT-4 base hasta MiroThinker v1.0, mostrando la convergencia de sistemas de código abierto con contrapartes comerciales mediante escalamiento interactivo.

La arquitectura de despliegue merece atención particular. Mientras los sistemas comerciales operan mediante APIs que ocultan la complejidad de la infraestructura, MiroThinker expone toda la infraestructura tecnológica. Esto permite optimizaciones específicas de caso de uso pero requiere un expertise técnico sustancial. El equipo de MiroMind proporciona imágenes de Docker preconfiguradas, guías de cuantización para ejecución en CPU y GPU, y documentación exhaustiva para el despliegue en frameworks de inferencia populares como llama.cpp, Ollama y SGLang. Un sistema completo de investigación profunda puede ejecutarse en un solo RTX 4090, democratizando el acceso a capacidades que previamente requerían infraestructura de centros de datos.

🌍 Filosofía de código abierto radical

Transparencia completa: No solo los pesos del modelo, sino el código de entrenamiento completo, los pipelines de datos, los scripts de evaluación, y las configuraciones de infraestructura están disponibles públicamente en GitHub.

Reproducibilidad verificable: Cada métrica reportada incluye los scripts exactos para su replicación. La comunidad puede verificar las afirmaciones independientemente ejecutando las mismas evaluaciones.

Licencia permisiva MIT: El uso comercial está explícitamente permitido sin regalías. Las organizaciones pueden modificar, desplegar y monetizar sin restricciones legales (el dataset está bajo CC-BY-NC-4.0 con licencias comerciales disponibles).

Ecosistema completo liberado: MiroFlow (framework agéntico), MiroTrain (infraestructura de entrenamiento), MiroVerse (dataset de 1.9B tokens), y MiroRL (framework de reinforcement learning) están todos disponibles como proyectos separados completamente documentados.

Compromiso con la evolución continua: El roadmap público incluye planes para MiroThinker v2.0 con mejoras en capacidades multimodales, razonamiento matemático avanzado, y escalamiento a 100B+ parámetros.

Respuesta a la centralización comercial: La liberación desafía directamente la tendencia de los grandes laboratorios a mantener los sistemas más capaces como secretos propietarios, argumentando que la investigación fundamental debe permanecer accesible globalmente.

La estrategia de liberación gradual merece análisis. MiroMind primero liberó MiroThinker-v0.1 en agosto de 2025, estableciendo capacidades base y recolectando retroalimentación de la comunidad. La versión 0.2 en septiembre incorporó mejoras basadas en esa retroalimentación, alcanzando SOTA en múltiples benchmarks. MiroThinker v1.0, liberado en noviembre, representa la estabilización de la arquitectura con énfasis en el escalamiento interactivo como principio de diseño central. Este ciclo de iteración rápida con transparencia completa contrasta con las liberaciones monolíticas de grandes laboratorios, donde años de desarrollo interno preceden a los anuncios públicos. El enfoque permite que la comunidad influya activamente en la dirección de desarrollo.

Las implicaciones para la investigación académica son sustanciales. Históricamente, los grupos de investigación sin acceso a recursos computacionales masivos quedaban excluidos de la investigación de frontera en sistemas agénticos. MiroThinker nivela parcialmente este campo proporcionando un punto de partida altamente capaz que los investigadores pueden afinar para dominios específicos, extender con nuevas capacidades, o usar como base para comparaciones rigurosas. El dataset MiroVerse, conteniendo trazas completas de ejecución con 602K+ interacciones de herramientas, proporciona un recurso invaluable para estudiar cómo los agentes efectivos exploran espacios de búsqueda y se recuperan de errores.

Los casos de uso emergentes para MiroThinker ilustran su versatilidad. Equipos de investigación científica lo están utilizando para automatizar revisiones de literatura, sintetizando hallazgos de cientos de papers mediante búsqueda sistemática y extracción de información. Analistas financieros experimentan con despliegues para investigación de *due diligence*, agregando información de múltiples fuentes públicas y analizando patrones en documentos financieros complejos. Equipos legales exploran aplicaciones en investigación de casos, donde rastrear precedentes relevantes a través de décadas de jurisprudencia requiere un razonamiento de largo horizonte. Desarrolladores de software lo integran en pipelines CI/CD para análisis automático de código y generación de documentación exhaustiva.

La comparación con sistemas comerciales equivalentes revela compensaciones claras. Claude Opus 4, GPT-5 y Gemini Pro 2.0 ofrecen la conveniencia de APIs gestionadas, actualizaciones automáticas y soporte empresarial. MiroThinker requiere que las organizaciones manejen su propia infraestructura, actualicen manualmente a nuevas versiones y resuelvan problemas técnicos independientemente. Sin embargo, proporciona control completo sobre el despliegue, permite el ajuste fino para casos de uso específicos, elimina preocupaciones sobre la privacidad de los datos (todo se ejecuta localmente), y evita costos recurrentes de API que pueden escalar dramáticamente con el uso intensivo. Para organizaciones con expertise técnico y requisitos de soberanía de datos, el modelo de código abierto resulta frecuentemente superior.

MiroMind enfatiza que MiroThinker v1.0 no representa una culminación sino un punto de partida. El roadmap incluye la expansión a capacidades multimodales nativas (procesamiento de imágenes y audio), mejoras en el razonamiento matemático mediante la integración de herramientas simbólicas especializadas, y el escalamiento a configuraciones de 100B+ parámetros para tareas que requieren un conocimiento enciclopédico masivo. La visión más amplia contempla un ecosistema donde los investigadores contribuyen con módulos especializados, datasets de dominio específico y mejoras arquitectónicas que benefician a la comunidad completa. Este modelo de desarrollo distribuido, habilitado por la transparencia radical, podría eventualmente generar sistemas que rivalizan o superan las capacidades comerciales mediante la inteligencia colectiva global.

Referencias

MiroMind AI, "MiroThinker v1.0 Technical Report" [PDF] - Reporte técnico completo sobre arquitectura, entrenamiento y evaluación del sistema.

HuggingFace, "miromind-ai/MiroThinker-v1.0-72B" - Página oficial del modelo con pesos descargables y documentación de uso.

GitHub, "MiroMindAI/MiroThinker" - Repositorio principal con código fuente, ejemplos de uso y guías de despliegue.

GitHub, "MiroMindAI/MiroFlow" - Framework agéntico usado para generar datos de entrenamiento y evaluación de MiroThinker.

GitHub, "MiroMindAI/MiroTrain" - Infraestructura de post-entrenamiento optimizada para modelos agénticos a gran escala.

GitHub, "MiroMindAI/MiroRL" - Framework de reinforcement learning basado en MCP para agentes de investigación profunda.

HuggingFace, "miromind-ai/MiroVerse-v0.1" - Dataset de 1.9B tokens con 602K+ interacciones de herramientas usadas en entrenamiento.

Mialon et al., "GAIA: a benchmark for General AI Assistants" - ICLR 2024, paper fundacional sobre benchmark GAIA.

Meta AI Research, "GAIA: a benchmark for general AI assistants" - Página oficial del benchmark con leaderboard actualizado.

H2O.ai, "H2O.ai Tops the General AI Assistant (GAIA) Test" - Resultados récord en GAIA test set por sistema comercial.

Princeton HAL, "GAIA Leaderboard" - Leaderboard independiente con visualizaciones de rendimiento cross-model.

Interesting Engineering, "This mini AI outsmarted Microsoft on Meta's GAIA benchmark" (agosto 2025) - Cobertura de logros de sistemas pequeños multi-agente.

Towards Data Science, "GAIA: The LLM Agent Benchmark Everyone's Talking About" (julio 2025) - Análisis profundo de metodología GAIA.

ODSC, "Top 10 Open-Source AI Agent Frameworks to Know in 2025" - Contexto sobre ecosistema de frameworks agénticos.

APIpie, "Top 10 Open-Source AI Agent Frameworks of May 2025" - Comparación técnica de arquitecturas de frameworks populares.

Recent Posts

Generated Image November 15, 2025 - 2_58AM

La “granja de portátiles”: el arma secreta de Corea del Norte

  Cinco ciudadanos estadounidenses se declararon culpables de operar ‘granjas de portátiles’ para blan
Read More
815fb62d-1f9f-41f9-8bb7-e8bbde4e5928

De archivador a investigador: la nueva era de NotebookLM

  NotebookLM deja de ser un simple anotador. Sus nuevas funciones de investigación automatizada y generación mult
Read More

Para estar informado, Ingresá o Creá tu cuenta en MundoIA...

Sign In

Recordá revisar la carpeta de "no deseados", el correo puede llegar allí