MiniMax M2.5 y el fin del “es carísimo”

El modelo abierto que cruzó el 80% y barrió con los precios del código

MiniMax publicó los pesos de M2.5 y fijó una bandera en un lugar que, hasta hace poco, parecía reservado a laboratorios de caja negra: 80,2% en SWE-bench Verified, el termómetro más citado para “arreglar bugs reales en repositorios reales”. El golpe no fue solo técnico. Fue contable: tokenización barata, alto ritmo de inferencia y una propuesta explícita de agentes de largo aliento que ya no queman presupuesto como si fuera nafta premium.

Por el equipo editorial | 17 de febrero, 2026

En el ecosistema del software, los números rara vez emocionan. Sin embargo, hay cifras que funcionan como contraseña de acceso a una conversación distinta. En febrero, una de esas cifras apareció pegada al nombre de un actor que, fuera de ciertos círculos, todavía no tiene el peso simbólico de las marcas norteamericanas: MiniMax-M2.5. El dato que encendió la chispa fue 80,2% en SWE-bench Verified. Para el público general suena a nota al pie. Para cualquier equipo que haya intentado automatizar correcciones en código ajeno, ese porcentaje sugiere algo más incómodo: un modelo que no solo charla sobre programación, sino que resuelve tickets. Y, además, deja el precio en un umbral que empieza a reconfigurar el mapa de lo posible.

La novedad no quedó encapsulada en un anuncio de marketing. MiniMax colocó el modelo en un paquete más amplio: dos variantes con capacidades equivalentes, una orientada a 50 tokens por segundo y otra a 100, ambas con soporte de caché, y con tarifas que apuntan directo a la ansiedad histórica de cualquier CTO: el costo operacional. El mensaje de fondo es que el agente persistente, ese trabajador digital que revisa, busca, edita y entrega archivos, deja de ser un lujo de laboratorio y se convierte en un gasto que compite con servicios ordinarios de nube.

Lo que se anunció, sin maquillaje: M2.5 reporta 80,2% en SWE-bench Verified, 51,3% en Multi-SWE-bench y 76,3% en BrowseComp. En su publicación técnica, MiniMax insiste en dos obsesiones que rara vez conviven: velocidad de ejecución y economía por token, con una promesa explícita de agentes que pueden operar durante horas sin que el costo se vuelva el argumento final.

En un mercado saturado de superlativos, el rasgo diferencial es otro: pesos disponibles. Eso habilita despliegues locales, auditorías internas, experimentación con infraestructuras alternativas y, sobre todo, la posibilidad de que proveedores de inferencia empaqueten el modelo como commodity. Es un giro estratégico, particularmente en un momento en que la industria vive una paradoja: la demanda de automatización crece, pero la contabilidad de tokens sigue disciplinando cualquier ambición.

El umbral del 80% y el tribunal de los repositorios

SWE-bench Verified ganó prestigio porque no evalúa un examen de opción múltiple ni un “hola mundo” elegante. Su lógica es más cruel: toma incidencias reales de proyectos reales, exige parches concretos y valida con tests. Por eso se volvió una moneda de comparación. No es perfecto, pero impone una fricción saludable. Obliga a interactuar con un repositorio, entender el contexto, modificar archivos con consecuencias y, finalmente, sobrevivir al veredicto de una suite de pruebas. En ese escenario, 80,2% no significa infalibilidad. Significa confiabilidad en condiciones adversas, que es lo único que realmente compra una empresa.

MiniMax acompañó el número con detalles que apuntan a un problema silencioso: el “andamiaje” del agente. El resultado puede variar según el arnés con el que se ejecute la tarea, el prompt del sistema y las herramientas disponibles. En su informe, el equipo indica que promedió corridas y que, además del set Verified, probó el comportamiento bajo scaffoldings alternativos para medir generalización. No es un gesto menor. Es una forma de anticiparse a la crítica más habitual: que el éxito depende de un entorno muy afinado.

Incluso cuando el porcentaje es alto, el trabajo real se juega en el borde. Un patch que pasa tests pero introduce deuda técnica es un triunfo estadístico y un desastre operacional. Un arreglo correcto que tarda demasiado o consume tokens con gula se vuelve inviable a escala. Por eso el anuncio también subrayó eficiencia: tiempo de ejecución por tarea, consumo promedio de tokens y throughput estable. Allí aparece otra frase que, leída sin cuidado, suena a jactancia, pero en realidad revela el objetivo: que el costo deje de ser un freno psicológico para diseñar agentes que “vivan” dentro de una organización.

“El punto no es si el modelo escribe código bonito. El punto es si aprende a comportarse como un ingeniero que respeta el repositorio, negocia con los tests y admite incertidumbre sin entrar en pánico.” Investigador en ingeniería de software consultado para este artículo, en diálogo hipotético basado en prácticas habituales de evaluación

La otra cara del éxito en benchmarks es la pregunta incómoda: qué significa “arreglar” cuando el código es legado, está mal documentado y tiene dependencias caprichosas. Allí SWE-bench funciona como filtro, no como garantía. El valor del hito es que empuja el debate desde la demostración hacia la integración: cómo se operacionaliza un modelo de alta tasa de acierto sin convertir cada PR en una ruleta. El 80% no cierra la discusión, la habilita.

Pesos públicos y centavos por millón

Pesos disponibles no es un detalle técnico. Es un cambio de poder. Permite que un banco instale el motor en su perímetro, que una startup lo ejecute en un proveedor neutro, que una universidad lo inspeccione, o que una comunidad lo adapte a nuevos dominios. MiniMax eligió una licencia permisiva modificada, con una condición llamativa: mantener visible un rótulo de atribución en despliegues, una especie de firma obligatoria. La intención es clara. Si el modelo se convierte en infraestructura invisible, el nombre debe seguir circulando.

En costos, el argumento se vuelve más concreto. La variante Lightning declara 0,3 dólares por millón de tokens de entrada y 2,4 dólares por millón de tokens de salida, con 100 tokens por segundo sostenidos; la versión estándar ofrece la mitad del precio y la mitad del throughput. Traducido a una métrica más fácil de imaginar, MiniMax afirma que operar una instancia durante una hora a 100 tokens por segundo cuesta 1 dólar, y que a 50 tokens por segundo baja a 0,3. Es la clase de cifra que, de golpe, vuelve plausible un agente que revise un backlog entero mientras el equipo duerme, sin que el CFO pida apagarlo al tercer día.

La promesa de “agentes largos” suele chocar con un obstáculo simple: el modelo razona, llama herramientas, busca, se equivoca, vuelve a intentar y la factura crece como espuma. Con precios de centavos por millón, el cálculo cambia. No desaparece la necesidad de buen diseño, pero la exploración deja de ser prohibitiva. Para una empresa, el punto más tentador no es la demo que corrige un bug; es el asistente que encadena tareas: consulta documentación, abre issues, genera un borrador de PR, crea un resumen para el equipo y, si hace falta, produce un archivo presentable.

Desempeño y costo reportados por MiniMax para M2.5. A la izquierda, el puntaje en SWE-bench Verified; a la derecha, el precio de salida por millón de tokens según la variante. Ambas versiones declaran capacidad equivalente, con diferencias en throughput.

Allí aparece un matiz que el anuncio empuja con insistencia: el modelo fue entrenado para usar herramientas y producir entregables. No se trata solo de contestar. Se trata de entregar. MiniMax describe benchmarks internos para trabajo de oficina y un marco de evaluación de “trayectoria” que mira el proceso, no solo el resultado. En su propio reporte, afirma que una porción significativa de tareas internas ya se ejecuta de manera autónoma y que el código generado ocupa un lugar creciente en el flujo de commits. Como dato propagandístico puede discutirse. Como señal operativa, sugiere algo importante: el laboratorio está intentando medir productividad, no encanto.

Una advertencia técnica que el anuncio deja entre líneas

El salto de un benchmark a producción depende menos del porcentaje y más del control: scaffolding, permisos de herramientas, políticas de edición y validación continua. MiniMax enfatiza evaluación con distintos arneses y promedios de corridas; esa insistencia indica que el campo ya aprendió la lección: sin un entorno bien definido, un agente eficiente puede convertirse en un agente creativo de más.

Una apuesta global desde Shanghái

MiniMax no está lanzando este modelo desde la comodidad de un anonimato. La empresa, con base en Shanghái, pasó por el proceso de salir a bolsa en Hong Kong en un momento de alta competencia entre laboratorios chinos y con una presión doble: financiar investigación costosa y, al mismo tiempo, mostrar tracción global. Informes recientes describen una carrera acelerada de “tigers” locales que compiten por músculo técnico, capital y narrativa. El contexto importa, porque explica el estilo del anuncio: performance, precio y apertura como un solo paquete, diseñado para exportarse.

En esa escena, publicar pesos no solo suma buena voluntad. También funciona como canal de distribución. Un modelo cerrado necesita un vendedor. Un modelo con pesos disponibles puede convertirse en estándar de facto si es fácil de desplegar y barato de correr. El efecto red lo hacen los demás: proveedores que lo integran, comunidades que lo cuantizan, equipos que lo ajustan, startups que lo revenden. El laboratorio sacrifica parte del control, pero gana alcance. Para una compañía que busca ampliar reputación fuera de su mercado doméstico, es una jugada racional.

La historia también revela un cambio de tono en la industria: durante años, el debate sobre modelos de frontera estuvo dominado por quién podía pagar entrenamiento e inferencia. Ahora aparece otra pregunta, más incómoda para los incumbentes: qué pasa cuando el modelo suficientemente bueno, para tareas rentables y repetibles, se vuelve barato y portable. No hace falta que sea el mejor del planeta. Solo necesita ser confiable, estable y accesible. Un modelo de pesos públicos con rendimiento alto en SWE-bench Verified empuja exactamente hacia ese punto.

La cifra del 80% funciona como señal de llegada. El precio, como señal de ruptura. En conjunto, describen un cambio de régimen: el agente deja de ser una rareza experimental y se perfila como componente de infraestructura. Eso no garantiza que todos los equipos lo adopten mañana. Garantiza algo más simple: desde ahora, cuando alguien descarte la automatización “porque es caro”, deberá especificar qué parte del flujo es cara. El argumento genérico pierde fuerza.

En un mercado que se acostumbró a medir progreso por tamaño, MiniMax eligió otra vara: eficiencia. El golpe más interesante no está en la épica del porcentaje, sino en la normalidad del cálculo. Si una organización puede costear, sin drama, un agente que recorra su base de conocimiento, toque herramientas y entregue archivos con formato, el problema deja de ser el costo y pasa a ser el diseño del trabajo. El futuro no llega con fanfarrias. Llega cuando alguien abre una planilla, hace cuentas y decide que conviene.

Referencias

MiniMax, “MiniMax M2.5: Built for Real-World Productivity” (anuncio técnico con métricas, método de evaluación, rendimiento y claims internos de uso): https://www.minimax.io/news/minimax-m25

Hugging Face, ficha del modelo “MiniMaxAI/MiniMax-M2.5” (licencia, guía de despliegue local, precios por millón de tokens y tabla de resultados): https://huggingface.co/MiniMaxAI/MiniMax-M2.5

MiniMax, página de modelos (descripción de la estrategia de “pesos abiertos” y repositorios oficiales): https://www.minimax.io/models

SWE-bench, sitio del benchmark y documentación pública (contexto del set Verified y su mecánica de evaluación): https://www.swebench.com/

Multi-SWE-bench, paper en arXiv (expansión y evaluación multinivel para corrección de software): https://arxiv.org/abs/2410.09038

VentureBeat, cobertura sobre M2.5 y posicionamiento de precio frente a modelos de frontera (contexto industrial y lectura de mercado): https://venturebeat.com/technology/minimaxs-new-open-m2-5-and-m2-5-lightning-near-state-of-the-art-while-costing-1-20th-of-claude-opus-4-6/

The Decoder, nota sobre el lanzamiento y el enfoque en costos y despliegue (síntesis y contexto): https://the-decoder.com/minimax-releases-m2-5-open-weight-model-with-top-coding-performance-for-low-cost/

Reuters, cobertura sobre la salida a bolsa de MiniMax en Hong Kong (contexto financiero y competencia local): https://www.reuters.com/world/asia-pacific/china-ai-firm-minimax-set-surge-hong-kong-debut-2026-01-09/

Financial Times, análisis de la ola de IPOs y valorización de empresas chinas de modelos (marco macro y narrativa de mercado): https://www.ft.com/content/a4fc6106-5a61-4a89-9400-c17c87fb1920

OpenHands, ensayo sobre eficiencia y evaluación en agentes, con mención a M2.5 en el contexto de modelos abiertos (perspectiva de tooling): https://openhands.dev/blog/20251202-agents-in-the-outer-loop

MiniMax M2.5 y el fin del “es carísimo”