DeepSWE, el nuevo benchmark de DataCurve, intenta medir algo que los rankings tradicionales todavía capturan mal: la capacidad de un agente de programación para entrar en un repositorio real, entender una consigna breve, modificar varios archivos, evitar regresiones y…
MiniMax M2.5 y el fin del “es carísimo”
MiniMax publicó los pesos de M2.5 y fijó una bandera en un lugar que, hasta hace poco, parecía reservado a laboratorios de caja negra: 80,2% en SWE-bench Verified, el termómetro más citado para “arreglar bugs reales en repositorios reales”. El…
El agente de código se mueve a la nube
Al desarrollo contemporáneo lo persiguen dos relojes: el de entrega continua y el de los incidentes que interrumpen todo. La novedad de Anthropic apunta a ganar minutos en ambos frentes. Su agente de programación ya no vive solo en la consola,…



