DeepSWE, el nuevo benchmark de DataCurve, intenta medir algo que los rankings tradicionales todavía capturan mal: la capacidad de un agente de programación para entrar en un repositorio real, entender una consigna breve, modificar varios archivos, evitar regresiones y…
Claude Opus 4.8 cambia la carrera por los agentes autónomos
Anthropic presentó Claude Opus 4.8 el mismo día en que anunció una ronda Serie H de 65.000 millones de dólares, con una valuación post-money de 965.000 millones. El movimiento combina una mejora técnica concentrada en programación, agentes y trabajo profesional…
El ranking global de modelos de lenguaje muestra el empate más ajustado de la historia
El ranking global Chatbot Arena+ del primer trimestre de 2026 revela algo inédito: Gemini 3.1 Pro, GPT-5.4, Claude Opus 4.6 y Grok 4.20 se separan por apenas diez puntos en una escala de miles. La era del modelo dominante terminó…
Sistemas que superan a humanos en nivel doctoral
La irrupción del sistema GPT-5.4 Pro en el examen FrontierMath desmantela la creencia de que las matemáticas de nivel de investigación eran inalcanzables para los modelos de síntesis; un hallazgo que redefine el papel del descubrimiento científico en la era de…
Nuevos exámenes para sistemas expertos
El agotamiento de los exámenes tradicionales obliga a la comunidad científica a diseñar murallas matemáticas casi infranqueables para distinguir la imitación de la verdadera capacidad deductiva de los sistemas modernos. Por el equipo editorial | 5 de marzo, 2026 Imaginen…
Humanity’s Last Exam: el benchmark de Nature que los modelos de IA no pueden superar
El Center for AI Safety y Scale AI publicaron en Nature el benchmark mas dificil jamas disenado para LLMs: 2.500 preguntas creadas por casi 1.000 expertos de 50 paises que los modelos mas avanzados del mundo no pueden responder. GPT-4o…
OpenAI retiró su benchmark de código porque los modelos habían memorizado las respuestas
Cuando OpenAI reconoció que SWE-bench Verified estaba contaminado y lo retiró, confirmó lo que muchos sospechaban: los modelos de lenguaje habían aprendido las respuestas, no la materia. Un equipo de investigadores respondió con un sistema de evaluación que se renueva…
Las inteligencias artificiales ya superan los exámenes diseñados para evaluarlas
La metrología es la ciencia de la certeza absoluta. Definir el kilogramo requirió durante más de un siglo un cilindro exacto de platino iridio guardado celosamente bajo tres campanas de cristal en una bóveda de Sèvres. Evaluar la cognición algorítmica, por el contrario, se ha convertido en un ejercicio de fe estadística fundamentado en exámenes…
Google descubrió que los modelos de IA que más escriben son los que más se equivocan
Pensar más no es pensar mejor Un estudio de Google y la Universidad de Virginia demuestra que los modelos de inteligencia artificial no mejoran su rendimiento por producir respuestas más largas, sino por procesar con mayor profundidad cada fragmento de lo que generan. La diferencia cambia todo lo que la industria creía saber sobre cómo…
Tri-21B-Think: el modelo que alcanzó el top 30 global con 21 mil millones de parámetros y presupuesto mínimo
Trillion Labs, una startup coreana con apenas un año de existencia, lanzó Tri-21B-Think: un sistema de razonamiento de 21 mil millones de parámetros que se ubica entre los 30 mejores del mundo, supera en eficiencia a modelos varias veces más…










