Suscríbete a MUNDO IA

Categoría: Benchmarks

ChatGPT Image 29 may 2026, 20_52_22

DeepSWE revela qué modelos realmente saben programa

    DeepSWE, el nuevo benchmark de DataCurve, intenta medir algo que los rankings tradicionales todavía capturan mal: la capacidad de un agente de programación para entrar en un repositorio real, entender una consigna breve, modificar varios archivos, evitar regresiones y…

Leer Más
Centro de operaciones Anthropic

Claude Opus 4.8 cambia la carrera por los agentes autónomos

  Anthropic presentó Claude Opus 4.8 el mismo día en que anunció una ronda Serie H de 65.000 millones de dólares, con una valuación post-money de 965.000 millones. El movimiento combina una mejora técnica concentrada en programación, agentes y trabajo profesional…

Leer Más
Cuatro pantallas - Fotorrealista

El ranking global de modelos de lenguaje muestra el empate más ajustado de la historia

  El ranking global Chatbot Arena+ del primer trimestre de 2026 revela algo inédito: Gemini 3.1 Pro, GPT-5.4, Claude Opus 4.6 y Grok 4.20 se separan por apenas diez puntos en una escala de miles. La era del modelo dominante terminó…

Leer Más
Generated Image March 09, 2026 - 10_35PM

Sistemas que superan a humanos en nivel doctoral

La irrupción del sistema GPT-5.4 Pro en el examen FrontierMath desmantela la creencia de que las matemáticas de nivel de investigación eran inalcanzables para los modelos de síntesis; un hallazgo que redefine el papel del descubrimiento científico en la era de…

Leer Más
Generated Image March 05, 2026 - 1_16AM

Nuevos exámenes para sistemas expertos

  El agotamiento de los exámenes tradicionales obliga a la comunidad científica a diseñar murallas matemáticas casi infranqueables para distinguir la imitación de la verdadera capacidad deductiva de los sistemas modernos. Por el equipo editorial | 5 de marzo, 2026 Imaginen…

Leer Más
Generated Image March 03, 2026 - 12_43AM

Humanity’s Last Exam: el benchmark de Nature que los modelos de IA no pueden superar

  El Center for AI Safety y Scale AI publicaron en Nature el benchmark mas dificil jamas disenado para LLMs: 2.500 preguntas creadas por casi 1.000 expertos de 50 paises que los modelos mas avanzados del mundo no pueden responder. GPT-4o…

Leer Más
Generated Image February 27, 2026 - 9_22PM

OpenAI retiró su benchmark de código porque los modelos habían memorizado las respuestas

  Cuando OpenAI reconoció que SWE-bench Verified estaba contaminado y lo retiró, confirmó lo que muchos sospechaban: los modelos de lenguaje habían aprendido las respuestas, no la materia. Un equipo de investigadores respondió con un sistema de evaluación que se renueva…

Leer Más
Generated Image February 22, 2026 - 8_56PM

Las inteligencias artificiales ya superan los exámenes diseñados para evaluarlas

La metrología es la ciencia de la certeza absoluta. Definir el kilogramo requirió durante más de un siglo un cilindro exacto de platino iridio guardado celosamente bajo tres campanas de cristal en una bóveda de Sèvres. Evaluar la cognición algorítmica, por el contrario, se ha convertido en un ejercicio de fe estadística fundamentado en exámenes…

To access this post, you must purchase Suscripción Mundo IA Pro.

Leer Más
Generated Image February 22, 2026 - 8_49PM

Google descubrió que los modelos de IA que más escriben son los que más se equivocan

Pensar más no es pensar mejor Un estudio de Google y la Universidad de Virginia demuestra que los modelos de inteligencia artificial no mejoran su rendimiento por producir respuestas más largas, sino por procesar con mayor profundidad cada fragmento de lo que generan. La diferencia cambia todo lo que la industria creía saber sobre cómo…

To access this post, you must purchase Suscripción Mundo IA Pro.

Leer Más
Generated Image February 20, 2026 - 3_18PM

Tri-21B-Think: el modelo que alcanzó el top 30 global con 21 mil millones de parámetros y presupuesto mínimo

  Trillion Labs, una startup coreana con apenas un año de existencia, lanzó Tri-21B-Think: un sistema de razonamiento de 21 mil millones de parámetros que se ubica entre los 30 mejores del mundo, supera en eficiencia a modelos varias veces más…

Leer Más