Categoría: Benchmarks

DeepSWE, el nuevo benchmark de DataCurve, intenta medir algo que los rankings tradicionales todavía capturan mal: la capacidad de un agente de programación para entrar en un repositorio real, entender una consigna breve, modificar varios archivos, evitar regresiones y…

Actualidad IA Benchmarks Free Noticias y Opinión Últimas Noticias

benchmark, DeepSWE, programación, repositorios, ultimas-noticias, verificadores

mayo 29, 2026

Mundo IA

Claude Opus 4.8 cambia la carrera por los agentes autónomos

Anthropic presentó Claude Opus 4.8 el mismo día en que anunció una ronda Serie H de 65.000 millones de dólares, con una valuación post-money de 965.000 millones. El movimiento combina una mejora técnica concentrada en programación, agentes y trabajo profesional…

Agéntica Benchmarks Modelos & Arquitecturas Modelos de Lenguaje Noticias y Opinión Últimas Noticias

agentes, Anthropic, automatización, Claude, programación, ultimas-noticias

marzo 29, 2026

Mundo IA

El ranking global de modelos de lenguaje muestra el empate más ajustado de la historia

El ranking global Chatbot Arena+ del primer trimestre de 2026 revela algo inédito: Gemini 3.1 Pro, GPT-5.4, Claude Opus 4.6 y Grok 4.20 se separan por apenas diez puntos en una escala de miles. La era del modelo dominante terminó…

Actualidad IA Benchmarks Free Modelos de Lenguaje Noticias y Opinión Últimas Noticias

benchmark, Elo, modelos de lenguaje, paridad, ranking, ultimas-noticias

Generated Image March 09, 2026 - 10_35PM

marzo 10, 2026

Mundo IA

Sistemas que superan a humanos en nivel doctoral

La irrupción del sistema GPT-5.4 Pro en el examen FrontierMath desmantela la creencia de que las matemáticas de nivel de investigación eran inalcanzables para los modelos de síntesis; un hallazgo que redefine el papel del descubrimiento científico en la era de…

Actualidad IA Benchmarks Ciencia Free Modelos de Lenguaje Noticias y Opinión Sistemas Últimas Noticias

algoritmos, Doctorado, Lógica, Matemáticas, razonamiento, ultimas-noticias

marzo 5, 2026

Mundo IA

Nuevos exámenes para sistemas expertos

El agotamiento de los exámenes tradicionales obliga a la comunidad científica a diseñar murallas matemáticas casi infranqueables para distinguir la imitación de la verdadera capacidad deductiva de los sistemas modernos. Por el equipo editorial | 5 de marzo, 2026 Imaginen…

Benchmarks Free Investigación & Ciencia Noticias y Opinión Últimas Noticias

algoritmos, evaluación, Lógica, Matemáticas, razonamiento, ultimas-noticias

Generated Image March 03, 2026 - 12_43AM

marzo 3, 2026

Mundo IA

Humanity’s Last Exam: el benchmark de Nature que los modelos de IA no pueden superar

El Center for AI Safety y Scale AI publicaron en Nature el benchmark mas dificil jamas disenado para LLMs: 2.500 preguntas creadas por casi 1.000 expertos de 50 paises que los modelos mas avanzados del mundo no pueden responder. GPT-4o…

Benchmarks Free Modelos & Arquitecturas Modelos de Lenguaje Noticias y Opinión Últimas Noticias

benchmark, Calibración, evaluación, llm, Saturación, ultimas-noticias

Generated Image February 27, 2026 - 9_22PM

febrero 27, 2026

Mundo IA

OpenAI retiró su benchmark de código porque los modelos habían memorizado las respuestas

Cuando OpenAI reconoció que SWE-bench Verified estaba contaminado y lo retiró, confirmó lo que muchos sospechaban: los modelos de lenguaje habían aprendido las respuestas, no la materia. Un equipo de investigadores respondió con un sistema de evaluación que se renueva…

Actualidad IA AI = Avances Benchmarks Modelos de Lenguaje Noticias y Opinión Sistemas

benchmark de código, Contaminación de datos, evaluación en tiempo real, pull requests, revisión automatizada, ultimas-noticias

Generated Image February 22, 2026 - 8_56PM

febrero 22, 2026

Benjamin Vidal

Las inteligencias artificiales ya superan los exámenes diseñados para evaluarlas

La metrología es la ciencia de la certeza absoluta. Definir el kilogramo requirió durante más de un siglo un cilindro exacto de platino iridio guardado celosamente bajo tres campanas de cristal en una bóveda de Sèvres. Evaluar la cognición algorítmica, por el contrario, se ha convertido en un ejercicio de fe estadística fundamentado en exámenes…

To access this post, you must purchase Suscripción Mundo IA Pro.

Benchmarks Estudios académicos Modelos & Arquitecturas Modelos de Lenguaje

algoritmos, benchmarks, evaluación, noticias-destacadas, Puntuación, Saturación

Generated Image February 22, 2026 - 8_49PM

febrero 22, 2026

Andrea Rivera

Google descubrió que los modelos de IA que más escriben son los que más se equivocan

Pensar más no es pensar mejor Un estudio de Google y la Universidad de Virginia demuestra que los modelos de inteligencia artificial no mejoran su rendimiento por producir respuestas más largas, sino por procesar con mayor profundidad cada fragmento de lo que generan. La diferencia cambia todo lo que la industria creía saber sobre cómo…

To access this post, you must purchase Suscripción Mundo IA Pro.

Benchmarks Estudios académicos Modelos & Arquitecturas Modelos de Lenguaje

benchmarks, inferencia, noticias-destacadas, precisión, razonamiento, Tokens

Generated Image February 20, 2026 - 3_18PM

febrero 20, 2026

Mundo IA

Tri-21B-Think: el modelo que alcanzó el top 30 global con 21 mil millones de parámetros y presupuesto mínimo

Trillion Labs, una startup coreana con apenas un año de existencia, lanzó Tri-21B-Think: un sistema de razonamiento de 21 mil millones de parámetros que se ubica entre los 30 mejores del mundo, supera en eficiencia a modelos varias veces más…

Benchmarks Free Modelos & Arquitecturas Modelos de Lenguaje Noticias y Opinión Últimas Noticias

benchmarks, eficiencia, parámetros, razonamiento, startup, ultimas-noticias

Categoría: Benchmarks

DeepSWE revela qué modelos realmente saben programa

Claude Opus 4.8 cambia la carrera por los agentes autónomos

El ranking global de modelos de lenguaje muestra el empate más ajustado de la historia

Sistemas que superan a humanos en nivel doctoral

Nuevos exámenes para sistemas expertos

Humanity’s Last Exam: el benchmark de Nature que los modelos de IA no pueden superar

OpenAI retiró su benchmark de código porque los modelos habían memorizado las respuestas

Las inteligencias artificiales ya superan los exámenes diseñados para evaluarlas

Google descubrió que los modelos de IA que más escriben son los que más se equivocan

Tri-21B-Think: el modelo que alcanzó el top 30 global con 21 mil millones de parámetros y presupuesto mínimo

Categorías

Buscador

CONTACTO

Categoría: Benchmarks

Categorías

Etiquetas

Buscador

CONTACTO