Suscríbete a MUNDO IA

Etiqueta: benchmark

ChatGPT Image 29 may 2026, 20_52_22

DeepSWE revela qué modelos realmente saben programa

    DeepSWE, el nuevo benchmark de DataCurve, intenta medir algo que los rankings tradicionales todavía capturan mal: la capacidad de un agente de programación para entrar en un repositorio real, entender una consigna breve, modificar varios archivos, evitar regresiones y…

Leer Más
Cuatro pantallas - Fotorrealista

El ranking global de modelos de lenguaje muestra el empate más ajustado de la historia

  El ranking global Chatbot Arena+ del primer trimestre de 2026 revela algo inédito: Gemini 3.1 Pro, GPT-5.4, Claude Opus 4.6 y Grok 4.20 se separan por apenas diez puntos en una escala de miles. La era del modelo dominante terminó…

Leer Más
Generated Image March 03, 2026 - 12_43AM

Humanity’s Last Exam: el benchmark de Nature que los modelos de IA no pueden superar

  El Center for AI Safety y Scale AI publicaron en Nature el benchmark mas dificil jamas disenado para LLMs: 2.500 preguntas creadas por casi 1.000 expertos de 50 paises que los modelos mas avanzados del mundo no pueden responder. GPT-4o…

Leer Más
Robot corporativo agot_ndose

Diez dólares para sobrevivir: el experimento que obliga a los algoritmos a ganarse el sueldo

  El Data Intelligence Lab de la Universidad de Hong Kong diseñó un entorno donde los agentes de software reciben capital inicial, ejecutan tareas profesionales reales y pagan por cada operación que realizan. Si el saldo llega a cero, el agente…

Leer Más
Google_AI_Studio_2025-10-16T18_18_14.428Z

Adiós al exceso: benchmarks comprimidos sin perder precisión

      En la incesante carrera por construir inteligencias artificiales cada vez más potentes y capaces, la industria tecnológica ha operado durante años bajo una premisa aparentemente inmutable: más grande es mejor. Modelos de lenguaje colosales, alimentados con bibliotecas enteras…

Leer Más
f77a081e-0add-40ad-b26d-7f2698b7453c

En el diluvio de los papers, una IA al rescate del conocimiento

En los pasillos silenciosos de las universidades y en la quietud de los laboratorios, donde el conocimiento se destila gota a gota, se libra una batalla invisible pero feroz. No es una contienda por los descubrimientos en sí mismos, sino por…

Leer Más
dc3f078e-ad1d-4ad1-9219-b521892d06bd

GPT-5 Pro logra la puntuación más alta en el benchmark de razonamiento ARC-AGI

Hoy, en el vertiginoso mundo de la inteligencia artificial, se ha celebrado una coronación. GPT-5 Pro, el esperado nuevo modelo de OpenAI, ha conquistado la cima del prestigioso leaderboard de ARC Prize, logrando una impresionante puntuación de 72.4%. La noticia, por…

Leer Más
39c71e78-81ac-481a-89f9-509f8953233b

APEX y la pregunta del billón de dólares: ¿Son las IA realmente productivas?

Vivimos inmersos en una narrativa de cambio de era. La inteligencia artificial generativa, con su asombrosa capacidad para crear texto, imágenes y código, ha desatado una ola de inversión y entusiasmo que no tiene parangón en la historia reciente de la…

Leer Más
f6bd4392-d078-4d07-8da8-ecdae7f284e0

Midiendo la mente de la máquina: la nueva frontera en evaluación de IA

Hace apenas unos años, interactuar con una inteligencia artificial era un ejercicio de simplicidad. Podíamos pedirle que definiera la «fusión nuclear» y, con suerte, nos devolvería un párrafo conciso extraído de una enciclopedia digital. Era una herramienta útil, una especie de…

Leer Más
1df232b0-10f3-410f-a9f7-129f72854a48

El examen de realidad para la IA: por qué los agentes digitales del futuro aún no están listos

Estamos en el umbral de una nueva era para la inteligencia artificial, una donde la conversación evoluciona hacia la acción. Hemos dejado atrás la etapa de los chatbots pasivos para imaginar un ecosistema digital habitado por agentes autónomos: entidades de software…

Leer Más