Suscríbete a MUNDO IA

Categoría: Benchmarks

Generated Image February 19, 2026 - 9_36PM

Repetir preguntas aumenta la precisión de la IA

Un pequeño desfase en el diseño de los cerebros digitales ha obligado a los ingenieros a replantearse la forma en que estas máquinas asimilan nuestras palabras. El acto de releer, que para un humano es un hábito instintivo ante la complejidad, se ha revelado recientemente como una herramienta de una potencia inesperada para los grandes…

To access this post, you must purchase Suscripción Mundo IA Pro.

Leer Más
Generated Image February 18, 2026 - 9_21PM

OpenAI y Paradigm confirman: los agentes de IA atacan contratos cripto mejor de lo que los defienden

  OpenAI y Paradigm publicaron EVMbench, el primer estándar público que mide con precisión cuánto puede hacer un agente algorítmico contra contratos inteligentes vulnerables. Los resultados revelan una paradoja incómoda: el sistema es considerablemente más hábil para atacar que para reparar,…

Leer Más
Centro de an_lisis Claude

Ckaude Sonnet 4.6: cuando lo accesible supera lo premium

Anthropic lanzó Claude Sonnet 4.6 con una ventana de contexto de un millón de tokens en beta, precios sin cambios y métricas que en varios rubros superan a su propio modelo insignia anterior. La ecuación precio-rendimiento que durante años fue el…

Leer Más
App Qwen activa

Alibaba desata Qwen3.5 con capacidades que los modelos cerrados no pueden igualar

  Qwen3.5 combina arquitectura dispersa de mezcla de expertos con atención lineal híbrida para alcanzar velocidades de decodificación 19 veces superiores a sus predecesores, mientras mantiene licencia Apache 2.0 y capacidades nativas multimodales que rivalizan con sistemas propietarios cerrados en tareas…

Leer Más
Sala de Servidores 2

Google lanza Gemini 3 Deep Think y supera el benchmark ARC-AGI 2 con un 84,6%

  Gemini 3 Deep Think alcanza 84.6% en razonamiento abstracto, aplasta a GPT-5.2 y Claude en pruebas académicas extremas, y escala hasta 3455 puntos Elo en programación competitiva. El secreto: cadenas de razonamiento paralelas que exploran múltiples hipótesis simultáneamente en lugar…

Leer Más
Google_AI_Studio_2026-02-06T22_51_27.578Z

Kimi K2.5 orquesta 100 cerebros digitales en paralelo: así destruye la competencia

  Moonshot AI lanzó Kimi K2.5 en enero de 2026 sin fanfarrias ni ruido mediático, pero esta actualización representa un salto radical en arquitectura multimodal. Con capacidad para generar hasta cien sub-agentes que ejecutan 1.500 llamadas a herramientas en paralelo, el…

Leer Más
Google_AI_Studio_2026-02-06T20_00_50.974Z

METR descubre que sistemas autónomos alcanzarán semanas de trabajo antes de 2030

  METR introduce el horizonte temporal como medida de resistencia autónoma: la duración de tareas humanas que los sistemas pueden completar con 50% de confiabilidad. GPT-5.2 establece un récord con 6.6 horas, mientras que la tendencia exponencial con duplicación cada siete…

Leer Más
Google_AI_Studio_2026-01-13T03_39_33.926Z

La tabla periódica que predice algoritmos que aún no existen

La tabla periódica que ordena el caos algorítmico Físicos de Emory y científicos del MIT proponen sistemas de clasificación inspirados en Mendeléyev para organizar el universo de métodos computacionales. Mientras los modelos GPT-5.2, Claude Opus 4.5 y Gemini 3 Pro dominan los rankings de enero de 2026, estas taxonomías prometen revolucionar cómo diseñamos, comparamos y…

To access this post, you must purchase Suscripción Mundo IA Pro.

Leer Más
Google_AI_Studio_2026-01-12T03_35_00.383Z

Silencio, por favor: Un estudio revela que pagamos un 200% de sobreprecio en texto inútil

La tiranía de los tokens vacíos: Por qué la IA más avanzada del mundo ha olvidado el arte de callarse Le pides un simple «sí» o «no», pero a cambio recibes tres párrafos de contexto histórico, dos advertencias de seguridad y un resumen que nadie solicitó. Un nuevo estudio de Tabularis.ai presenta «YapBench», el primer…

To access this post, you must purchase Suscripción Mundo IA Pro.

Leer Más
Google_AI_Studio_2026-01-12T03_20_17.123Z

¿Somos más tontos cuando la IA es más lista?

Informe Especial: La Mente Subcontratada Una inmersión profunda en el impacto de la inteligencia artificial sobre la fisiología del pensamiento humano y el intenso debate científico acerca de la deuda cognitiva en la era de los grandes modelos de lenguaje. La crónica de la civilización humana es, en esencia, la historia de una externalización progresiva…

To access this post, you must purchase Suscripción Mundo IA Pro.

Leer Más