Suscríbete a MUNDO IA

Etiqueta: benchmarks

ChatGPT Image 24 abr 2026, 16_44_05

GPT-5.5: el primer modelo de OpenAI diseñado para actuar, no solo responder

  OpenAI lanzó su sistema más capaz hasta la fecha, uno que no solo responde preguntas sino que planifica, ejecuta, corrige y entrega resultados completos. La brecha entre asistente y agente acaba de cerrarse un tramo decisivo. Por el equipo editorial…

Leer Más
ChatGPT Image 24 abr 2026, 15_31_33

DeepSeek V4 llega con 1,6 billones de parámetros y precios que rompen el mercado

  Un año después del terremoto financiero que provocó la caída bursátil más costosa de la historia de Nvidia, DeepSeek lanza V4: dos modelos de código abierto que combinan el mayor número de parámetros del ecosistema abierto con precios que dejan…

Leer Más
Generated Image February 22, 2026 - 8_56PM

Las inteligencias artificiales ya superan los exámenes diseñados para evaluarlas

La metrología es la ciencia de la certeza absoluta. Definir el kilogramo requirió durante más de un siglo un cilindro exacto de platino iridio guardado celosamente bajo tres campanas de cristal en una bóveda de Sèvres. Evaluar la cognición algorítmica, por el contrario, se ha convertido en un ejercicio de fe estadística fundamentado en exámenes…

To access this post, you must purchase Suscripción Mundo IA Pro.

Leer Más
Generated Image February 22, 2026 - 8_49PM

Google descubrió que los modelos de IA que más escriben son los que más se equivocan

Pensar más no es pensar mejor Un estudio de Google y la Universidad de Virginia demuestra que los modelos de inteligencia artificial no mejoran su rendimiento por producir respuestas más largas, sino por procesar con mayor profundidad cada fragmento de lo que generan. La diferencia cambia todo lo que la industria creía saber sobre cómo…

To access this post, you must purchase Suscripción Mundo IA Pro.

Leer Más
Generated Image February 20, 2026 - 3_18PM

Tri-21B-Think: el modelo que alcanzó el top 30 global con 21 mil millones de parámetros y presupuesto mínimo

  Trillion Labs, una startup coreana con apenas un año de existencia, lanzó Tri-21B-Think: un sistema de razonamiento de 21 mil millones de parámetros que se ubica entre los 30 mejores del mundo, supera en eficiencia a modelos varias veces más…

Leer Más
Generated Image February 19, 2026 - 9_36PM

Repetir preguntas aumenta la precisión de la IA

Un pequeño desfase en el diseño de los cerebros digitales ha obligado a los ingenieros a replantearse la forma en que estas máquinas asimilan nuestras palabras. El acto de releer, que para un humano es un hábito instintivo ante la complejidad, se ha revelado recientemente como una herramienta de una potencia inesperada para los grandes…

To access this post, you must purchase Suscripción Mundo IA Pro.

Leer Más
Generated Image February 19, 2026 - 7_32PM

Gemini 3.1 Pro obtiene el puntaje más alto jamás registrado en el test de razonamiento abstracto más riguroso del sector

  Tres meses después del lanzamiento de Gemini 3 Pro, Google vuelve con una versión que más que duplica el rendimiento en razonamiento abstracto y redefine, por segunda vez en un trimestre, el paisaje competitivo de los grandes modelos de lenguaje…

Leer Más
Centro de an_lisis Claude

Ckaude Sonnet 4.6: cuando lo accesible supera lo premium

Anthropic lanzó Claude Sonnet 4.6 con una ventana de contexto de un millón de tokens en beta, precios sin cambios y métricas que en varios rubros superan a su propio modelo insignia anterior. La ecuación precio-rendimiento que durante años fue el…

Leer Más
App Qwen activa

Alibaba desata Qwen3.5 con capacidades que los modelos cerrados no pueden igualar

  Qwen3.5 combina arquitectura dispersa de mezcla de expertos con atención lineal híbrida para alcanzar velocidades de decodificación 19 veces superiores a sus predecesores, mientras mantiene licencia Apache 2.0 y capacidades nativas multimodales que rivalizan con sistemas propietarios cerrados en tareas…

Leer Más
Sala de Servidores 2

Google lanza Gemini 3 Deep Think y supera el benchmark ARC-AGI 2 con un 84,6%

  Gemini 3 Deep Think alcanza 84.6% en razonamiento abstracto, aplasta a GPT-5.2 y Claude en pruebas académicas extremas, y escala hasta 3455 puntos Elo en programación competitiva. El secreto: cadenas de razonamiento paralelas que exploran múltiples hipótesis simultáneamente en lugar…

Leer Más