benchmarks – Mundo IA

OpenAI lanzó su sistema más capaz hasta la fecha, uno que no solo responde preguntas sino que planifica, ejecuta, corrige y entrega resultados completos. La brecha entre asistente y agente acaba de cerrarse un tramo decisivo. Por el equipo editorial…

Free Modelos & Arquitecturas Modelos de Lenguaje Noticias y Opinión Últimas Noticias

agente, autonomía, benchmarks, openai, programación, ultimas-noticias

abril 24, 2026

Mundo IA

DeepSeek V4 llega con 1,6 billones de parámetros y precios que rompen el mercado

Un año después del terremoto financiero que provocó la caída bursátil más costosa de la historia de Nvidia, DeepSeek lanza V4: dos modelos de código abierto que combinan el mayor número de parámetros del ecosistema abierto con precios que dejan…

Free Modelos & Arquitecturas Modelos de Lenguaje Noticias y Opinión Últimas Noticias

benchmarks, código abierto, deepseek, Huawei, inferencia, ultimas-noticias

Generated Image February 22, 2026 - 8_56PM

febrero 22, 2026

Benjamin Vidal

Las inteligencias artificiales ya superan los exámenes diseñados para evaluarlas

La metrología es la ciencia de la certeza absoluta. Definir el kilogramo requirió durante más de un siglo un cilindro exacto de platino iridio guardado celosamente bajo tres campanas de cristal en una bóveda de Sèvres. Evaluar la cognición algorítmica, por el contrario, se ha convertido en un ejercicio de fe estadística fundamentado en exámenes…

To access this post, you must purchase Suscripción Mundo IA Pro.

Benchmarks Estudios académicos Modelos & Arquitecturas Modelos de Lenguaje

algoritmos, benchmarks, evaluación, noticias-destacadas, Puntuación, Saturación

Generated Image February 22, 2026 - 8_49PM

febrero 22, 2026

Andrea Rivera

Google descubrió que los modelos de IA que más escriben son los que más se equivocan

Pensar más no es pensar mejor Un estudio de Google y la Universidad de Virginia demuestra que los modelos de inteligencia artificial no mejoran su rendimiento por producir respuestas más largas, sino por procesar con mayor profundidad cada fragmento de lo que generan. La diferencia cambia todo lo que la industria creía saber sobre cómo…

To access this post, you must purchase Suscripción Mundo IA Pro.

Benchmarks Estudios académicos Modelos & Arquitecturas Modelos de Lenguaje

benchmarks, inferencia, noticias-destacadas, precisión, razonamiento, Tokens

Generated Image February 20, 2026 - 3_18PM

febrero 20, 2026

Mundo IA

Tri-21B-Think: el modelo que alcanzó el top 30 global con 21 mil millones de parámetros y presupuesto mínimo

Trillion Labs, una startup coreana con apenas un año de existencia, lanzó Tri-21B-Think: un sistema de razonamiento de 21 mil millones de parámetros que se ubica entre los 30 mejores del mundo, supera en eficiencia a modelos varias veces más…

Benchmarks Free Modelos & Arquitecturas Modelos de Lenguaje Noticias y Opinión Últimas Noticias

benchmarks, eficiencia, parámetros, razonamiento, startup, ultimas-noticias

Generated Image February 19, 2026 - 9_36PM

febrero 19, 2026

Benjamin Vidal

Repetir preguntas aumenta la precisión de la IA

Un pequeño desfase en el diseño de los cerebros digitales ha obligado a los ingenieros a replantearse la forma en que estas máquinas asimilan nuestras palabras. El acto de releer, que para un humano es un hábito instintivo ante la complejidad, se ha revelado recientemente como una herramienta de una potencia inesperada para los grandes…

To access this post, you must purchase Suscripción Mundo IA Pro.

Benchmarks Estudios académicos Modelos & Arquitecturas Modelos de Lenguaje

Autoatención, benchmarks, Causalidad, inferencia, noticias-destacadas, PromptRep

Generated Image February 19, 2026 - 7_32PM

febrero 19, 2026

Mundo IA

Gemini 3.1 Pro obtiene el puntaje más alto jamás registrado en el test de razonamiento abstracto más riguroso del sector

Tres meses después del lanzamiento de Gemini 3 Pro, Google vuelve con una versión que más que duplica el rendimiento en razonamiento abstracto y redefine, por segunda vez en un trimestre, el paisaje competitivo de los grandes modelos de lenguaje…

Free Modelos & Arquitecturas Modelos de Lenguaje Noticias y Opinión Últimas Noticias

agéntico, benchmarks, DeepMind, Gemini, razonamiento, ultimas-noticias

febrero 17, 2026

Mundo IA

Ckaude Sonnet 4.6: cuando lo accesible supera lo premium

Anthropic lanzó Claude Sonnet 4.6 con una ventana de contexto de un millón de tokens en beta, precios sin cambios y métricas que en varios rubros superan a su propio modelo insignia anterior. La ecuación precio-rendimiento que durante años fue el…

Agéntica Benchmarks Free Modelos & Arquitecturas Modelos de Lenguaje Noticias y Opinión Últimas Noticias

agentes, benchmarks, contexto, Rendimiento, Sonnet 4.6, ultimas-noticias

febrero 16, 2026

Mundo IA

Alibaba desata Qwen3.5 con capacidades que los modelos cerrados no pueden igualar

Qwen3.5 combina arquitectura dispersa de mezcla de expertos con atención lineal híbrida para alcanzar velocidades de decodificación 19 veces superiores a sus predecesores, mientras mantiene licencia Apache 2.0 y capacidades nativas multimodales que rivalizan con sistemas propietarios cerrados en tareas…

Benchmarks Free Modelos & Arquitecturas Modelos de Lenguaje Noticias y Opinión Últimas Noticias

arquitectura, benchmarks, multimodalidad, Qwen3.5, Rendimiento, ultimas-noticias

febrero 12, 2026

Mundo IA

Google lanza Gemini 3 Deep Think y supera el benchmark ARC-AGI 2 con un 84,6%

Gemini 3 Deep Think alcanza 84.6% en razonamiento abstracto, aplasta a GPT-5.2 y Claude en pruebas académicas extremas, y escala hasta 3455 puntos Elo en programación competitiva. El secreto: cadenas de razonamiento paralelas que exploran múltiples hipótesis simultáneamente en lugar…

Benchmarks Ciencia Free Modelos & Arquitecturas Modelos de Lenguaje Noticias y Opinión Últimas Noticias

benchmarks, científico, competidores, paralelo, razonamiento, ultimas-noticias

Etiqueta: benchmarks

GPT-5.5: el primer modelo de OpenAI diseñado para actuar, no solo responder

DeepSeek V4 llega con 1,6 billones de parámetros y precios que rompen el mercado

Las inteligencias artificiales ya superan los exámenes diseñados para evaluarlas

Google descubrió que los modelos de IA que más escriben son los que más se equivocan

Tri-21B-Think: el modelo que alcanzó el top 30 global con 21 mil millones de parámetros y presupuesto mínimo

Repetir preguntas aumenta la precisión de la IA

Gemini 3.1 Pro obtiene el puntaje más alto jamás registrado en el test de razonamiento abstracto más riguroso del sector

Ckaude Sonnet 4.6: cuando lo accesible supera lo premium

Alibaba desata Qwen3.5 con capacidades que los modelos cerrados no pueden igualar

Google lanza Gemini 3 Deep Think y supera el benchmark ARC-AGI 2 con un 84,6%

Categorías

Buscador

CONTACTO

Etiqueta: benchmarks

Categorías

Etiquetas

Buscador

CONTACTO