Grok 4.20 es ahora el sistema de razonamiento más veloz y preciso del mercado

El modelo que rompió el último examen de la humanidad

Grok 4, el sistema de razonamiento de xAI entrenado con 200.000 GPUs y diez veces el cómputo de cualquier rival anterior, superó el 50% en el referente académico diseñado para resistir a las máquinas. Su iteración más reciente, Grok 4.20, lanzada en marzo de 2026, añade velocidad récord, una tasa de alucinación sin precedentes en la industria y una arquitectura multi-agente que debate consigo misma antes de responder.

Por el equipo editorial | 15 de marzo, 2026

El Humanity's Last Exam nació como una declaración de principios. Sus creadores lo diseñaron con una sola premisa: recopilar los problemas más difíciles que la humanidad ha producido, desde física de partículas hasta filosofía analítica y genómica computacional, y usarlos para medir con honestidad cuánto falta para que los sistemas algorítmicos igualen a los expertos más sofisticados del planeta. Durante años, ningún modelo superó el 20%. La barrera no era arbitraria; reflejaba una brecha real entre el razonamiento profundo y la capacidad de extrapolación de los grandes modelos de lenguaje. Ese escenario cambió el 9 de julio de 2025, cuando xAI, la compañía de Elon Musk, presentó Grok 4 ante una audiencia en línea que esperaba con impaciencia y obtuvo algo más que un nuevo modelo: un reordenamiento de lo que hasta ese momento se consideraba posible.

En su configuración más potente, denominada Grok 4 Heavy, el sistema alcanzó el 50,7% en ese examen cuando opera en modo multi-agente con herramientas habilitadas. Sin ese andamiaje adicional, con un único agente y acceso a ejecución de código, la marca llegó al 41%. Ningún sistema anterior había superado el 26,9% sin herramientas externas. La diferencia no admite descripción incremental: fue una ruptura categórica respecto de todo lo publicado hasta ese momento.

Musk, durante el lanzamiento, afirmó que Grok 4 era "mejor que el nivel de doctorado en todas las materias, sin excepciones". La frase fue recibida con el escepticismo habitual que acompañan sus declaraciones, pero los datos independientes que siguieron se mostraron notablemente difíciles de desestimar.

El motor detrás del salto

La historia de Grok 4 no empieza en un escenario de presentación, sino en un edificio industrial de Memphis, Tennessee, donde xAI opera Colossus, su supercomputadora de 200.000 unidades de procesamiento gráfico H100. La escala del sistema no tiene parangón entre las instalaciones de entrenamiento públicamente documentadas. Para este modelo, la empresa aplicó más de diez veces el cómputo invertido en la generación anterior, con una eficiencia que el propio equipo asegura haber multiplicado por seis gracias a innovaciones simultáneas en infraestructura y algoritmos propios.

El elemento técnico que distingue a Grok 4 de sus predecesores no es únicamente la escala bruta, sino el giro radical hacia el aprendizaje por refuerzo. Tony Wu, investigador científico de xAI, lo articuló con precisión durante el lanzamiento: el salto de Grok 3 a Grok 4 implicó concentrar una proporción inédita del cómputo disponible en razonamiento y en técnicas de RL que permiten al modelo corregirse a sí mismo a través de millones de iteraciones sobre problemas verificables. Lo notable es que xAI no limitó ese proceso a matemáticas y código, los dominios habituales donde el entrenamiento verificable resulta más manejable, sino que lo extendió a una masa mucho más amplia de datos estructurados en dominios dispares, desde ciencias naturales hasta lógica jurídica.

"Desde Grok 3 hasta Grok 4, estamos poniendo mucho cálculo en el razonamiento y RL." Tony Wu, investigador científico de xAI, julio de 2025

La arquitectura multi-agente de Grok 4 Heavy es otra pieza central del diseño. En lugar de una única cadena de pensamiento procesando una consulta en secuencia, el sistema despliega instancias paralelas que razonan de forma independiente y sintetizan sus conclusiones antes de producir una respuesta. Este mecanismo, comercializado bajo la suscripción SuperGrok Heavy a 300 dólares mensuales, explica una parte significativa de la diferencia de rendimiento entre la versión estándar y la variante más potente. En el referente ARC-AGI V2, una prueba de abstracción concebida específicamente para resistir la memorización de patrones, Grok 4 alcanzó el 15,9%, prácticamente el doble del 8,6% registrado por Claude Opus 4 de Anthropic, que ocupaba el segundo lugar. Fue también el primer sistema en superar el umbral del 10% en esa evaluación.

El rendimiento en el Vending-Bench, una simulación de agencia económica donde los modelos administran recursos y toman decisiones autónomas en horizontes temporales prolongados, añadió otra capa de evidencia. Grok 4 Heavy acumuló un patrimonio neto promedio de 4.694 dólares y completó 4.569 unidades vendidas en cinco corridas consecutivas. Claude Opus 4 llegó a 2.077 dólares y 1.412 unidades. Los participantes humanos de referencia terminaron en 844 dólares y 344 unidades. El sistema no solo superó a sus rivales algorítmicos: superó a las personas asignadas a la misma tarea.

Índice de Inteligencia de Artificial Analysis (marzo de 2026): comparación entre los principales modelos del mercado. Grok 4.20 Beta obtiene 48 puntos con razonamiento habilitado, seis puntos por encima de Grok 4. GPT-5.4 y Gemini 3.1 Pro Preview lideran con 57. Fuentes: Artificial Analysis (artificialanalysis.ai), Build Fast with AI (marzo de 2026).

Lo que los números dicen y lo que callan

El panorama competitivo se complica cuando se observa el índice de inteligencia publicado por Artificial Analysis, la firma independiente de evaluación que produce mediciones estandarizadas para toda la industria. Grok 4 obtuvo 42 puntos en ese índice al momento de su lanzamiento. GPT-5.4 de OpenAI y Gemini 3.1 Pro Preview de Google registraron 57 puntos cada uno: una distancia que los analistas señalaron como prueba de que el dominio en ciertos referentes específicos no equivale a superioridad en el espectro completo de capacidades. En codificación de software, medida por SWE-bench Verified, la diferencia entre los tres sistemas de cabeza resultó casi irrelevante en términos prácticos: Grok 4 marcó 75%, GPT-5 llegó al 74,9% y Claude Opus 4.6 se situó en 72,5%. El campo no tiene un ganador sin condiciones.

Lo que sí distingue a la familia Grok en ese contexto es la relación entre rendimiento y precio. Grok 4.20, la versión beta lanzada el 17 de febrero de 2026 y estabilizada el 9 de marzo, ofrece acceso vía API a 2 dólares por millón de tokens de entrada y 6 por millón de salida: cifras que lo ubican como la opción frontera de menor costo por token de salida entre los modelos occidentales del mismo rango. Claude Opus 4.6 cobra 5 dólares de entrada y 25 de salida. GPT-5.4 cobra 2,50 de entrada y 14 de salida. La comparación es relevante no solo para desarrolladores individuales, sino para empresas que ejecutan millones de llamadas mensuales, donde las diferencias de precio se convierten en decisiones estratégicas.

Grok 4 y Grok 4.20: cifras clave

Humanity's Last Exam: 50,7% en modo Heavy multi-agente con herramientas; 41% agente único con herramientas; 26,9% sin herramientas.

ARC-AGI V2: 15,9%, primer modelo en superar el 10% y prácticamente el doble del segundo lugar (Claude Opus 4, 8,6%).

GPQA Diamond (ciencia a nivel PhD): 88%, récord al momento del lanzamiento.

Colossus: 200.000 GPUs H100; más de 10 veces el cómputo de la generación anterior; eficiencia de entrenamiento mejorada 6 veces.

Grok 4.20 Beta (razonamiento): 48 puntos en el Índice de Artificial Analysis; 258 tokens/segundo; ventana de contexto de 2 millones de tokens; tasa de no-alucinación del 78% (récord de la industria).

La arquitectura que debate consigo misma

Grok 4.20 no es una actualización cosmética de su predecesor. La versión introduce dos cambios de fondo que alteran la lógica de funcionamiento del sistema. El primero es lo que xAI denomina Rapid Learning Architecture: a diferencia de todos los modelos anteriores de la compañía, Grok 4.20 actualiza sus propias capacidades semanalmente a partir del uso real en producción, sin que el usuario descargue nada ni espere un ciclo de entrenamiento formal. El modelo que existe hoy es funcionalmente distinto al que existía hace un mes, y lo seguirá siendo el mes próximo.

El segundo cambio es la colaboración nativa entre agentes especializados. Donde Grok 4 Heavy usaba múltiples instancias paralelas del mismo modelo, Grok 4.20 incorpora cuatro submodelos con roles diferenciados que operan sobre una arquitectura compartida de Mixture-of-Experts. Grok actúa como coordinador general; Harper se ocupa de la investigación en tiempo real a partir de datos de X y la web; Benjamin concentra su capacidad en lógica, matemáticas y código; Lucas existe para contradecir a los demás, buscar fallas en los razonamientos emergentes y forzar la revisión de conclusiones antes de que lleguen al usuario. El resultado es un proceso de verificación interna que, según los datos publicados por Artificial Analysis, reduce la tasa de alucinación desde aproximadamente el 12% de los modelos de agente único hasta el 4,2% en modo multi-agente.

Esa tasa de no-alucinación del 78% registrada en el referente AA-Omniscience es, a fecha de marzo de 2026, la más alta documentada por esa firma para cualquier modelo en evaluación. El indicador mide con qué frecuencia un sistema admite que no sabe algo en lugar de fabricar una respuesta plausible pero incorrecta, y es quizás el dato más relevante para quienes despliegan estos sistemas en entornos productivos donde un error con confianza puede causar daños reales.

La velocidad de inferencia de Grok 4.20 amplía esa ventaja competitiva. El modelo opera a 258 tokens por segundo en la infraestructura de xAI, frente a los 46,5 tokens por segundo del Grok 4 original. Para tareas que requieren respuestas inmediatas a gran volumen, la diferencia no es técnicamente marginal: es la que separa un sistema utilizable en producción en tiempo real de uno reservado para análisis batch.

El 12 de marzo de 2026, Musk confirmó en X que Beta 3 de Grok 4.20 ya estaba en desarrollo activo, con correcciones y mejoras funcionales prometidas sin cronograma preciso. La cadencia de las versiones anteriores, con un intervalo de catorce días entre Beta 1 y Beta 2, sugiere que el ciclo de iteración continúa siendo inusualmente rápido para el sector. Mientras tanto, el acceso API a la variante multi-agente permanece en estado "próximamente" para desarrolladores, que por ahora trabajan con las variantes de razonamiento y no-razonamiento.

En el horizonte más lejano, Musk declaró en octubre de 2025 que Grok tendría un 10% de probabilidades, y en alza, de comenzar a "inventar nuevas tecnologías" en 2026 y de potencialmente "descubrir nueva física". La afirmación fue recibida con escepticismo predecible, aunque los analistas más cautelosos señalaron que la velocidad de progresión entre versiones hace que incluso los pronósticos más ambiciosos sean difíciles de descartar con la misma velocidad con que habrían merecido ser descartados hace apenas dos años. Grok 5, cuya existencia no ha sido confirmada formalmente, ya circula en los foros técnicos como especulación seria. La cadencia de lanzamientos de xAI sugiere que la espera, en cualquier caso, no será larga.

Referencias

xAI. "Grok 4." Comunicado oficial de lanzamiento, julio de 2025. x.ai/news/grok-4

xAI. "Grok 4.1." Nota técnica, noviembre de 2025. x.ai/news/grok-4-1

Artificial Analysis. "Grok 4.20 Beta 0309: Intelligence, Performance & Price Analysis." Publicado el 10-11 de marzo de 2026. artificialanalysis.ai/models/grok-4-20

Artificial Analysis (@ArtificialAnlys). Hilo en X sobre Grok 4.20 Beta 0309. 11 de marzo de 2026.

Build Fast with AI. "Grok 4.20 Beta Explained: Non-Reasoning vs Reasoning vs Multi-Agent (2026)." 13 de marzo de 2026. buildfastwithai.com

AIBase News. "xAI releases Grok 4.20: Significant improvement in reasoning capabilities." 12 de marzo de 2026.

LinkedIn / Artificial Analysis. "Grok 4.20 Beta Released." 11 de marzo de 2026.

Designforonline. "xAI: Grok 4.20 Multi-Agent Beta Review." 13 de marzo de 2026.

Grok 4.20 es ahora el sistema de razonamiento más veloz y preciso del mercado