Nemotron 3 Super: NVIDIA lanza el modelo que recuerda toda la sesión de trabajo sin reiniciar el contexto

NVIDIA rompe el cuello de botella que frenaba a los agentes autónomos

Con Nemotron 3 Super, la compañía lanza un modelo de 120 mil millones de parámetros que activa apenas 12 mil millones durante la inferencia, resuelve el problema de la "explosión de contexto" que ahogaba los sistemas multiagente, y lo hace con pesos, datos y recetas completamente abiertos. La arquitectura híbrida que combina capas Mamba con Transformers marca una ruptura técnica respecto al diseño dominante de los últimos años.

Por el equipo editorial | 10 de marzo, 2026

Construir un agente autónomo que funcione bien en una demostración es relativamente sencillo. Hacer que ese mismo agente trabaje sin interrupciones durante horas, coordine subprocesos paralelos, recuerde el objetivo inicial y lo logre sin disparar los costos computacionales, es una empresa completamente distinta. Ese abismo entre la promesa y la práctica ha sido, durante años, el obstáculo real de la inteligencia artificial agéntica. El 10 de marzo de 2026, NVIDIA publicó Nemotron 3 Super, un modelo diseñado específicamente para cerrar esa brecha: no mediante más potencia bruta, sino a través de una arquitectura que reformula cómo los sistemas autónomos procesan, recuerdan y actúan sobre información extensa y compleja.

El modelo pertenece a la familia Nemotron 3, cuya variante inicial, Nano, fue presentada en diciembre de 2025. Super es la versión de escala mayor, con 120 mil millones de parámetros totales y apenas 12 mil millones activos en cada operación de inferencia. Esa asimetría no es un detalle de marketing: es la esencia del diseño. A diferencia de los modelos densos, donde cada parámetro trabaja para cada token procesado, Nemotron 3 Super utiliza una arquitectura de mezcla de expertos que activa solo las neuronas pertinentes a cada tarea concreta. El resultado es una reducción drástica del consumo de memoria y del tiempo de respuesta sin sacrificar capacidad de razonamiento, lo que lo convierte en un candidato serio para entornos de producción donde los costos por token son una restricción real.

El problema que los sistemas multiagente no podían resolver solos

Los flujos de trabajo con múltiples agentes tienen un vicio estructural que los ingenieros denominan "explosión de contexto". Cada vez que un agente completa un paso y transfiere el control al siguiente, envía consigo todo el historial acumulado: respuestas previas, resultados de herramientas, cadenas de razonamiento intermedias. En tareas complejas, esa acumulación puede generar hasta quince veces más tokens que una conversación ordinaria con un asistente de chat. El resultado es predecible: costos que escalan sin control, latencia que vuelve inutilizable el sistema en producción y agentes que, al saturarse de información, comienzan a perder de vista su objetivo original. En el vocabulario técnico del sector, ese fenómeno se llama "deriva de metas" y es uno de los problemas más costosos de remediar.

La segunda cara del mismo problema lleva el nombre de "impuesto de razonamiento". Los modelos avanzados, diseñados para pensar paso a paso antes de responder, generan miles de tokens de cadena interna por cada consulta. Cuando un agente debe invocar decenas de subtareas, esa carga se multiplica. Usar un modelo de gran capacidad para resolver cada microacción dentro de un flujo resulta prohibitivamente caro; la alternativa habitual, degradar la calidad del modelo para las acciones más simples, introduce errores en cascada y diluye el desempeño global del sistema.

        La magnitud del problema: Los sistemas multiagente modernos generan hasta 15 veces más tokens que las interacciones de chat estándar. Nemotron 3 Super responde con una ventana de contexto nativa de un millón de tokens, que permite a los agentes conservar en memoria todo el estado del flujo sin reenviar historiales completos en cada turno. El modelo logra cinco veces más rendimiento que su predecesor directo y el doble de precisión en tareas de razonamiento complejo.
    

NVIDIA diseñó Nemotron 3 Super para atacar ambas limitaciones de forma simultánea. La ventana de un millón de tokens elimina técnicamente la necesidad de truncar o resumir el historial: el agente no olvida porque, dentro de la sesión, no puede hacerlo. La arquitectura híbrida, por su parte, gestiona ese volumen sin los costos cuadráticos que caracterizan a los Transformers puros cuando los contextos superan varios cientos de miles de tokens. Estas dos decisiones de diseño no son independientes: se refuerzan mutuamente para producir un sistema que escala mejor cuanto más larga y compleja es la tarea que enfrenta.

Una arquitectura construida para no perder el hilo

El corazón técnico de Nemotron 3 Super es una columna vertebral que intercala tres tipos de capas con funciones diferenciadas. Las capas Mamba-2 procesan la mayor parte de las secuencias usando modelos de espacio de estados, una familia de arquitecturas que opera con complejidad lineal respecto a la longitud de la secuencia. Esa propiedad convierte en práctica, y no solo en teórica, la ventana de un millón de tokens: razonar sobre un repositorio de código completo, un historial extenso de interacciones o una pila de documentos recuperados ya no requiere una memoria que crezca de forma exponencial con cada token adicional.

Las capas de atención Transformer se intercalan en profundidades clave del modelo. Los sistemas basados exclusivamente en espacio de estados tienen dificultades con la recuperación asociativa precisa, el tipo de operación donde el modelo necesita localizar un dato específico enterrado entre información contradictoria o contextualmente ambigua. Las capas de atención preservan esa capacidad de recuperación de alta fidelidad. Las capas de mezcla de expertos, a su vez, escalan el conteo efectivo de parámetros sin los costos de la computación densa: solo una fracción de los especialistas se activa por token, lo que mantiene la latencia baja y el rendimiento alto incluso cuando muchos agentes operan en paralelo sobre la misma infraestructura compartida.

Mejoras cuantificadas de Nemotron 3 Super frente a arquitecturas de referencia: cada métrica expresa un multiplicador confirmado en el reporte técnico oficial de NVIDIA (marzo de 2026).

La innovación llamada Latent MoE amplifica este diseño de una manera técnicamente elegante. En los sistemas de mezcla de expertos convencionales, los tokens se enrutan directamente desde la dimensión oculta completa del modelo hacia los expertos, y esa capa de enrutamiento se convierte en un cuello de botella a medida que el modelo crece. Nemotron 3 Super proyecta los embeddings a un espacio latente comprimido antes de tomar la decisión de enrutamiento; el cómputo ocurre en esa dimensión reducida y los resultados se proyectan de vuelta al espacio completo del modelo. La consecuencia práctica es que el sistema puede consultar cuatro veces más especialistas con el mismo costo computacional que emplearía en activar uno solo. Esa granularidad fina es especialmente valiosa en entornos agénticos donde una sola conversación puede abarcar llamadas a herramientas, generación de código, análisis de datos y razonamiento conversacional en pocos turnos consecutivos.

La predicción de múltiples tokens simultáneos completa el cuadro de eficiencia. Los modelos de lenguaje estándar se entrenan para predecir un token a la vez, un objetivo que los hace miopes respecto a la estructura larga de la secuencia. Nemotron 3 Super incorpora cabezas de predicción especializadas que anticipan varios tokens futuros desde cada posición, con pesos compartidos entre todas las cabezas para evitar que cada una desarrolle atajos independientes. Durante el entrenamiento, ese diseño fuerza al modelo a internalizar dependencias lógicas de mayor alcance. En la inferencia, las mismas cabezas proveen borradores verificables en paralelo, lo que habilita aceleraciones de hasta tres veces en la generación de secuencias largas, sin necesitar un modelo auxiliar separado. En tareas de código y llamadas a herramientas estructuradas, la mejora de velocidad se percibe directamente en producción.

"Los agentes de inteligencia artificial necesitan modelos con la profundidad especializada para resolver problemas técnicos densos de forma autónoma. Deben sobresalir en razonamiento, codificación y análisis de contexto largo, al tiempo que permanecen lo suficientemente eficientes para ejecutarse de manera continua a escala." NVIDIA Developer Blog, 10 de marzo de 2026

El entrenamiento siguió tres fases secuenciales. El preentrenamiento procesó 25 billones de tokens usando el formato de punto flotante de 4 bits NVFP4, optimizado para la arquitectura Blackwell de NVIDIA. A diferencia de la práctica habitual de cuantizar modelos precisos después del entrenamiento, Nemotron 3 Super aprendió desde la primera actualización de gradiente dentro de los límites de la aritmética de 4 bits, produciendo un modelo matemáticamente estable en un perfil de memoria significativamente reducido. El ajuste supervisado refinó el comportamiento sobre cerca de siete millones de muestras extraídas de un corpus de 40 millones que cubre razonamiento, seguimiento de instrucciones, codificación, seguridad y tareas agénticas de múltiples pasos. El aprendizaje por refuerzo final afinó ese comportamiento en 21 configuraciones distintas de entorno y generó 1,2 millones de trayectorias de experiencia, evaluando no respuestas aisladas sino secuencias completas de acciones con criterios verificables.

Código abierto como palanca de influencia

La decisión de publicar Nemotron 3 Super con pesos, conjuntos de datos y recetas completamente abiertos no es un gesto de generosidad corporativa: es un movimiento calculado. NVIDIA compite en el ecosistema de los modelos fundacionales desde una posición estructuralmente diferente a la de OpenAI o Anthropic; su negocio central son los chips y la infraestructura de computación, no los servicios de modelo. Abrir el modelo reduce la fricción de adopción, genera un ecosistema de desarrolladores que construyen sobre la plataforma de la compañía y presiona a los proveedores propietarios a justificar sus precios y restricciones de acceso con argumentos más sólidos.

La apertura tiene, además, una dimensión técnica sustantiva. NVIDIA publica los diez billones de tokens curados del preentrenamiento, las quince tareas de refuerzo, los entornos de evaluación y las recetas completas que permiten reproducir el entrenamiento desde el primer gradiente. Eso habilita no solo el uso del modelo sino la investigación sobre su arquitectura, la adaptación a dominios específicos y la construcción de variantes locales sin dependencia de la infraestructura del fabricante. El modelo está disponible en Hugging Face, en los sistemas NVIDIA NIM, y a través de plataformas como vLLM, SGLang y TensorRT LLM, cada una con guías de configuración y scripts de referencia para distintos casos de despliegue.

Adopción temprana en sectores estratégicos: CodeRabbit, Factory y Greptile lo integran en sus agentes de desarrollo de software para tareas de mayor complejidad. En ciencias de la vida, Edison Scientific y Lila Sciences lo utilizan para revisión de literatura y análisis molecular. Amdocs, Palantir y Siemens lo están adaptando para automatizar procesos en telecomunicaciones y manufactura de semiconductores. Perplexity lo incorpora como uno de veinte modelos orquestados en su aplicación de búsqueda computacional avanzada.

Los resultados en pruebas de rendimiento respaldan las afirmaciones de eficiencia. En PinchBench, que evalúa modelos como cerebro de un agente autónomo de uso de computadora, Nemotron 3 Super alcanza 85,6%, posicionándolo como el mejor modelo abierto de su clase en esa prueba. El agente de investigación NVIDIA AI-Q, que utiliza este modelo como núcleo de razonamiento, lidera los marcadores de DeepResearch Bench y DeepResearch Bench II, benchmarks diseñados para evaluar la capacidad de un sistema para conducir investigación multietapa exhaustiva y verificable. En las plataformas de evaluación de eficiencia como Artificial Analysis, el modelo establece nuevos puntos de referencia combinando apertura y rendimiento en la misma arquitectura.

La familia Nemotron 3 revela también una filosofía de despliegue en capas con implicaciones prácticas directas para las organizaciones que construyen sistemas complejos. Nano es la opción adecuada para ejecutar pasos individuales y acotados dentro de un flujo agéntico. Super asume el rol de planificador y coordinador cuando las tareas escalan en complejidad o cuando el horizonte de decisión se extiende a través de decenas de pasos. Los modelos propietarios de mayor escala quedan reservados para las operaciones de más alta complejidad y menor frecuencia. Esa jerarquía reduce costos sin degradar la calidad en cada estrato del sistema; es, en cierta forma, la formalización técnica de lo que los equipos de ingeniería ya hacían empíricamente, pero con modelos diseñados explícitamente para ese rol.

Lo que Nemotron 3 Super representa, en términos más amplios, es la consolidación de un cambio de paradigma en el diseño de modelos de lenguaje a gran escala. Durante años, el enfoque dominante fue escalar el tamaño del modelo y confiar en que las capacidades emergentes surgirían del volumen de parámetros. La nueva generación de arquitecturas apuesta por la especialización modular, la eficiencia en tiempo de inferencia y la apertura como vectores de adopción acelerada. El agente autónomo que trabaja sin que nadie lo note no necesita el modelo más grande disponible: necesita el modelo más inteligente para su tarea, ejecutándose ahora, al costo que hace sostenible el negocio.

Referencias

NVIDIA Developer Blog. "Introducing Nemotron 3 Super: An Open Hybrid Mamba-Transformer MoE for Agentic Reasoning." developer.nvidia.com, 10 de marzo de 2026.

NVIDIA Blog. "New NVIDIA Nemotron 3 Super Delivers 5x Higher Throughput for Agentic AI." blogs.nvidia.com, 10 de marzo de 2026.

NVIDIA Research. "Nemotron 3 Super: Open, Efficient Mixture-of-Experts." Reporte técnico, research.nvidia.com, marzo de 2026.

Quantum Zeitgeist. "NVIDIA Model Addresses Context And Cost Challenges In Autonomous Agents." quantumzeitgeist.com, 11 de marzo de 2026.

VentureBeat. "Nvidia debuts Nemotron 3 with hybrid MoE and Mamba-Transformer to drive agentic AI." venturebeat.com, 15 de diciembre de 2025.

vLLM Blog. "Run Highly Efficient and Accurate Multi-Agent AI with NVIDIA Nemotron 3 Super." vllm.ai, 10 de marzo de 2026.

InfoWorld. "Nvidia launches Nemotron 3 Super to power enterprise AI agents." infoworld.com, 11 de marzo de 2026.

NVIDIA Build. "nemotron-3-super-120b-a12b Model Card." build.nvidia.com, 11 de marzo de 2026.

Together AI. "NVIDIA Nemotron 3 Super API." together.ai, 2026.

OpenRouter. "Nemotron 3 Super — API Pricing & Providers." openrouter.ai, 11 de marzo de 2026.

Nemotron 3 Super: NVIDIA lanza el modelo que recuerda toda la sesión de trabajo sin reiniciar el contexto