NEWSLETTER

Menos parámetros, más poder: la arquitectura experta de ERNIE

Generated Image November 14, 2025 - 8_12PM

Menos parámetros, más poder: la arquitectura experta de ERNIE

Baidu revela su as bajo la manga: un modelo que piensa con imágenes y supera a los gigantes occidentales
El gigante tecnológico chino lanza ERNIE, una arquitectura multimodal que activa solo 3.000 millones de parámetros pero iguala o vence a GPT-5 y Gemini en tareas críticas empresariales. Su estrategia dual de código abierto y modelos propietarios redefine las reglas del mercado global

En el competitivo escenario de los modelos de lenguaje masivos, donde cada nueva versión promete revoluciones incrementales, Baidu acaba de ejecutar una jugada que podría cambiar fundamentalmente las reglas del juego. La compañía china ha presentado dos variantes de su arquitectura multimodal que desafían el paradigma occidental de que más grande siempre significa mejor: un modelo de código abierto con 28.000 millones de parámetros totales que activa solo 3.000 millones durante la operación, y una versión propietaria de última generación con capacidades omnimodales nativas.

La revelación más sorprendente proviene de la variante denominada ERNIE-4.5-VL-28B-A3B-Thinking, cuyo nombre kilométrico esconde una innovación técnica notable. Este sistema, liberado bajo licencia Apache 2.0, demuestra rendimientos superiores a GPT-5-High de OpenAI y Gemini 2.5 Pro de Google en pruebas específicas de comprensión visual y razonamiento matemático, a pesar de utilizar una fracción minúscula de los recursos computacionales. En el benchmark MathVista, la propuesta china alcanza 82.5 puntos frente a los 82.3 de Gemini y 81.3 de GPT. En ChartQA, la diferencia se amplía dramáticamente: 87.1 para el modelo de Baidu contra 76.3 de Gemini y 78.2 de GPT.

Lo que distingue a estos desarrollos no es simplemente su rendimiento en métricas abstractas, sino su enfoque pragmático hacia problemas empresariales concretos. Mientras los competidores occidentales persiguen la inteligencia general, Baidu ha optimizado su arquitectura para tareas que las corporaciones enfrentan diariamente: interpretar diagramas técnicos complejos, analizar documentos densos con gráficos embebidos, procesar feeds de video de líneas de producción, y extraer información de dashboards logísticos. Esta especialización refleja una comprensión profunda de que el valor empresarial no siempre reside en la capacidad conversacional más sofisticada, sino en resolver problemas específicos con eficiencia brutal.

La arquitectura que desafía la lógica convencional

El corazón técnico del desarrollo de Baidu reside en su implementación de Mixture of Experts (MoE), una arquitectura que divide el modelo en múltiples sub-redes especializadas. Imaginar este diseño requiere abandonar la metáfora tradicional del cerebro monolítico para adoptar la visión de un consejo de expertos altamente especializados. Cuando llega una consulta, un mecanismo de enrutamiento sofisticado determina cuáles expertos deben activarse, similar a cómo una empresa consultora asignaría especialistas específicos según la naturaleza del proyecto.

Esta aproximación resuelve uno de los dilemas fundamentales del aprendizaje profundo moderno: cómo escalar capacidades sin escalar costos proporcionalmente. Los modelos densos tradicionales activan todos sus parámetros para cada consulta, consumiendo recursos masivos incluso para tareas triviales. La arquitectura MoE implementada aquí, por contraste, mantiene dormidos la mayoría de sus 28.000 millones de parámetros, activando selectivamente solo los 3.000 millones más relevantes. El resultado es un sistema que puede mantener el conocimiento y las capacidades de un modelo grande mientras opera con la eficiencia de uno mucho más pequeño.

La implementación específica de Baidu introduce una innovación adicional: una estructura heterogénea multimodal que permite compartir parámetros entre modalidades mientras mantiene expertos dedicados para cada tipo de entrada. Esta decisión arquitectónica permite que el modelo procese texto, imágenes, audio y video de manera conjunta sin que una modalidad comprometa el rendimiento de las otras. Durante el entrenamiento, técnicas avanzadas como GSPO (Generalized Sparse Policy Optimization) e IcePop estabilizan el proceso de aprendizaje, mientras que el muestreo dinámico de dificultad asegura que el modelo se exponga progresivamente a problemas más complejos.

Pero quizás la característica más fascinante sea "Thinking with Images", una capacidad que permite al sistema hacer zoom dinámicamente en regiones específicas de una imagen, examinar detalles granulares, y razonar iterativamente sobre elementos visuales complejos. Cuando se enfrenta a un diagrama de circuito eléctrico, por ejemplo, la plataforma puede identificar componentes individuales, trazar conexiones, aplicar leyes de Kirchhoff y Ohm, y derivar soluciones analíticas correctas. Esta no es simplemente visión computacional; es razonamiento visual multiescala que se aproxima más a cómo un ingeniero humano abordaría el problema.

El tablero geopolítico del desarrollo algorítmico

La estrategia de lanzamiento dual de Baidu revela una sofisticación estratégica que trasciende la mera competencia técnica. Al liberar su modelo de código abierto bajo Apache 2.0, la compañía no solo democratiza el acceso a tecnología de punta, sino que establece un precedente desafiante para los gigantes occidentales que mantienen sus modelos más avanzados bajo estricto control propietario. Simultáneamente, la versión 5.0 propietaria permanece como oferta premium, posicionándose en el extremo superior de la estructura de precios con tarifas de aproximadamente $0.85 por millón de tokens de entrada.

Esta maniobra ocurre en un contexto donde la carrera armamentista algorítmica entre China y Estados Unidos adquiere dimensiones cada vez más complejas. Mientras Washington impone restricciones sobre exportaciones de semiconductores avanzados, Beijing responde con innovaciones arquitectónicas que maximizan la eficiencia del hardware disponible. Baidu reporta haber alcanzado un 47% de utilización de FLOPs del modelo durante el preentrenamiento de su última familia de modelos, una métrica que sugiere optimizaciones extremas en su infraestructura basada en PaddlePaddle.

La compañía también está desarrollando sus propios chips Kunlunxin, diseñados específicamente para acelerar cargas de trabajo de modelos masivos. El Kunlun M100, programado para principios de 2026, promete capacidades de inferencia a gran escala, mientras que el M300, previsto para 2027, apunta al entrenamiento de modelos multimodales ultra-grandes. Esta integración vertical desde el silicio hasta el software representa una apuesta por la autosuficiencia tecnológica que podría redefinir las dinámicas de poder en el ecosistema global de inteligencia algorítmica.

Comparación de rendimiento entre ERNIE, GPT-5 y Gemini 2.5 Pro en benchmarks clave de razonamiento visual y comprensión de documentos

Implicaciones para el ecosistema empresarial

Para las corporaciones que evalúan opciones de despliegue algorítmico, la propuesta china presenta un valor provocativo. Los requisitos de hardware, aunque sustanciales (80GB de memoria GPU para despliegue en una sola tarjeta), son modestos comparados con modelos de capacidades similares. Herramientas como FastDeploy permiten cuantización que reduce los requisitos de memoria a aproximadamente 60GB mediante técnicas wint8, manteniendo el rendimiento mientras mejora la accesibilidad.

El enfoque en casos de uso empresariales específicos distingue a esta tecnología de competidores orientados hacia capacidades más generales. La habilidad del sistema para interpretar gráficos de densidad temporal, resolver problemas de circuitos complejos, y generar coordenadas de bounding boxes en formato JSON estructurado sugiere optimización deliberada para flujos de trabajo corporativos. Empresas con archivos masivos de video corporativo, desde sesiones de entrenamiento hasta grabaciones de seguridad, encontrarán particular valor en las capacidades de comprensión temporal de la plataforma.

Sin embargo, adoptar esta arquitectura no está exento de consideraciones complejas. La procedencia china del desarrollo inevitablemente levanta preguntas sobre gobernanza de datos y cumplimiento regulatorio, especialmente para organizaciones en industrias sensibles o jurisdicciones con tensiones geopolíticas. Además, mientras la licencia Apache 2.0 permite uso comercial sin restricciones, las empresas deben evaluar cuidadosamente las implicaciones de depender de tecnología desarrollada fuera del ecosistema occidental tradicional.

El verdadero test para estos modelos vendrá no de benchmarks sintéticos sino de implementaciones del mundo real. Si las organizaciones pueden realmente alcanzar las eficiencias prometidas mientras mantienen o mejoran la calidad de salida, podríamos estar presenciando el inicio de una reconfiguración fundamental en el mercado de modelos fundacionales. La pregunta no es si la tecnología de Baidu puede competir técnicamente con GPT y Gemini; los números sugieren que ya lo hace. La pregunta es si el ecosistema empresarial global está preparado para adoptar alternativas que desafían no solo las jerarquías técnicas establecidas, sino también las suposiciones geopolíticas subyacentes sobre dónde debe residir el liderazgo en inteligencia algorítmica.

Referencias

Baidu ERNIE-4.5-VL-28B-A3B-Thinking Model Documentation - Hugging Face Repository, November 2025

Artificial Intelligence News: "Baidu multimodal AI beats GPT and Gemini in benchmarks" - AI News Network, 12 de noviembre 2025

VentureBeat: "Baidu unveils proprietary model beating GPT-5 performance on charts, document understanding and more" - 13 de noviembre 2025

Baidu World 2025 Event Proceedings - Beijing, China, November 2025

Technical Report: "ERNIE 4.5 Model Family" - Baidu Research, June 2025

PaddlePaddle Framework Documentation v3.2 - Baidu Deep Learning Platform

WinBuzzer: "Baidu Unveils 2.4T-Parameter AI Model, Claims Enterprise AI Lead" - 13 de noviembre 2025

MarkTechPost: "Baidu Releases Open-Source Compact Multimodal Reasoning Model" - 11 de noviembre 2025

Analytics India Magazine: "Baidu Model Matching GPT-5 in Performance" - September 2025

GitHub Repository: PaddlePaddle Development Toolkit - Official Documentation

Recent Posts

Generated Image November 15, 2025 - 2_58AM

La “granja de portátiles”: el arma secreta de Corea del Norte

  Cinco ciudadanos estadounidenses se declararon culpables de operar ‘granjas de portátiles’ para blan
Read More
815fb62d-1f9f-41f9-8bb7-e8bbde4e5928

De archivador a investigador: la nueva era de NotebookLM

  NotebookLM deja de ser un simple anotador. Sus nuevas funciones de investigación automatizada y generación mult
Read More

Para estar informado, Ingresá o Creá tu cuenta en MundoIA...

Sign In

Recordá revisar la carpeta de "no deseados", el correo puede llegar allí