Alibaba desata Qwen3.5 con capacidades que los modelos cerrados no pueden igualar

Alibaba libera modelo abierto de 397 mil millones de parámetros que procesa un millón de tokens en segundos

Qwen3.5 combina arquitectura dispersa de mezcla de expertos con atención lineal híbrida para alcanzar velocidades de decodificación 19 veces superiores a sus predecesores, mientras mantiene licencia Apache 2.0 y capacidades nativas multimodales que rivalizan con sistemas propietarios cerrados en tareas de razonamiento, código y agentes autónomos

Por el equipo editorial | 16 de febrero, 2026

La carrera por democratizar el acceso a modelos lingüísticos de frontera acaba de dar un salto cualitativo. Alibaba Cloud, a través de su división Tongyi Lab, liberó Qwen3.5-397B-A17B, el primer integrante de su nueva familia Qwen3.5, diseñado específicamente para lo que la compañía denomina la "era de los agentes algorítmicos". La arquitectura despliega 397 mil millones de parámetros totales, pero activa apenas 17 mil millones por cada token procesado mediante un sistema disperso de mezcla de expertos que selecciona dinámicamente qué componentes especializados participan en cada inferencia. El resultado práctico: velocidades de decodificación entre 8.6 y 19 veces más rápidas que Qwen3-Max cuando maneja contextos de 32,000 y 256,000 tokens respectivamente, sin sacrificar calidad en las salidas.

El lanzamiento marca una inflexión estratégica en el mercado chino de modelos lingüísticos, donde DeepSeek y ByteDance han dominado la conversación pública durante meses. Alibaba no solo ofrece el modelo con licencia Apache 2.0, permitiendo uso comercial sin restricciones, sino que incorpora desde el diseño inicial capacidades visuales nativas y comprensión de interfaces de usuario. A diferencia de arquitecturas previas que añadían visión mediante encoders externos acoplados posteriormente, Qwen3.5 fusiona desde el entrenamiento conjunto tokens textuales, visuales y de capturas de pantalla en un solo flujo de procesamiento. Esta integración temprana, conocida como fusión anticipada, habilita al sistema para interpretar simultáneamente código, diagramas, tablas y elementos interactivos de software con coherencia contextual que los enfoques modulares tradicionales no logran alcanzar.

🔧 Especificaciones técnicas del modelo Qwen3.5-397B-A17B

Arquitectura: Mezcla dispersa de expertos (MoE) con selección Top-2 por token
Parámetros totales: 397 mil millones | Parámetros activos: 17 mil millones por token
Mecanismo de atención: Híbrido con Gated DeltaNet (75% capas lineales, 25% atención estándar con compuertas)
Ventana de contexto: 256,000 tokens (modelo base) | 1,000,000 tokens (Qwen3.5-Plus API)
Capacidades multimodales: Texto, visión, comprensión de interfaz gráfica, interacción con elementos UI
Soporte lingüístico: 201 idiomas y dialectos con énfasis en asiático y europeo
Licencia: Apache 2.0 (uso comercial sin restricciones)
Rendimiento IFBench: 76.5 (seguimiento de instrucciones)
Rendimiento BFCL v4: 72.9 (precisión en llamadas a herramientas)
Rendimiento AIME 2026: 91.3 (precisión en matemática competitiva)
Rendimiento SWE-bench Verified: 76.4 (corrección de tareas de código real)
Throughput decodificación: 8.6x más rápido que Qwen3-Max a 32K contexto, 19x a 256K
Disponibilidad: Hugging Face, GitHub, ModelScope, Alibaba Cloud Model Studio

La innovación detrás de la velocidad extrema

El salto en rendimiento no proviene de fuerza bruta computacional sino de decisiones arquitectónicas quirúrgicas. Qwen3.5 implementa Gated DeltaNet, un mecanismo de atención lineal que mantiene un "estado compacto en ejecución" conforme procesa tokens secuenciales, permitiendo que memoria y cómputo crezcan linealmente con la longitud del contexto en lugar de explotarse cuadráticamente como sucede en atención estándar de softmax completo. La trampa histórica de los modelos de contexto largo ha sido precisamente esa explosión: cada nuevo token debe compararse contra un caché masivo de claves y valores previos, saturando recursos hasta volver impracticable el procesamiento de documentos extensos.

Sin embargo, atención lineal pura tiene debilidades conocidas. Tiende a "difuminar" recuperación precisa de detalles específicos enterrados cientos de miles de tokens atrás, problema crítico cuando una consulta requiere extraer un dato exacto de mitad de un documento técnico de 500 páginas. La solución de Alibaba es híbrida: tres cuartas partes de las capas del modelo utilizan Gated DeltaNet para mantener eficiencia en contextos masivos, mientras el 25% restante emplea capas de atención estándar equipadas con compuertas aprendidas que modulan dinámicamente cuánto mezclado contextual se requiere en cada profundidad de la red. Estas compuertas funcionan como válvulas que pueden atenuar o anular partes de la salida de una capa según necesidad, mejorando estabilidad durante entrenamiento y permitiendo al sistema balancear compresión eficiente con recuperación quirúrgica.

La arquitectura dispersa de mezcla de expertos añade otra dimensión de optimización. En lugar de forzar todos los parámetros a participar en cada predicción, Qwen3.5 divide sus redes feedforward en 128 módulos especializados independientes. Una red de enrutamiento aprende a seleccionar los dos expertos más relevantes para cada token mediante softmax Top-2 con regularización para evitar sobrecarga de ciertos expertos. Solo el 4.3% de los parámetros totales se activan por token, recortando operaciones de punto flotante y huella de memoria mientras preserva la capacidad expresiva de un modelo denso equivalente. Este diseño replica la estrategia probada por DeepSeek en sus arquitecturas MoE, pero aplicada sobre la base híbrida de atención que distingue a Qwen3.5.

Comparación de throughput de decodificación entre Qwen3.5-397B-A17B y sus predecesores a diferentes longitudes de contexto, mostrando ventaja exponencial en secuencias largas

Dominando benchmarks de agentes y código en producción

Los números técnicos adquieren significado cuando se traducen a capacidades prácticas. En IFBench, evaluación diseñada para medir qué tan fielmente un modelo sigue instrucciones complejas estructuradas en múltiples pasos, Qwen3.5 alcanza 76.5 puntos, superando a la mayoría de alternativas abiertas y acercándose a sistemas propietarios de última generación. Esta métrica correlaciona directamente con confiabilidad en escenarios de agentes autónomos, donde el sistema debe descomponer objetivos de alto nivel en acciones secuenciales coordinadas sin desviarse del plan establecido.

En BFCL v4, benchmark centrado en corrección de llamadas a herramientas externas, el modelo obtiene 72.9. La evaluación presenta funciones disponibles mediante descripciones en lenguaje natural y verifica que el sistema genere invocaciones sintácticamente válidas con argumentos apropiados. Alta puntuación indica que Qwen3.5 puede integrarse en flujos de trabajo empresariales donde debe orquestar APIs, consultar bases de datos, ejecutar código o recuperar información web sin supervisión humana constante. Alibaba atribuye estos avances no tanto a escala de parámetros como a refinamiento mediante aprendizaje por refuerzo en múltiples entornos complejos que demandan uso robusto de herramientas, evitando el sobreajuste a benchmarks estrechos que afecta a modelos entrenados en conjuntos artificiales limitados.

La capacidad matemática también destaca. AIME 2026 mide precisión en problemas de competencia a nivel de estudiantes avanzados de secundaria estadounidense, requiriendo razonamiento formal de múltiples pasos sin calculadora. Qwen3.5 resuelve 91.3% de los ítems correctamente, posicionándose entre los sistemas más capaces para matemática simbólica. En SWE-bench Verified, que presenta issues reales de repositorios de código open source y evalúa si el modelo puede diagnosticar el problema, navegar el código base, implementar corrección y verificar que pasa tests, alcanza 76.4. Este resultado supera a la mayoría de alternativas abiertas, aunque algunos agentes cerrados especializados en código mantienen leve ventaja en robustez cuando los prompts varían estilísticamente.

Modelo	Parámetros Activos	IFBench	BFCL v4	AIME 26	SWE-bench
Qwen3.5-397B-A17B	17B	76.5	72.9	91.3	76.4
DeepSeek V3	37B	73.2	69.1	89.3	74.8
Qwen3-235B-A22B	22B	68.7	65.4	84.6	71.2
GPT-4o	No divulgado	79.1	76.3	88.5	78.9

Multimodalidad nativa y la batalla por el ecosistema chino

Donde Qwen3.5 establece territorio distintivo es en comprensión visual profunda desde el núcleo arquitectónico. El modelo fue entrenado conjuntamente sobre corpus textuales, imágenes naturales, capturas de pantalla de interfaces gráficas y contenido estructurado como tablas y diagramas. Esta fusión anticipada contrasta con la ruta más común de entrenar primero un modelo lingüístico puro y posteriormente añadir un encoder visual que proyecta imágenes a embeddings consumidos como tokens especiales. La diferencia práctica emerge cuando el sistema debe razonar simultáneamente sobre código fuente, un diagrama arquitectónico del sistema descrito en ese código, y una captura de pantalla de la interfaz resultante. Arquitecturas modulares tienden a procesar cada modalidad en silos cognitivos separados que solo se integran superficialmente en capas finales.

Qwen3.5 puede recibir una screenshot de aplicación móvil, identificar elementos de interfaz píxel a píxel mediante grounding visual, comprender su función semántica dentro del flujo de usuario, y generar código para automatizar interacciones con esos componentes. Esta capacidad "agéntica visual" habilita casos de uso que van desde testing automatizado de software hasta asistentes que navegan aplicaciones legacy sin documentación formal. Alibaba incluye en su API hospedada Qwen3.5-Plus herramientas integradas de búsqueda web, intérprete de código y extractor web que el modelo puede invocar autónomamente, gestionando estado conversacional del lado del servidor para reducir carga en clientes.

El timing del lanzamiento no es casual. El mercado chino de modelos conversacionales ha visto consolidación acelerada durante 2025 y principios de 2026, con Doubao de ByteDance capturando cuota significativa de usuarios finales y DeepSeek dominando narrativa técnica entre desarrolladores tras su arquitectura MoE eficiente y licencia MIT. Alibaba busca reposicionarse ofreciendo no solo calidad técnica comparable sino también infraestructura completa: desde pesos abiertos descargables hasta API gestionada con ventana de contexto de un millón de tokens y modos adaptativos de "pensamiento" donde el modelo puede alternar entre razonamiento explícito paso a paso y generación rápida según complejidad detectada de la consulta.

Comparación de rendimiento en benchmarks clave entre Qwen3.5 y principales competidores abiertos y cerrados, destacando equilibrio entre seguimiento de instrucciones, uso de herramientas y razonamiento matemático

        Implicaciones para América Latina: La disponibilidad de Qwen3.5 bajo licencia permisiva representa oportunidad estratégica para desarrolladores y empresas de la región que buscan integrar capacidades avanzadas sin dependencia de APIs estadounidenses costosas. El soporte nativo para español dentro de sus 201 idiomas, combinado con posibilidad de ejecutar inferencia local en clusters GPU accesibles, reduce barreras de entrada para startups tecnológicas en Argentina, Brasil, Chile y México que experimentan con aplicaciones de agentes autónomos en sectores como fintech, agrotecnología y automatización de servicios gubernamentales. Sin embargo, la documentación técnica y ejemplos de implementación permanecen sesgados hacia inglés y chino, requiriendo esfuerzo adicional de comunidades locales para generar recursos de aprendizaje contextualizados.
    

La pregunta estratégica subyacente es si apertura técnica se traduce en adopción práctica. Modelos con pesos abiertos requieren infraestructura no trivial: Qwen3.5 demanda múltiples GPUs de memoria alta para inferencia sin cuantización, conocimiento profundo de frameworks de optimización como vLLM o TensorRT-LLM, y experiencia depurando comportamientos emergentes en casos límite. La API hospedada elimina esas fricciones pero reintroduce dependencia de proveedor y costos recurrentes, aunque Alibaba Cloud posiciona sus tarifas agresivamente por debajo de OpenAI y Anthropic. DeepSeek mantiene ventaja en pureza filosófica con licencia MIT más permisiva que Apache 2.0, mientras que GPT-4o conserva ventaja en madurez de ecosistema y documentación exhaustiva acumulada durante años de adopción masiva.

Lo que Qwen3.5 demuestra inequívocamente es que la frontera técnica de modelos lingüísticos ya no es monopolio de laboratorios occidentales bien financiados. La combinación de arquitecturas híbridas inteligentes que priorizan eficiencia, entrenamiento masivo sobre datos multilingües y multimodales diversos, y refinamiento iterativo mediante aprendizaje por refuerzo en entornos de agentes complejos, está produciendo sistemas que rivalizan o superan a ofertas propietarias en dimensiones crecientemente importantes. Si esa capacidad técnica se convierte en ventaja competitiva sostenible dependerá menos de benchmarks académicos y más de cuán efectivamente Alibaba construye comunidad de desarrolladores, herramientas de ecosistema y casos de éxito documentados que justifiquen migración desde plataformas establecidas. La liberación de Qwen3.5 no cierra la competencia sino que intensifica presión sobre todos los participantes para acelerar innovación y reducir barreras de acceso.

Referencias

Alibaba Cloud Qwen Team. "Qwen3.5: Towards Native Multimodal Agents" - Blog oficial Qwen.ai (16 de febrero, 2026).

Qwen GitHub Repository. "QwenLM/Qwen3.5" - Repositorio oficial con documentación técnica y pesos del modelo (febrero 2026).

Hugging Face Model Hub. "Qwen/Qwen3.5-397B-A17B" - Especificaciones completas de arquitectura híbrida Gated DeltaNet (15 de febrero, 2026).

Alibaba Cloud Model Studio. "Model list and API documentation" - Documentación de Qwen3.5-Plus y herramientas integradas (14 de febrero, 2026).

Sebastian Raschka. "Gated DeltaNet for Linear Attention" - Explicación técnica de mecanismo de atención lineal con compuertas (2026).

DataCamp. "Qwen3.5: Features, Access, and Benchmarks" - Guía completa de características y acceso al modelo (15 de febrero, 2026).

Nathan Lambert (Interconnects.ai). "Qwen 3: The new open standard" - Análisis de arquitectura MoE y estrategia de licenciamiento (27 de abril, 2025).

Spectrum AI Labs. "DeepSeek V3 vs Qwen3 Max Benchmarks" - Comparación detallada de rendimiento en tareas de código y matemática (9 de febrero, 2026).

BinaryVerseAI. "Qwen3.5 Verified Review: 7 Strong Benchmarks For 397B-A17B" - Análisis independiente de resultados en benchmarks clave (15 de febrero, 2026).

AI Haberleri. "Alibaba Unveils Qwen3.5-397B-A17B: Open-Weight Multimodal Agent Model" - Cobertura de lanzamiento y capacidades multimodales (15 de febrero, 2026).

Alibaba desata Qwen3.5 con capacidades que los modelos cerrados no pueden igualar