Imagina un asistente de programación que responde casi al instante, capaz de reescribir lógica compleja, refactorizar interfaces o corregir errores con una latencia tan baja que la interacción parece tan fluida como escribir directamente en el editor. Esta experiencia, hasta hace poco reservada para fantasías tecnooptimistas, acaba de materializarse. OpenAI lanzó el 12 de febrero GPT-5.3-Codex-Spark, un modelo optimizado específicamente para tareas de codificación interactiva que sacrifica parte de su capacidad autónoma a cambio de una velocidad de generación sin precedentes. La promesa es simple pero radical: transformar el desarrollo de software en un diálogo instantáneo entre humano y máquina.
El sistema procesa texto a una velocidad superior a los 1,000 tokens por segundo, aproximadamente quince veces más veloz que su hermano mayor, que opera alrededor de 65 a 70 tokens por segundo en configuraciones estándar con GPUs. Para contextualizar esta diferencia, un programador que solicita la refactorización de una función de cien líneas percibiría la respuesta completa en menos de dos segundos con la nueva herramienta, frente a los treinta segundos o más que tomaría el modelo insignia en arquitecturas convencionales. Esta aceleración dramática no surge de mejoras algorítmicas marginales, sino de una decisión arquitectónica audaz: ejecutar el modelo sobre el Wafer Scale Engine 3 de Cerebras, un procesador monolítico que concentra 900,000 núcleos especializados y 44 gigabytes de memoria SRAM en una sola oblea de silicio de 300 milímetros.
El contexto empresarial amplifica la relevancia del anuncio. En enero de 2026, OpenAI firmó un acuerdo multianual con Cerebras valorado en más de 10,000 millones de dólares para desplegar 750 megavatios de capacidad de cómputo basada en tecnología wafer-scale. Este movimiento representa la primera diversificación sustancial de la compañía fuera del ecosistema de Nvidia, que hasta ahora había sido el proveedor casi exclusivo de infraestructura de entrenamiento e inferencia. La alianza no busca reemplazar GPUs, sino crear un tier especializado de baja latencia para cargas de trabajo donde la velocidad es crítica. Sachin Katti de OpenAI lo expresó con claridad: la estrategia consiste en construir un portafolio resiliente que asigne los sistemas correctos a las tareas adecuadas.
El chip que desafió la lógica del procesamiento paralelo
Comprender por qué la herramienta alcanza estas velocidades exige entender la arquitectura subyacente. Las GPUs tradicionales, incluyendo los aceleradores Nvidia H100 y B200 Blackwell, dividen modelos grandes en fragmentos que se distribuyen entre múltiples dispositivos conectados mediante enlaces de alta velocidad como NVLink o redes InfiniBand. Cada token generado requiere mover pesos desde memoria hacia unidades de cómputo, operación que en arquitecturas multi-GPU implica transferencias entre chips con latencias medibles en microsegundos que, agregadas sobre miles de tokens, se convierten en cuellos de botella perceptibles.
El WSE-3 de Cerebras invierte esta lógica. En lugar de múltiples GPUs pequeñas coordinadas externamente, concentra todo el cómputo en una sola oblea fabricada en proceso de 5 nanómetros por TSMC, integrando aproximadamente 4 billones de transistores. Cada núcleo en el chip posee memoria local y se conecta mediante una malla de interconexión propietaria que opera a anchos de banda superiores a 9 petabytes por segundo dentro del dispositivo. Las capas completas de un transformer pueden mapearse espacialmente sobre la oblea, eliminando la mayor parte del tráfico fuera del chip y reduciendo drásticamente la latencia de movimiento de datos.
Michael James, arquitecto principal de Cerebras, describió el procesador como un dispositivo de flujo de datos diseñado para escalamiento fuerte, donde variables de inducción de bucle, movimiento de datos y comportamiento de red se codifican directamente en el conjunto de instrucciones. Una sola operación de matriz puede distribuirse espacialmente sobre la cuadrícula completa de núcleos con mínimo overhead de software. Clientes que migraron de clusters Nvidia a sistemas Cerebras reportan aceleraciones significativas en tareas de inferencia sensibles a latencia, precisamente el escenario que este desarrollo explota.
OpenAI complementó las ventajas del hardware con optimizaciones de infraestructura que beneficiarán todos sus modelos. La compañía implementó sesiones persistentes mediante WebSocket, eliminando la necesidad de reestablecer conexiones cliente-servidor para cada solicitud. Reescribieron componentes clave de la pila de inferencia y modificaron la inicialización de sesiones para reducir el tiempo hasta el primer token visible. Estas mejoras, combinadas con optimizaciones dirigidas dentro de la API de respuestas, redujeron el overhead por viaje redondo cliente-servidor en 80 por ciento, el overhead por token en 30 por ciento, y el tiempo hasta el primer token en 50 por ciento. La ruta WebSocket está habilitada por defecto para el nuevo modelo y se convertirá en estándar para todos los sistemas próximamente.
Velocidad con concesiones: el dilema de capacidad frente a latencia
La aceleración dramática tiene un precio medible. OpenAI diseñó esta versión como una variante reducida de su modelo insignia, optimizada específicamente para inferencia rápida en lugar de razonamiento profundo o ejecución autónoma prolongada. Los benchmarks revelan el compromiso con claridad. En Terminal-Bench 2.0, una evaluación que mide habilidades de terminal necesarias para agentes de codificación, GPT-5.3-Codex-Spark alcanza 58.4 por ciento de precisión, comparado con 77.3 por ciento de su hermano mayor y 46.1 por ciento de versiones anteriores más pequeñas. En SWE-Bench Pro, que evalúa capacidad de ingeniería de software en repositorios reales abarcando cuatro lenguajes de programación, la herramienta obtiene aproximadamente 46 a 52 por ciento de precisión en uno o dos minutos, mientras el modelo completo logra 51 a 57 por ciento en tres a dieciséis minutos.
Estas cifras sugieren que el sistema supera versiones anteriores más pequeñas pero cede terreno frente al modelo insignia en tareas complejas que requieren múltiples pasos, uso de herramientas externas o razonamiento de largo alcance. OpenAI argumenta que los desarrolladores aceptarán este trade-off porque muchos flujos de trabajo de codificación priorizan ediciones rápidas e iteración interactiva sobre autonomía extendida. La herramienta mantiene su estilo de trabajo ligero por defecto: realiza ediciones mínimas y dirigidas, y no ejecuta pruebas automáticamente a menos que se le solicite explícitamente. Para tareas que demandan reflexión profunda o ejecución autónoma durante horas o días, el modelo completo sigue siendo la opción recomendada.
El lanzamiento se ofrece como vista previa de investigación con una ventana de contexto de 128,000 tokens y opera exclusivamente con texto, sin capacidades multimodales. OpenAI lo distribuye inicialmente a usuarios de ChatGPT Pro en las últimas versiones de la aplicación Codex, interfaz de línea de comandos y extensión de VS Code. Debido a que corre sobre hardware especializado de baja latencia, el uso está gobernado por límites de tasa separados que pueden ajustarse según demanda durante la fase de pruebas. Adicionalmente, la compañía habilitó acceso API para un conjunto pequeño de socios de diseño con el objetivo de comprender cómo los desarrolladores desean integrar la herramienta en sus productos. La expansión de acceso ocurrirá durante las próximas semanas conforme se ajusta la integración bajo cargas de trabajo reales.
Más allá de Nvidia: estrategia de diversificación de infraestructura
El lanzamiento debe entenderse dentro de un movimiento estratégico más amplio. Desde la fundación de OpenAI, prácticamente toda su infraestructura de entrenamiento e inferencia se ha apoyado en aceleradores Nvidia, primero con las series V100 y A100, luego con H100 y más recientemente con B200 Blackwell. Esta dependencia, si bien técnicamente justificada por el dominio de Nvidia en el mercado de cómputo acelerado, crea riesgos de concentración tanto en disponibilidad como en poder de negociación. El acuerdo con Cerebras, firmado en enero y anunciado simultáneamente por ambas compañías, representa el primer esfuerzo sustancial por diversificar proveedores de hardware.
Andrew Feldman, cofundador de Cerebras, describió la alianza como una década en gestación. Ambas organizaciones se fundaron aproximadamente en el mismo período con visiones radicalmente ambiciosas: OpenAI para crear el software que impulsa inteligencia general artificial, Cerebras para subvertir la sabiduría convencional sobre fabricación de chips y construir un procesador a escala de oblea que desafiara la Ley de Moore. Los equipos se reunieron frecuentemente desde 2017, compartiendo investigación, trabajo preliminar y la creencia común de que llegaría un momento en que escala de modelo y arquitectura de hardware tendrían que converger. Según Feldman, ese momento ha arribado.
La historia de la industria tecnológica enseña una lección simple: la velocidad es el motor fundamental de adopción. La industria de computadoras personales no existiría sin el salto de kilohertz a megahertz a gigahertz, y el internet moderno no existiría sin la transición de conexión telefónica a banda ancha. Cerebras posiciona su tecnología wafer-scale como la solución de alta velocidad para inferencia algorítmica. Ya sea ejecutando agentes de codificación o conversaciones de voz, modelos de lenguaje grandes sobre Cerebras entregan respuestas hasta quince veces más rápidas que sistemas basados en GPU. Para consumidores, esto se traduce en mayor compromiso y aplicaciones novedosas. Para la economía más amplia, donde se espera que los agentes algorítmicos sean un motor de crecimiento clave durante la próxima década, la velocidad alimenta directamente el crecimiento de productividad.
OpenAI enfatizó que las GPUs permanecen fundamentales en sus pipelines de entrenamiento e inferencia y entregan los tokens más costo-efectivos para uso amplio. Cerebras complementa esa fundación sobresaliendo en flujos de trabajo que demandan latencia extremadamente baja, estrechando el bucle de extremo a extremo para que las herramientas se sientan más responsivas durante iteración. Ambas tecnologías pueden combinarse para cargas de trabajo individuales y alcanzar el mejor rendimiento. Esta arquitectura híbrida refleja una tendencia emergente en la industria: reconocer que no existe una solución única óptima para todas las tareas algorítmicas, y que infraestructuras heterogéneas pueden explotar las fortalezas específicas de diferentes tecnologías de hardware.
⚠️ Limitaciones y consideraciones prácticas
Durante la vista previa de investigación, los usuarios pueden experimentar acceso limitado o colas temporales cuando la demanda es alta, ya que OpenAI balancea confiabilidad entre usuarios. El modelo es exclusivamente textual con ventana de contexto de 128,000 tokens, sin capacidades multimodales de imagen o voz que sí poseen otros sistemas de la familia. No ejecuta pruebas automáticamente y mantiene ediciones mínimas por defecto para conservar velocidad, lo que puede requerir ajustes en flujos de trabajo que dependen de verificación exhaustiva automática. OpenAI planea introducir versiones más grandes, contextos más extensos y entrada multimodal conforme aprende con la comunidad de desarrolladores sobre dónde brillan los modelos rápidos para codificación.
La herramienta incluye el mismo entrenamiento de seguridad que los modelos principales de OpenAI, incorporando formación relevante para ciberseguridad. La compañía evaluó el sistema como parte de su proceso estándar de despliegue, que incluye evaluaciones base para capacidades cibernéticas y otras, determinando que no tiene una posibilidad plausible de alcanzar el umbral del Marco de Preparación de OpenAI para alta capacidad en ciberseguridad o biología. Estas salvaguardas responden a preocupaciones sobre el potencial de modelos de codificación para facilitar ataques cibernéticos o desarrollo de herramientas maliciosas.
OpenAI describe el lanzamiento como el primer paso hacia un asistente con dos modos complementarios: razonamiento y ejecución de horizonte largo, y colaboración en tiempo real para iteración rápida. Con el tiempo, los modos se fusionarán: el sistema puede mantener al usuario en un bucle interactivo ajustado mientras delega trabajo de ejecución prolongada a sub-agentes en segundo plano, o distribuir tareas a muchos modelos en paralelo cuando se desea amplitud y velocidad, eliminando la necesidad de elegir un solo modo por adelantado. Conforme los modelos se vuelven más capaces, la velocidad de interacción se convierte en un cuello de botella claro. La inferencia ultrarápida estrecha ese bucle, haciendo que la experiencia se sienta más natural y expandiendo lo posible para cualquiera que transforme una idea en software funcional.
Para 2026, Cerebras anticipa un año extraordinario. Al colaborar con OpenAI, la tecnología wafer-scale que la compañía pionera alcanzará cientos de millones, y eventualmente miles de millones, de usuarios. El despliegue de 750 megavatios de capacidad de cómputo representa el proyecto de inferencia de alta velocidad más grande del mundo, construido en múltiples etapas que se extenderán hasta 2028. La alianza valida una década de apuestas contraintuitivas sobre arquitectura de chips y señala que el futuro del cómputo algorítmico será probablemente más heterogéneo y especializado que el presente dominado por GPUs de propósito general.
Referencias
OpenAI, "Introducing GPT-5.3-Codex-Spark", blog oficial de OpenAI (12 de febrero, 2026).
Cerebras Systems, "OpenAI Partners with Cerebras to Bring High-Speed Inference to the Mainstream", blog oficial de Cerebras (14 de enero, 2026).
Infobae, "OpenAI presenta GPT-5.3-Codex-Spark su primer modelo capaz de codificar en tiempo real con respuestas ultrarrápidas" (12 de febrero, 2026).
Hipertextual, "OpenAI lanza GPT-5.3 Codex Spark, la IA que programa en una fracción de segundo" (11 de febrero, 2026).
Bloomberg, "OpenAI Signs $10 Billion Deal With Cerebras for AI Computing" (14 de enero, 2026).
Cerebras Systems, "Cerebras Announces Third Generation Wafer-Scale Engine", comunicado de prensa (6 de marzo, 2025).
Cerebras Systems, "Cerebras CS-3 vs. Nvidia DGX B200 Blackwell", análisis comparativo oficial (2 de octubre, 2025).
arXiv:2503.11698, "A Comparison of the Cerebras Wafer-Scale Integration Technology with Nvidia GPU-based Systems for Artificial Intelligence" (29 de enero, 2025).
Adam Holter, "GPT-5.3-Codex-Spark: 1000 Tokens Per Second, But Is It Actually Faster?" (12 de febrero, 2026).



