La pregunta menos interesante del mercado de modelos fundacionales es quién va primero. Esa obsesión por el podio produce titulares rápidos, pero explica poco. La pregunta que importa es otra: qué apuesta de investigación termina imponiéndose cuando el transformer, la arquitectura que ordenó casi toda la revolución reciente, deje de ser suficiente para las exigencias comerciales que él mismo ayudó a crear.
El giro ya empezó. Durante años, la carrera se midió por tamaño, datos, cómputo, cantidad de parámetros, ventanas de contexto y habilidad para superar benchmarks. Esa etapa no terminó, pero perdió monopolio explicativo. La nueva frontera se está desplazando hacia la arquitectura. No alcanza con preguntar qué modelo es más grande o qué laboratorio levantó más dinero. Hay que mirar qué tipo de máquina está construyendo cada empresa, qué costo paga para recordar, cuánto tarda en responder, cómo maneja secuencias largas y si puede operar sin romperse cuando la interacción deja de ser una pregunta aislada y se convierte en un flujo permanente.
El transformer todavía domina por una razón muy simple: funciona. Desde el paper “Attention Is All You Need”, publicado en 2017 por investigadores de Google, la atención se convirtió en una maquinaria extraordinariamente escalable para predecir secuencias. Esa arquitectura permitió entrenar modelos sobre volúmenes inmensos de texto, código, imagen, audio y datos multimodales. OpenAI, Anthropic, Google DeepMind, Meta, Mistral, DeepSeek, xAI y buena parte del ecosistema actual siguen viviendo, con variantes importantes, bajo esa sombra técnica.
La palabra sombra no es un reproche. El transformer es una de las ideas más fértiles de la historia reciente de la computación. El problema es que su gran virtud también contiene su límite: la atención mira relaciones entre elementos de una secuencia, y ese mecanismo se vuelve costoso cuando el contexto crece. Cuanto más larga es la conversación, el repositorio, el video, la simulación o la memoria operativa, más presión aparece sobre cómputo, latencia y eficiencia. El mercado empezó queriendo modelos que hablaran mejor. Ahora quiere sistemas que recuerden más, respondan rápido, actúen durante horas y no cobren cada segundo como si fuera una cirugía experimental.
El transformer sigue mandando, pero ya no intimida igual
La zona dominante del mapa sigue ocupada por los grandes laboratorios generalistas que escalan modelos basados en transformers: OpenAI, Anthropic, Google DeepMind, Meta, Mistral, DeepSeek, xAI, Cohere, Alibaba Cloud y otros jugadores con ambición horizontal. Su apuesta es clara: construir sistemas capaces de cubrir casi cualquier tarea cognitiva digital, desde programación hasta análisis documental, desde generación multimodal hasta agentes de oficina. Esta región concentra capital, talento, infraestructura y distribución. Sería un error subestimarla. En tecnología, el incumbente no gana por tener razón; gana porque ya tiene clientes, chips, datos, equipos de seguridad, APIs y acuerdos empresariales.
Pero esa posición también tiene un costo. Los laboratorios generalistas deben servir demasiados casos a la vez. El mismo modelo pretende escribir código, analizar una radiografía textualizada, negociar con una hoja de cálculo, resumir un fallo judicial, diseñar una campaña y responder una consulta trivial. Esa amplitud obliga a arquitecturas robustas, entrenamientos masivos y capas de alineamiento capaces de contener usos incompatibles entre sí. La escala compra versatilidad, pero también arrastra una mochila pesada: cada mejora debe funcionar para millones de usuarios y miles de tareas imprevisibles.
La segunda región del mercado parte del mismo suelo técnico, pero renuncia a la ambición universal. Son los fabricantes verticales de modelos fundacionales: empresas que usan transformers, difusión u otras bases modernas para dominar un dominio concreto. Entran aquí laboratorios de voz como ElevenLabs y Deepgram, video y generación visual como Midjourney, Runway, Luma AI o Black Forest Labs, biología generativa como Generate:Biomedicines, Chai Discovery, Xaira o Profluent, robótica como Physical Intelligence, Skild AI y Figure, además de jugadores especializados en música, matemática formal o diseño de proteínas.
Este segundo grupo entiende algo que los rankings generales suelen ocultar: en muchos mercados, ganar no significa tener el modelo más inteligente del planeta, sino el sistema más adaptado a una tarea que paga. Un modelo vertical puede ser inferior en conocimiento general y, aun así, superior donde importa. Si una empresa logra generar voz con latencia imperceptible, video consistente, una política robótica útil o una proteína candidata con mejor probabilidad experimental, el benchmark general deja de ser el idioma de la verdad. El cliente no compra “inteligencia”. Compra rendimiento dentro de un flujo.
El error de leer el mercado como una tabla de posiciones
Un laboratorio generalista puede parecer más importante porque aparece en más titulares, pero una empresa vertical puede capturar más valor si controla una parte crítica de una industria. La pregunta no es quién tiene el modelo más amplio, sino quién posee la arquitectura adecuada para el problema que realmente debe resolverse.
Ahí la carrera se vuelve menos vistosa y más seria. La arquitectura deja de ser un asunto de papers para convertirse en una decisión de producto. En voz, la demora de medio segundo puede arruinar la experiencia. En conducción autónoma, la memoria del entorno no es un lujo. En video interactivo, la coherencia espacial importa más que una respuesta verbal elegante. En biología, la estructura del problema no se parece al chat. Cada dominio presiona al modelo de una manera distinta, y esa presión abre grietas en el consenso transformer.
La presión viene de la memoria y la latencia
Las arquitecturas post-transformer no nacen por moda. Nacen porque hay un cuello de botella material. La atención es excelente para relacionar piezas de información, pero a medida que la secuencia se extiende, el costo de mirar todo contra todo se vuelve una carga. Las soluciones actuales, como atención dispersa, compresión, memoria externa, recuperación aumentada, ventanas móviles o mixture-of-experts, ayudan. Algunas funcionan muy bien. Pero muchas son parches inteligentes sobre una base que sigue teniendo un problema de ritmo.
Por eso resurgen ideas que hace unos años parecían laterales. Mamba, basada en modelos de espacio de estados selectivos, propone procesar secuencias con escalamiento lineal y mejor comportamiento en contextos largos. RWKV intenta combinar ventajas de redes recurrentes y transformers, con entrenamiento paralelizable e inferencia más eficiente. xLSTM revisita la memoria recurrente con puertas exponenciales y nuevas estructuras internas. Liquid AI explora modelos diseñados desde cero para eficiencia y adaptación. Yann LeCun y Meta empujaron con JEPA y V-JEPA la idea de modelos del mundo que no solo predicen palabras, sino representaciones abstractas de escenas, movimientos y consecuencias.
Lo decisivo no es si una de estas líneas “mata” al transformer mañana. Esa lectura sería infantil. La historia técnica rara vez funciona como reemplazo instantáneo. Lo más probable es una etapa híbrida: transformers más eficientes, bloques recurrentes, estados selectivos, memoria externa, modelos de difusión, simuladores del mundo y módulos especializados conviviendo dentro de sistemas compuestos. La pregunta correcta no es qué arquitectura gana sola, sino qué combinación permite construir productos con memoria larga, interacción continua y costos tolerables.
Transformer generalista
Laboratorios de frontera que escalan modelos amplios para programación, razonamiento, ciencia, multimodalidad y agentes generales.
Transformer vertical
Empresas que usan bases conocidas para dominar dominios concretos como voz, video, robótica, música, diseño molecular y biología.
Post-transformer generalista
Apuestas que buscan nuevos motores para memoria, velocidad, bajo costo y contexto prolongado sin depender siempre de atención completa.
Post-transformer vertical
Compañías que aplican arquitecturas emergentes en productos de tiempo real: voz, conducción, mundos interactivos y medios espaciales.
El grupo post-transformer generalista es el más difícil de evaluar porque mezcla ciencia dura, promesa comercial y apuestas todavía incompletas. Pathway habla de modelos con aprendizaje continuo y razonamiento de horizonte largo. Liquid AI sostiene que sus LFMs pueden competir con menor huella de memoria y mejor inferencia. AI21 Labs empuja Jamba como arquitectura híbrida. NXAI vuelve sobre el linaje LSTM con xLSTM. NVIDIA explora combinaciones híbridas entre Mamba y transformer en modelos Nemotron. Inception plantea modelos de difusión para lenguaje con ejecución paralela. Sakana AI trabaja en sistemas que descubren y diseñan modelos. SSI, por ahora, representa la categoría más opaca: una promesa de nueva arquitectura aún no publicada.
El juicio debe ser sobrio. No todas estas apuestas sobrevivirán. Algunas serán absorbidas como componentes dentro de modelos mayores. Otras encontrarán nichos valiosos sin conquistar el mercado general. Unas pocas podrían convertirse en la base de una nueva generación. La señal fuerte no es que ya exista un ganador, sino que la monocultura técnica empezó a romperse. Cuando tantas empresas inteligentes buscan salidas por distintos lados, el problema de fondo dejó de ser teórico.
Los ganadores serán los que cambien de ritmo
La región más reveladora quizá sea la de compañías post-transformer verticales. Cartesia, por ejemplo, apuesta por modelos de espacio de estados para voz en tiempo real. Waabi trabaja con modelos del mundo simulados para conducción autónoma. Decart y Odyssey apuntan a mundos generativos interactivos. Allí la arquitectura no se discute como identidad académica, sino como condición de uso. Si el sistema debe escuchar, responder, recordar, simular o conducir en tiempo real, la latencia deja de ser una métrica técnica y se convierte en experiencia, seguridad o negocio.
Ese punto cambia la lectura del mercado. La inteligencia artificial de consumo masivo se acostumbró a tolerar pausas porque el chat permitió esperar. Pero los productos que vienen no tendrán esa paciencia. Un agente de voz debe interrumpir y ser interrumpido. Un robot debe actuar sin congelarse. Un entorno interactivo debe recordar lo que el usuario hizo hace unos minutos. Un modelo que asiste una investigación larga debe conservar estructura sin leer todo desde cero cada vez. El futuro no exige solamente modelos más grandes. Exige otro pulso.
La verticalización también amenaza a los gigantes por una vía silenciosa. Si un modelo especializado resuelve mejor una tarea crítica, puede capturar el flujo aunque no sea conocido por el público general. OpenAI o Anthropic pueden seguir dominando la conversación cultural, pero un laboratorio de biología puede apropiarse de una parte del descubrimiento farmacéutico; una empresa de voz puede convertirse en la infraestructura invisible de millones de llamadas; una firma de simulación puede definir cómo se entrenan robots y vehículos. El poder se desplaza hacia donde la arquitectura encaja con el trabajo.
La presión que viene
El transformer no cae porque aparezca una arquitectura elegante en un paper. Cae, se mezcla o se desplaza cuando productos reales necesitan memoria más barata, respuesta más rápida y continuidad operativa. La presión no viene de la teoría pura. Viene del usuario que no quiere esperar, de la empresa que no quiere pagar contexto infinito y del sistema que no puede olvidar lo que acaba de ver.
Esto no significa que los grandes laboratorios estén condenados. Al contrario. Tienen la ventaja de poder incorporar casi cualquier avance si demuestra utilidad. La historia del software favorece a los sistemas capaces de absorber ideas externas sin admitir que cambiaron de doctrina. Es probable que los futuros modelos generalistas sigan llamándose de la misma manera, pero internamente mezclen atención, memoria, recuperación, estados recurrentes, expertos, difusión y simuladores. El nombre comercial esconderá la diversidad técnica.
La carrera, entonces, entra en una fase menos cómoda para los observadores. Ya no bastará con comparar parámetros, precios o puntajes aislados. Habrá que mirar el costo por tarea terminada, la estabilidad en contextos largos, la velocidad de inferencia, la capacidad de operar con herramientas, el comportamiento en dominios físicos y la eficiencia sobre hardware real. La pregunta “qué modelo es mejor” será cada vez más pobre. La pregunta útil será “qué arquitectura permite que esta tarea exista como producto”.
El mapa de Rohan Paul acierta al evitar el ranking. Ningún cuadrante “gana” por estar arriba, abajo, a la derecha o a la izquierda. La posición expresa una apuesta, no una medalla. Esa es la lectura correcta del momento. El mercado de modelos fundacionales está dejando de ser una carrera lineal y empieza a parecerse a una placa tectónica: los bloques todavía se tocan, pero ya no empujan en la misma dirección.
La próxima etapa no la definirá el laboratorio que grite más fuerte que tiene el modelo más grande. La definirá quien encuentre la forma de que la inteligencia artificial trabaje con memoria, velocidad y costo compatibles con el mundo real. El transformer construyó la era actual. La pregunta, ahora, es si también puede cargar con la siguiente.
Referencias
Vaswani, Ashish et al., “Attention Is All You Need”, arXiv, 2017. https://arxiv.org/abs/1706.03762
Gu, Albert y Dao, Tri, “Mamba: Linear-Time Sequence Modeling with Selective State Spaces”, arXiv, 2023. https://arxiv.org/abs/2312.00752
Peng, Bo et al., “RWKV: Reinventing RNNs for the Transformer Era”, arXiv, 2023. https://arxiv.org/abs/2305.13048
Beck, Maximilian et al., “xLSTM: Extended Long Short-Term Memory”, arXiv, 2024. https://arxiv.org/abs/2405.04517
Meta AI, “Introducing V-JEPA 2”, investigación sobre modelos del mundo y aprendizaje autosupervisado. https://ai.meta.com/research/vjepa/
Assran, Mahmoud et al., “V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning”, arXiv, 2025. https://arxiv.org/abs/2506.09985
Liquid AI, “Liquid Foundation Models: Our First Series of Generative AI Models”, 2024. https://www.liquid.ai/blog/liquid-foundation-models-our-first-series-of-generative-ai-models
Cartesia, documentación y presentación de Sonic, modelos de voz en tiempo real basados en enfoques de baja latencia. https://cartesia.ai/sonic/
Runway, “Introducing Runway Gen-4”, investigación sobre generación de video con consistencia de mundo. https://runwayml.com/research/introducing-runway-gen-4
Runway, “Introducing GWM-1”, modelos del mundo para robótica. https://runwayml.com/research/introducing-gwm-1
Google DeepMind, “Genie: Generative Interactive Environments”, arXiv, 2024. https://arxiv.org/abs/2402.15391
OpenAI, “Introducing gpt-oss”, documentación sobre modelos open-weight con arquitectura transformer y mixture-of-experts, 2025. https://openai.com/index/introducing-gpt-oss/



