La arquitectura que podría reemplazar al Transformer

La pelea por la próxima arquitectura ya empezó

Un debate técnico llevado a un ring físico resume una de las preguntas más importantes del presente computacional: si los Transformers seguirán siendo la columna vertebral de los sistemas avanzados o si una nueva generación de arquitecturas, más cercana al razonamiento continuo, la memoria persistente y el aprendizaje permanente, empezará a desplazarlos.

Por el equipo editorial | 29 de mayo, 2026

Video completo del debate Transformer vs Post-Transformer. El autoplay se inicia silenciado para cumplir con las restricciones habituales de los navegadores.

La escena parece diseñada por alguien que entendió demasiado bien cómo funciona internet: investigadores de primer nivel discutiendo una de las disputas técnicas más densas del momento, pero dentro de un ring de boxeo. No hay metáfora escondida. La pelea existe. De un lado, la arquitectura que cambió la historia reciente del aprendizaje automático. Del otro, una constelación de enfoques que todavía no ha ganado el cinturón, pero que ya está entrenando con hambre de campeonato.

El debate entre Transformers y arquitecturas posteriores no es una discusión decorativa para congresos académicos. Es una pregunta industrial, científica y económica. Define cómo se entrenan los modelos, cuánto cuestan, qué tipo de memoria pueden tener, de qué manera razonan, qué tan bien aprovechan los chips disponibles y hasta qué clase de aplicaciones podrán ejecutarse en teléfonos, computadoras personales, robots, laboratorios o centros de datos. En el fondo, la pregunta es incómoda: la arquitectura dominante funciona tan bien que reemplazarla exige algo más que elegancia matemática. Hace falta una ventaja brutal.

Desde la publicación de “Attention Is All You Need” en 2017, el Transformer se convirtió en una especie de infraestructura invisible del presente. Su diseño eliminó la dependencia central de recurrencias y convoluciones en tareas de secuencia, apoyándose en mecanismos de atención capaces de relacionar partes distintas de una entrada con gran eficiencia. La gracia no estaba solo en la atención, sino en la posibilidad de entrenar en paralelo, procesar grandes lotes y explotar con notable comodidad el hardware moderno. Esa compatibilidad con GPUs y aceleradores fue tan decisiva como la belleza conceptual del paper.

El resultado está a la vista. Los sistemas conversacionales, los generadores de código, los modelos multimodales y buena parte de las plataformas comerciales más poderosas se apoyan todavía en variantes de esa familia. El Transformer no domina porque sea perfecto. Domina porque escala, y en este sector escalar no es un detalle: es la ley de gravedad. Las leyes empíricas formuladas por trabajos como el de Kaplan y luego refinadas por la línea Chinchilla mostraron que, bajo ciertas condiciones, aumentar parámetros, datos y cómputo permite mejorar de forma previsible. En un mercado que invierte miles de millones para ganar unos puntos de capacidad, esa previsibilidad vale oro.

La arquitectura que todavía manda

El argumento a favor del Transformer es áspero, casi empresarial: funciona. No promete una inteligencia más parecida a la humana, no necesita venderse como una revolución biológica, no exige una mística del cerebro. Toma tokens, calcula relaciones, distribuye atención, actualiza representaciones y aprende patrones con una eficacia que ha resistido años de competencia. En ingeniería, esa terquedad suele pesar más que cualquier manifiesto futurista.

También hay una razón menos glamorosa y más decisiva: el ecosistema completo está construido a su alrededor. Librerías, kernels optimizados, técnicas de entrenamiento distribuido, infraestructuras de inferencia, proveedores de nube, herramientas de fine-tuning, benchmarks y prácticas de evaluación se desarrollaron bajo la suposición de que el Transformer es el centro de la mesa. Cambiar la arquitectura no significa cambiar una pieza; significa mover el taller entero. Por eso, una alternativa apenas superior no alcanza. Para justificar una migración masiva, la mejora debería ser clara, persistente y difícil de ignorar.

La defensa central del Transformer no es sentimental: su ventaja está en la combinación de rendimiento, escalabilidad, simplicidad relativa, entrenamiento paralelo y una infraestructura global ya optimizada para hacerlo correr a una escala monstruosa. Cualquier sucesor debe competir contra el modelo y contra todo el sistema que lo rodea.

La crítica, sin embargo, también es fuerte. Los modelos actuales pueden parecer inteligentes, pero pagan esa apariencia con cantidades inmensas de datos y energía. Aprenden leyendo porciones gigantescas de la producción cultural humana, repiten ciclos de entrenamiento colosales y luego quedan, en gran medida, congelados. Pueden adaptarse dentro de una conversación, pueden usar herramientas, pueden recibir instrucciones, pero no aprenden del mundo como aprende una persona que acumula experiencia, corrige hábitos y reorganiza sus creencias después de equivocarse.

Ahí aparece la incomodidad conceptual. Una ventana de contexto larga no equivale a memoria en sentido fuerte. Un modelo capaz de leer un documento enorme no necesariamente construye una historia propia. Puede recuperar información presente en la entrada, pero eso no es lo mismo que formar continuidad biográfica, registrar consecuencias, integrar experiencias repetidas y modificar su comportamiento de manera estable. La diferencia parece filosófica, pero es profundamente práctica: afecta a agentes, asistentes personales, sistemas científicos, software autónomo y cualquier tecnología que deba operar durante semanas o meses sin resetearse mentalmente cada vez que se cierra una sesión.

El reclamo de los sucesores

Los partidarios de la etapa posterior no dicen que el Transformer haya fracasado. Sería absurdo. Lo que sostienen es más filoso: quizás sea el mejor instrumento disponible, pero no necesariamente la forma final de la inteligencia maquínica. La distinción importa. Muchas tecnologías dominantes fueron excelentes antes de volverse insuficientes. La pregunta no es si el Transformer sirve, sino si sus limitaciones estructurales empiezan a pesar más que sus virtudes cuando el campo intenta ir hacia razonamiento nativo, aprendizaje continuo y memoria real.

El razonamiento latente concentra una parte importante de esta discusión. En los sistemas actuales, mucho del razonamiento visible se expresa como una cadena textual, una especie de trabajo paso a paso escrito hacia afuera. Esa estrategia ha permitido avances notables, pero también revela una fragilidad: pensar no debería depender siempre de redactar el pensamiento. La hipótesis alternativa sugiere que los modelos podrían operar en espacios internos más ricos, donde la deliberación ocurra antes de traducirse a lenguaje. No se trata de magia, sino de buscar representaciones que procesen dificultad, incertidumbre y planificación sin convertir cada operación mental en texto.

Sakana AI, con sus Continuous Thought Machines, empuja justamente sobre ese borde. La propuesta introduce la dimensión temporal como parte central de la representación: las neuronas artificiales no solo entregan una activación estática, sino que coordinan dinámicas y sincronización a lo largo del tiempo. En sus demostraciones, el interés no está únicamente en acertar una respuesta, sino en observar cómo el sistema despliega pasos internos para resolver una tarea. El modelo parece menos una calculadora instantánea y más una máquina que se toma un momento para organizar su propia actividad.

Pathway, con BDH, explora otra ruta. Dragon Hatchling se presenta como una arquitectura inspirada en redes biológicas de escala libre, con interacción local entre partículas neuronales, memoria de trabajo basada en plasticidad hebbiana y una formulación compatible con GPU. El punto no es copiar el cerebro como si la biología fuera un manual de instrucciones infalible, sino rescatar propiedades que los sistemas actuales manejan mal: memoria, generalización temporal, interpretabilidad de estados y razonamiento que no dependa solo de apilar capas cada vez más grandes.

Liquid AI aparece en la misma conversación desde un ángulo complementario: eficiencia, despliegue y modelos híbridos. Sus Liquid Foundation Models, y en particular la familia LFM2, apuntan a correr en CPUs, NPUs y GPUs con baja latencia, soporte multilingüe y capacidades multimodales. Ese giro es importante porque la próxima etapa no solo se juega en laboratorios gigantes. También se juega en dispositivos locales, aplicaciones empresariales, sistemas embebidos y entornos donde enviar cada consulta a una nube remota no es deseable, barato ni rápido.

El futuro más probable no es una sustitución limpia

La hipótesis más realista no imagina una arquitectura nueva que borra de golpe todo lo anterior. Lo más probable es una etapa híbrida: Transformers como bloques centrales en algunos módulos, sistemas de memoria más persistentes alrededor, mecanismos de razonamiento latente para tareas complejas, modelos recurrentes o de estado para eficiencia y agentes capaces de aprender de ciclos prolongados de interacción. La revolución, si llega, puede parecer menos un golpe de nocaut y más una absorción gradual.

La medida real de la próxima era

La dificultad para evaluar este cambio es enorme. Los benchmarks públicos se volvieron un campo minado. Muchos son útiles, pero también pueden saturarse, contaminarse o transformarse en objetivos de optimización. Cuando una prueba se vuelve famosa, deja de ser solo una medida y pasa a ser parte del entrenamiento cultural de los modelos. Un puntaje alto puede indicar capacidad, pero también familiaridad con el examen. La industria ya aprendió esa lección, aunque a veces la olvida con entusiasmo cada vez que aparece una nueva tabla de posiciones.

La perplejidad conserva valor porque mide algo elemental: la calidad predictiva sobre secuencias. No resuelve la pregunta completa sobre razonamiento, autonomía o memoria, pero sigue siendo una señal dura de competencia lingüística. El problema aparece cuando se la convierte en oráculo universal. Un modelo puede predecir muy bien y aun así fallar en planificación, aprendizaje continuo o transferencia robusta. La próxima arquitectura no será convincente solo porque mejore una métrica aislada, sino porque demuestre una curva de mejora superior cuando aumenta la escala y cuando se la somete a tareas prolongadas, cambiantes y difíciles de memorizar.

La vara, entonces, es despiadada. Una arquitectura posterior debe escalar tan bien como el Transformer, aprovechar hardware real, entrenarse de manera estable, demostrar ventajas en contextos largos, sostener memoria útil, razonar sin depender siempre de texto visible, aprender con menor voracidad de datos y no colapsar cuando sale del entorno de laboratorio. Dicho de forma menos diplomática: no alcanza con ser interesante. Tiene que ser mejor en el mundo donde se pagan facturas de cómputo.

Comparación editorial orientativa, no empírica, entre las fuerzas que sostienen a los Transformers y los frentes donde las arquitecturas posteriores intentan abrir ventaja.

La posibilidad más fascinante es que el sucesor sea descubierto por los propios sistemas actuales. Los agentes de investigación y programación ya ayudan a explorar papers, generar código, probar variantes y acelerar ciclos experimentales. Si esa tendencia continúa, el reemplazo parcial del Transformer podría surgir de una búsqueda asistida por modelos basados en Transformers. La criatura inventaría, o al menos ayudaría a inventar, su descendencia. La historia tecnológica adora esas ironías: el martillo que fabrica la herramienta que algún día lo vuelve secundario.

Por ahora, el campeón sigue de pie. El Transformer conserva el título porque combina poder, infraestructura y una curva de escalado que todavía no agotó todos sus trucos. Pero el ring ya no está vacío del otro lado. BDH, CTM, LFM y otras líneas emergentes muestran que la frontera se ensancha. La pregunta dejó de ser si habrá experimentos posteriores. Ya los hay. La cuestión verdaderamente incómoda es cuándo alguno dejará de parecer una promesa brillante y empezará a comportarse como una necesidad industrial.

Ese día no llegará con una frase elegante ni con una demo simpática. Llegará cuando una arquitectura nueva haga algo que el Transformer no pueda hacer igual de bien, igual de barato o igual de rápido. Hasta entonces, la pelea sigue abierta. Y esta vez, al menos, alguien tuvo la decencia de ponerla dentro de un ring.

La señal que hay que mirar

El indicador clave no será una victoria aislada en un benchmark, sino una mejora sostenida al escalar. Si una arquitectura posterior aprende mejor con menos datos, retiene experiencia de forma más estable, razona internamente con mayor eficiencia y se ejecuta en hardware real sin exigir una reinvención total del ecosistema, entonces la conversación cambiará de tono. Hasta ese momento, el Transformer no será una reliquia. Será el campeón incómodo que todos quieren destronar.

Referencias

Video: “Transformer vs Post-Transformer | ft. Lukasz Kaiser, Adrian Kosowski, Mathias Lechner, & Llion Jones”. YouTube. https://www.youtube.com/watch?v=hCjoMLuCuLQ

Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Lukasz; Polosukhin, Illia. “Attention Is All You Need”. arXiv:1706.03762, 2017. https://arxiv.org/abs/1706.03762

Kaplan, Jared; McCandlish, Sam; Henighan, Tom; Brown, Tom B.; Chess, Benjamin; Child, Rewon; Gray, Scott; Radford, Alec; Wu, Jeffrey; Amodei, Dario. “Scaling Laws for Neural Language Models”. arXiv:2001.08361, 2020. https://arxiv.org/abs/2001.08361

Hoffmann, Jordan; Borgeaud, Sebastian; Mensch, Arthur; Buchatskaya, Elena; Cai, Trevor; Rutherford, Eliza; de Las Casas, Diego; Hendricks, Lisa Anne; Welbl, Johannes; Clark, Aidan; Hennigan, Tom; Noland, Eric; Millican, Katie; van den Driessche, George; Damoc, Bogdan; Guy, Aurelia; Osindero, Simon; Simonyan, Karen; Elsen, Erich; Rae, Jack W.; Vinyals, Oriol; Sifre, Laurent. “Training Compute-Optimal Large Language Models”. arXiv:2203.15556, 2022. https://arxiv.org/abs/2203.15556

Sakana AI. “Introducing Continuous Thought Machines”. 12 de mayo de 2025. https://sakana.ai/ctm/

Darlow, Luke et al. “Continuous Thought Machines”. arXiv:2505.05522, 2025. https://arxiv.org/abs/2505.05522

Kosowski, Adrian; Uznański, Przemysław; Chorowski, Jan; Stamirowska, Zuzanna; Bartoszkiewicz, Michał. “The Dragon Hatchling: The Missing Link between the Transformer and Models of the Brain”. arXiv:2509.26507, 2025. https://arxiv.org/abs/2509.26507

Pathway. “BDH (Dragon Hatchling) – Architecture and Code”. GitHub repository. https://github.com/pathwaycom/bdh

Liquid AI. “Liquid Foundation Models”. Página oficial de modelos. https://www.liquid.ai/models

Amini, Alexander et al. “LFM2 Technical Report”. arXiv:2511.23404, 2025. https://arxiv.org/abs/2511.23404

Hugging Face Transformers Documentation. “Perplexity of fixed-length models”. https://huggingface.co/docs/transformers/en/perplexity

La arquitectura que podría reemplazar al Transformer