Cuando el 99.9% no es suficiente: el protocolo MAKER

Transitamos la era de la brillantez artificial. Los grandes modelos de lenguaje (LLM), esos cerebros digitales alojados en vastas nubes computacionales, son capaces de componer poesía, depurar código de software, redactar análisis de mercado y conversar con una fluidez que, a menudo, roza lo humano. Hemos sido testigos de su asombrosa capacidad para el sprint intelectual. Sin embargo, detrás de esta fachada de competencia deslumbrante, se esconde una fragilidad fundamental: estas inteligencias artificiales no saben correr un maratón.

El problema es tan sutil como catastrófico. Se conoce como el error compuesto. Un modelo de lenguaje, por muy avanzado que sea, opera en un terreno de probabilidades. No sabe que dos más dos son cuatro; sabe que la respuesta cuatro es la continuación estadísticamente más probable a la pregunta dos más dos. En una tarea de un solo paso, esta aproximación es asombrosamente eficaz. Pero, ¿qué ocurre cuando la tarea requiere mil pasos, cien mil, o un millón?

Visualización del declive exponencial: incluso con una precisión altísima del 99.9%, la probabilidad de éxito se desvanece al aumentar la complejidad.

La respuesta es el fracaso inevitable. Si un modelo tiene un 99.9% de precisión en cada paso (una cifra extraordinariamente alta), la probabilidad de completar con éxito una tarea de un millón de pasos no es del 99.9%. Es de casi cero. El minúsculo 0.1% de error, esa pequeña posibilidad de un tropiezo, se magnifica con cada paso. Es una bola de nieve que, al cabo de unos cientos de metros, se ha convertido en una avalancha que entierra el resultado final.

Este no es un problema teórico. Es el muro con el que se ha topado la investigación en inteligencia artificial. En experimentos de referencia, como el de resolver el puzle de las Torres de Hanoi, se demostró que los modelos más avanzados se descarrilan inevitablemente después de unos pocos cientos de pasos. No pueden planificar y ejecutar procesos a largo plazo. Esta incapacidad es lo que separa a la IA actual de las tareas complejas que definen la inteligencia humana, la organización empresarial o el descubrimiento científico. Un ser humano que escribe una novela no solo tiene una idea brillante; la ejecuta página tras página, corrigiendo errores, manteniendo la coherencia y ajustando el rumbo durante meses. La IA no podía.

Hasta ahora.

Un trabajo de investigación publicado por un equipo de Cognizant AI Lab y la Universidad de Texas en Austin ha presentado un desarrollo que, por primera vez, rompe esta barrera. El sistema, bautizado como MAKER, ha logrado completar una tarea que comprende 1.024.000 pasos lógicos dependientes entre sí. El resultado: cero errores.

Este hito no se ha conseguido creando un modelo de lenguaje más grande o más inteligente. No es un velocista más rápido. Es una criatura conceptualmente diferente. Los investigadores no han buscado la brillantez en un solo agente, sino la fiabilidad en un sistema colectivo. La propuesta es una elegante arquitectura de redundancia y verificación; una burocracia de agentes digitales diseñada para extirpar el error en cada etapa de su nacimiento.

Para lograr esta hazaña, el equipo se basó en tres pilares conceptuales. El primero es la descomposición extrema. En lugar de pedirle a un gran modelo que resuelva un problema colosal, un agente especializado divide el problema en piezas más pequeñas. Luego, esas piezas se dividen en otras aún más pequeñas. Este proceso se repite de forma recursiva, como un árbol que se ramifica hasta sus hojas más diminutas, hasta que la tarea original se ha transformado en miríadas de tareas atómicas no descomponibles.

El segundo pilar es el consenso a través de la votación. Aquí reside el núcleo de la fiabilidad. Para resolver cada una de esas tareas atómicas, el protocolo no confía en una sola opinión. Pregunta a un comité de microagentes (múltiples instancias del modelo de lenguaje) y luego utiliza otro agente, un discriminador, para que vote la respuesta más fiable. La probabilidad de que un agente se equivoque es alta. La probabilidad de que cinco agentes se equivoquen exactamente de la misma manera y que un sexto agente (el votante) también esté de acuerdo con ese error específico, es tan baja que se vuelve funcionalmente inexistente.

Finalmente, el tercer pilar es la composición recursiva. Una vez que las tareas diminutas se han resuelto y verificado, sus respuestas se componen y se pasan al nivel superior del árbol, donde otro discriminador vota sobre la mejor manera de combinarlas.

El resultado es una arquitectura que no confía en la genialidad, sino en el proceso. Ha superado la barrera del millón de pasos no porque nunca tropiece, sino porque ha diseñado un método infalible para comprobar cada pisada antes de dar la siguiente. Es la invención de la fiabilidad artificial.

El talón de Aquiles de la brillantez

Para apreciar la magnitud de este logro, primero hay que comprender la naturaleza de la mente de un LLM. Estos sistemas son maravillas de la ingeniería probabilística. Entrenados con la totalidad del conocimiento humano digitalizado, han aprendido patrones lingüísticos y conceptuales increíblemente complejos. Son, en esencia, motores de predicción de la siguiente palabra. Esta naturaleza estocástica (basada en la probabilidad, no en la certeza) es su mayor fortaleza y, a la vez, su debilidad fatal para las tareas a largo plazo.

Un LLM no razona como un ser humano. No sigue una cadena lógica que pueda verificar internamente. En su lugar, genera lo que suena como un razonamiento plausible. Cuando se le pide que resuelva un problema, genera una cadena de pensamiento (un método conocido como Chain of Thought o CoT) que imita los pasos que un humano podría seguir.

El problema es que el modelo puede desviarse sutilmente en el paso 3, y como no tiene un ancla en la realidad o en la lógica determinista, no hay nada que lo haga volver al camino correcto en el paso 4. Simplemente seguirá generando el texto más plausible basado en el error que acaba de cometer. El error no se corrige; se convierte en la nueva premisa.

Los investigadores han intentado solucionar esto con métodos como la autorreflexión (Self-Reflection), donde se le pide al modelo que revise su propio trabajo. Aunque esto ayuda a corregir algunos errores obvios, sigue siendo un modelo probabilístico revisando el resultado de otro modelo probabilístico. Es como pedirle a un soñador que verifique si su sueño es real.

Esta fragilidad fundamental es la razón por la que los LLM han permanecido confinados a tareas de contexto corto. Son excelentes asistentes, copilotos o fuentes de inspiración. Pueden resumir un documento, escribir un correo electrónico o sugerir un plan. Pero no se les podía encargar la redacción de un código de software de un millón de líneas, la gestión de una red eléctrica durante 24 horas o el diseño completo de un nuevo fármaco. Cualquier tarea donde un solo error en el paso 2.000 pudiera tener consecuencias catastróficas en el paso 200.000 estaba fuera de su alcance.

La industria de la IA se encontraba en una encrucijada: seguir construyendo modelos cada vez más grandes, con la esperanza de que la brillantez pura acabara por eliminar el error (un enfoque con rendimientos decrecientes), o repensar la arquitectura desde cero. El equipo de Cognizant y UT Austin eligió el segundo camino. Se preguntaron: ¿Y si el problema no es la inteligencia del agente, sino la falta de un sistema de control de calidad?

La arquitectura de la confianza

El funcionamiento interno de este nuevo método es menos parecido a un cerebro genial y más a una organización humana meticulosa y, sí, incluso burocrática. Es un sistema diseñado para gestionar la falibilidad de sus componentes. El proceso se describe mejor narrando el viaje de un problema a través de esta arquitectura.

⚙️ El Ciclo de Verificación del Sistema

📥

Entrada: El sistema recibe una tarea monumental imposible de resolver en un solo intento (ej. 1.000.000 pasos).

✂️

Descomposición Extrema: Un agente especializado divide el problema recursivamente hasta llegar a tareas atómicas simples.

🗳️

Comité de Votación: Múltiples microagentes proponen soluciones para cada pequeña tarea. Un discriminador vota la mejor respuesta.

🧱

Ensamblaje Verificado: Las respuestas validadas se combinan hacia arriba, verificando nuevamente cada unión.

Todo comienza cuando la plataforma recibe una tarea monumental. En el caso del experimento, se utilizó un banco de pruebas llamado Neuro-Symbolic Arithmetic (Neuro-SAN), que consiste en un árbol de expresiones aritméticas anidadas de enorme profundidad. Piense en algo como ((((((8*3)+(9/3))^2) + (7*5)) ...) pero extendido hasta alcanzar 1.024.000 operaciones. Es la tarea perfecta para medir el error compuesto: un solo cálculo incorrecto en la hoja más profunda del árbol garantiza que la respuesta final en el tronco sea errónea.

La tarea entra y es recibida por el primer agente: el DECOMPOSER (Descompositor). Este agente no intenta resolver nada. Su única función es analizar la tarea X y dividirla en subproblemas P1 y P2, y un método de combinación C. Por ejemplo, "Para resolver (A+B)*C, primero resuelve P1 = A+B, luego P2 = C, y combínalos con C = P1 * P2".

Aquí ya entra en juego la verificación. El Descompositor no genera una sola descomposición, sino N candidatas. Un agente SOLUTION DISCRIMINATOR (Discriminador de Soluciones) vota para seleccionar la descomposición más lógica y robusta.

Una vez seleccionada la mejor opción, el sistema se llama a sí mismo de forma recursiva. Ahora intenta resolver P1. El Descompositor vuelve a actuar, dividiendo P1 en P1a, P1b y C1. El proceso se repite, descendiendo por el árbol de problemas, dividiendo la complejidad en cada nivel, hasta que finalmente llega a una tarea atómica. Una tarea atómica es un problema tan simple que no puede descomponerse más, como 8*3.

Aquí comienza la segunda fase: la resolución. La tarea atómica se pasa al THINKINGMODULE (Módulo Pensante). De nuevo, la desconfianza es la norma. El sistema no confía en una sola respuesta. El Módulo Pensante genera N respuestas candidatas para 8*3. Quizás genera: 24, 24, 21, 24, 11.

Estas N respuestas pasan al Discriminador de Soluciones. Este agente, entrenado para detectar la corrección, emite un voto. En este caso, ve un consenso abrumador en torno a 24. Esa respuesta gana la votación y se considera verificada. Se ha utilizado el consenso de un comité de agentes falibles para producir un hecho fiable.

La respuesta verificada, 24, se envía de vuelta al nivel superior del árbol. La red procede entonces a resolver la siguiente tarea atómica, por ejemplo 9/3, que, tras un proceso de votación similar, se verifica como 3.

Ahora entra en juego el tercer actor clave. Las respuestas 24 y 3 deben combinarse según la instrucción original (P1 = A+B, que en este nivel era 8*3 + 9/3). Un COMPOSITIONDISCRIMINATOR (Discriminador de Composición) supervisa este paso. Vota sobre la mejor manera de aplicar la operación de combinación, asegurando que los resultados verificados no se corrompan durante su ensamblaje. El resultado, 27, se convierte en la respuesta verificada para esa rama del árbol.

Este resultado, 27, se pasa a su vez al nivel superior, donde se encontrará con otro resultado verificado de una rama vecina. El proceso de composición y votación se repite, subiendo por el árbol, ensamblando piezas verificadas en componentes más grandes, también verificados.

La operativa continúa, ascendiendo recursivamente hasta que, finalmente, se llega a la raíz del árbol. La respuesta que emerge no es una conjetura brillante; es el producto final de más de un millón de micro-votaciones y verificaciones. Es una respuesta en la que se puede confiar.

El guantelete: el desafío del millón de pasos

El banco de pruebas Neuro-SAN fue elegido precisamente por su crueldad. Es un entorno de falla frágil: no hay puntos por un esfuerzo parcial. O la respuesta es 100% correcta, o es 100% incorrecta. Es el guantelete perfecto para probar la fiabilidad a largo plazo.

Cuando los investigadores probaron los modelos de lenguaje existentes, incluso los más potentes como GPT-4, los resultados fueron los esperados. Fracasaron. Su precisión caía drásticamente a medida que aumentaba la profundidad del árbol. En tareas de solo unos pocos cientos de pasos, su tasa de éxito ya se desplomaba. Eran velocistas que se desplomaban al inicio del maratón.

Los métodos existentes, como la cadena de pensamiento (CoT), mejoraban ligeramente el rendimiento, pero no resolvían el problema de fondo. Un modelo usando CoT podía llegar más lejos antes de cometer un error, pero una vez cometido, el error era igual de fatal.

Comparativa directa: Mientras los modelos tradicionales colapsan (0% de éxito), el nuevo enfoque mantiene una integridad total.

La nueva metodología, en cambio, abordó la tarea de 1.024.000 pasos descompuso recursivamente el problema, generando millones de tareas atómicas. En cada una de ellas, el comité de agentes votó. En cada paso de composición, los discriminadores verificaron el ensamblaje. El proceso fue lento, meticuloso y computacionalmente intenso. Pero funcionó.

El resultado fue una precisión del 100%. Cero errores.

Es fundamental entender lo que esto significa. No es una simple mejora cuantitativa. No es que este desarrollo sea un 10% mejor que el modelo anterior. Es un cambio cualitativo. Es la diferencia entre un sistema que inevitablemente fallará y uno que puede, en principio, escalar a tareas de complejidad arbitraria sin fallar. Ha introducido el concepto de fiabilidad determinista en un campo que era inherentemente probabilístico.

Este logro demuestra que el problema de la fiabilidad de la IA no es irresoluble. Demuestra que la solución no reside en esperar a un mítico supermodelo futuro que nunca se equivoque, sino en construir sistemas inteligentes hoy que gestionen la falibilidad que sabemos que tienen.

Más allá de la aritmética

El hecho de que se resolviera un problema de aritmética es casi anecdótico. La aritmética fue simplemente el campo de pruebas. La arquitectura propuesta por el equipo de Cognizant es agnóstica al dominio; puede aplicarse a cualquier tarea que pueda descomponerse lógicamente. Y resulta que casi todas las tareas humanas complejas pueden descomponerse.

La línea de la victoria: La iniciativa demuestra que la complejidad (cantidad de pasos) ya no tiene por qué sacrificar la precisión.

Pensemos en la ingeniería de software. Escribir un sistema operativo es una tarea de millones de pasos. Un sistema de estas características podría descomponer el objetivo en módulos, los módulos en funciones, y las funciones en líneas de código. En cada paso, un comité de agentes de IA podría proponer código, y un discriminador podría votar sobre la implementación más eficiente, segura y correcta, verificándola contra pruebas unitarias antes de ensamblarla en el módulo superior.

Pensemos en el descubrimiento científico. Una tarea como descubrir un nuevo antibiótico puede descomponerse en analizar estructuras de proteínas, simular interacciones moleculares, diseñar ensayos clínicos y analizar resultados estadísticos. Cada una de estas tareas puede descomponerse recursivamente. Esta arquitectura proporciona un andamiaje para gestionar este vasto proyecto de investigación, asegurando que cada conclusión se verifique antes de convertirse en la premisa del siguiente experimento.

Incluso las tareas creativas, como escribir una novela, pueden beneficiarse. Un agente descompositor podría trazar el arco argumental. Los subproblemas se convertirían en capítulos, luego en escenas. Las tareas atómicas podrían ser escribir un diálogo entre el detective y el sospechoso que cree tensión. Múltiples agentes de pensamiento propondrían versiones del diálogo, y un discriminador votaría por la más efectiva. El resultado sería una obra coherente, ensamblada pieza a pieza, en lugar de la actual generación de texto que pierde el hilo después de unas pocas páginas.

Lo que el proyecto introduce es el concepto de IA organizacional. Los seres humanos construimos rascacielos, exploramos el espacio y gestionamos economías globales no porque un solo ser humano sea lo suficientemente inteligente, sino porque hemos creado organizaciones: sistemas de descomposición de tareas (departamentos), especialización (roles) y verificación (gestión y control de calidad). Estamos ante la primera plantilla exitosa para una organización de inteligencias artificiales.

La mentalidad del corredor de fondo

El avance presentado por el laboratorio de Cognizant y la UT Austin cambia fundamentalmente el debate sobre el futuro de la inteligencia artificial. Durante años, hemos estado obsesionados con la metáfora del cerebro: crear una IA más grande, más rápida, más brillante. Hemos medido el progreso por el número de parámetros y la velocidad del sprint intelectual.

MAKER nos obliga a adoptar una nueva metáfora: la del corredor de fondo. La verdadera inteligencia, la que resuelve los problemas del mundo real, no es solo la capacidad de tener una idea brillante. Es la capacidad de ejecutar esa idea a lo largo de millones de pasos aburridos, meticulosos y difíciles, corrigiendo el rumbo sin cesar. Es una cuestión de fiabilidad, coherencia y resistencia.

Este trabajo sugiere que el futuro de la IA no reside en un único modelo monolítico que lo sepa todo, sino en ecosistemas de agentes especializados que colaboran, se vigilan y se verifican mutuamente. Es un futuro menos centrado en la conciencia artificial y más centrado en el proceso artificial fiable.

Las implicaciones sociales y científicas son profundas. La falta de fiabilidad ha sido la barrera que ha impedido que la IA asuma responsabilidades de alta criticidad. Nadie permitiría que una IA controlara una central nuclear o realizara una cirugía robótica de forma autónoma, porque un error del 0.1% es inaceptable.

Pero una arquitectura capaz de garantizar funcionalmente cero errores en un millón de pasos cambia esa ecuación. Abre la puerta a la automatización de tareas complejas en ciencia, medicina, logística e ingeniería que hasta ahora eran dominio exclusivo de la supervisión humana.

La barrera del millón de pasos ha caído. No ha sido derribada por la fuerza bruta de un genio artificial, sino por la sabiduría colectiva de un comité de agentes que aprendieron el valor de la desconfianza, la verificación y el consenso. La IA ha completado su primer maratón, y al hacerlo, nos ha mostrado un futuro en el que por fin podremos empezar a confiar en ella.

Referencias

Meyerson, E., Paolo, G., Dailey, R., Shahrzad, H., Francon, O., Hayes, C. F., Qiu, X., Hodjat, B., & Miikkulainen, R. (2025). Solving a Million-Step LLM Task with Zero Errors. arXiv:2511.09030 [cs.AI]. Recuperado de https://arxiv.org/abs/2511.09030

Cuando el 99.9% no es suficiente: el protocolo MAKER