Imagine un motor de Fórmula 1. Es una sinfonía mecánica donde miles de piezas trabajan en sincronía milimétrica. Sin embargo, una imperfección minúscula puede romper la armonía. Una partícula de polvo en el inyector, una vibración apenas perceptible, un ligero desfasaje en la mezcla y el rendimiento colapsa. Durante años se fue asentando la sensación de que los grandes modelos de lenguaje operan con ese mismo tipo de fragilidad. Parecen invencibles cuando la pista es lisa, pero se tambalean si el asfalto cambia de textura. En el mundo de la inteligencia artificial, esa textura es la forma en que escribimos la pregunta, el orden de los términos, un sinónimo que debería ser equivalente, un adjetivo que sobra. Nada grave para un humano. A veces decisivo para un sistema estadístico de enorme escala.
En esa aparente contradicción conviven dos rasgos de la era actual de la IA. Por un lado, la potencia. Modelos como los que sostienen a ChatGPT, Llama o Qwen pasaron de completar frases a redactar informes, depurar código, planificar proyectos, explicar argumentos y resolver acertijos que requieren múltiples pasos lógicos. Por otro lado, la vulnerabilidad. Cambios muy pequeños en la entrada pueden hacer que las respuestas se desvíen de manera significativa. Esta mezcla de brillantez y fragilidad se vuelve especialmente clara cuando se usa una técnica que popularizó un salto notable en rendimiento: la Cadena de Pensamiento, o Chain of Thought. En vez de exigir una respuesta directa, el usuario invita al sistema a pensar en voz alta, a escribir los pasos, justificar decisiones intermedias, revisar supuestos. Ese simple cambio elevó el techo de lo que estos sistemas podían hacer en matemáticas, programación y razonamiento verbal. A la vez, puso al desnudo sus límites. Al exponer el recorrido, se observan desvíos sutiles que nacen de pequeñas perturbaciones.
Hasta hace poco, la receta para lidiar con la inestabilidad era artesanal. Los equipos afinaban prompts, agregaban ejemplos, imponían formatos, daban instrucciones explícitas. Funcionaba, pero tenía un problema evidente. Cada nuevo modelo exigía un nuevo ciclo de ensayo y error. Lo que servía para uno, no necesariamente servía para otro. El éxito dependía de trucos y paciencia. La pregunta de fondo seguía abierta. Por qué fallan estos sistemas ante pequeñas variaciones. En qué condiciones conviene alargar la cadena de pasos. Cuándo, pese a pensar más, no se logra corregir el rumbo. Qué rasgos internos vuelven a un modelo más consistente frente al ruido inevitable de la realidad.
Un trabajo reciente propone una respuesta. En lugar de acumular recetas de taller, plantea un conjunto de reglas sencillas para entender y cuantificar la robustez del razonamiento paso a paso. La ambición es clara: pasar de la intuición a principios operativos. Lo hace con un enfoque que comienza en el terreno teórico y vuelve luego al laboratorio para verificar tendencias con experimentos controlados. El resultado es un mapa. No es todo el territorio, pero alcanza para tomar decisiones mejores en despliegues reales. El mapa dice que alargar la cadena de pensamiento ayuda a amortiguar el ruido cuando el modelo es estable, que existe un límite a ese beneficio cuando el cambio en la entrada supera un umbral, y que la estabilidad está ligada a la “intensidad” numérica de las representaciones internas. Pensar en voz baja, por así decirlo, ayuda a pensar mejor.
A lo largo de este artículo vamos a recorrer ese mapa con lenguaje llano. Empezaremos por fijar un vocabulario mínimo. Qué es una perturbación de entrada. Cómo se traduce una palabra a números. Qué significa robustez en este contexto. Por qué al hablar de normas vectoriales se habla de volumen interno del pensamiento. Con esas herramientas, avanzaremos por cuatro estaciones. La promesa y el talón de Aquiles de la cadena de pensamiento. Las reglas que permiten anticipar cuándo conviene alargarla y cuándo no. La geometría del pensamiento interno, donde la intensidad de los vectores permite estimar la estabilidad. Y, por último, la bajada al taller, con un procedimiento concreto para elegir prompts más estables midiendo señales internas y no solo verificando aciertos en un conjunto de pruebas. El objetivo no es convertir al lector en teórico de la IA. Es darle criterios claros para evaluar cuándo un sistema es confiable y qué se puede ajustar sin depender de trucos frágiles.
La promesa y el talón de Aquiles
La cadena de pensamiento cambió la práctica cotidiana. Quien programa la usa para pedir a la IA que explique por qué elige cierto algoritmo y no otro. Quien enseña la usa para guiar a estudiantes en problemas multi etapa, con un esquema paso a paso. Quien trabaja con datos la usa para verificar supuestos antes de inferir una conclusión. Al hacer que el modelo externalice su razonamiento, se obtiene un doble beneficio. Mejora la tasa de acierto en tareas complejas y se asoma una ventana de transparencia. El camino que lleva a la respuesta queda a la vista. Si hay una falla, se detecta dónde nació. Ese lado virtuoso es difícil de exagerar. Ayuda a depurar, a calibrar, a enseñar. Permite incluso diseñar procedimientos donde otro modelo actúa como revisor del razonamiento y corrige a tiempo.
Pero la ventana también deja ver una fragilidad. Supongamos un análisis financiero. Pedimos un resumen de riesgos para el beneficio neto. La cadena de pasos correctamente se ocupa de márgenes, costos, tasas. Si repetimos la consulta y cambiamos beneficio por ganancia, es probable que el humano no note diferencia. Para un modelo, ese cambio puede alterar el recorrido interno de la cadena. La diferencia semántica es mínima, pero la ruta numérica se perturba lo suficiente como para que el camino pase por otra colina y termine en un valle distinto. El resultado puede ser una respuesta de aparente solidez pero con un foco desviado. Cambios de sinónimos, una coma desplazada, la presencia de una frase irrelevante, un orden distinto en opciones de múltiples elección, todo eso puede empujar a una ruta diferente.
La respuesta clásica a esa inestabilidad fue pragmática. Armar prompts más explícitos. Incluir ejemplos. Pedir en el formato exacto. Prohibir ciertos atajos. Generar varias cadenas y elegir por consenso. Es útil, pero no explica el fenómeno. Sin explicación no hay principio. Sin principio no hay receta durable. El giro del trabajo que nos ocupa está en proponer tres ideas básicas. La primera es que si el modelo procesa su razonamiento como un sistema iterativo suave, entonces cada paso adicional filtra un poco el ruido. La segunda es que ese filtro tiene rendimientos decrecientes y, peor, tiene un límite. Hay tamaños de perturbación que no se corrigen por más pasos que agreguemos, porque cambian de problema al sistema. La tercera es que la forma en que el modelo representa por dentro las palabras y los pasos tiene un papel central. Si esos vectores internos son desmesurados, la inestabilidad crece. Si son contenidos, la consistencia mejora.
Para aterrizar estas ideas conviene afinar dos nociones. Una perturbación de entrada no es un cambio de letras, es un desplazamiento de un punto en un mapa de números. Los modelos no “leen” texto. Proyectan palabras y frases a espacios vectoriales de alta dimensión. La segunda noción es la de estado oculto. En cada paso, el modelo guarda un resumen interno de lo que lleva pensado. Ese resumen es otro vector. Lo que aquí se estudia es cómo cambios pequeños en el vector de entrada se traducen en cambios en la secuencia de estados ocultos. Si el sistema que genera esa secuencia es suave, los cambios se atenúan con iteraciones. Si no lo es, se amplifican. Si el punto de partida se aleja demasiado, el camino converge a otra región y la cadena queda mal orientada para siempre. En ese lenguaje, alargar la cadena tiene sentido cuando el sistema es estable y la perturbación no supera el umbral. Aferrarse a cadenas larguísimas en un caso contrario solo gasta cómputo y aumenta la confianza en respuestas incorrectas.
De la intuición a las reglas
A la hora de formalizar, el razonamiento paso a paso puede pensarse como un proceso recursivo. Se toma la representación numérica de la pregunta y se calcula un primer estado oculto. Ese estado y la entrada se combinan para calcular el segundo estado. Y así hasta un k final. La función que lleva de un estado al siguiente captura el “modo de pensar” del modelo. Cuando esa función es suave en sentido técnico, pequeños cambios en la entrada no producen saltos abruptos en los estados posteriores. En esa condición aparece una primera regla práctica. Si el modelo es estable, agregar pasos reduce la sensibilidad a perturbaciones. En lenguaje menos técnico, una cadena más larga ayuda a amortiguar el ruido cuando el pensamiento interno no tiene acantilados.
Para no dejar la idea en el aire, pensemos una experiencia conceptual. Usamos varias versiones de un mismo modelo y medimos, para un conjunto de problemas, qué tanto difieren sus respuestas cuando alteramos de forma mínima el prompt. Calculamos la inconsistencia entre las salidas y la relacionamos con la longitud de la cadena. Lo que se observa de manera repetida es una tendencia clara. Cadenas más extensas tienden a respuestas más consistentes. Esto no significa que la precisión crezca siempre con la longitud. A menudo, tareas que requieren más pasos son más difíciles. Por eso se ve que la inconsistencia cae y la tasa de acierto puede estabilizar o incluso bajar. Lo importante aquí es distinguir dos objetivos que suelen confundirse. La robustez mide estabilidad ante cambios pequeños. La precisión mide acierto final. La cadena larga ayuda a lo primero si el sistema es estable. Lo segundo necesita además que el modelo sepa lo que hace.
La segunda regla es más áspera y más valiosa. Existe un tamaño de perturbación por encima del cual el beneficio de alargar la cadena se agota. Más todavía, existe un nivel en el que una perturbación reencuadra el problema. Un ejemplo simple lo deja claro. Si el pedido original es calcular un interés compuesto y la versión perturbada es escribir un programa para calcular ese interés, la naturaleza de la tarea cambió. Por más pasos que agreguemos, el proceso convergerá a una solución de programación. En el mejor de los casos incluirá un ejemplo que resuelva el caso original. En el peor, se quedará en el código y no responderá la pregunta. En términos más finos, la cadena de razonamiento no sufrió ruido, sufrió una torsión del objetivo. Siguió siendo coherente. Perdió la relevancia.
Una tercera regla aparece cuando forzamos cadenas larguísimas. Si instruimos al modelo a pensar en muchos más pasos de los que usaría espontáneamente, la inconsistencia cae al principio y luego deja de caer. Es el efecto de rendimientos decrecientes. Hay una meseta de estabilidad a la que se llega rápido y a partir de ahí cada paso adicional aporta casi nada a la robustez. Tiene sentido. Si la función que lleva de estado a estado ya filtró todo lo filtrable, agregar pasos se vuelve redundante. En la práctica, esto da una guía. Conviene evitar tanto las cadenas excesivamente cortas como las interminables. Ni atajos que amplifican ruido ni caminos que consumen cómputo sin beneficio real.
Estas tres reglas no dependen de fórmulas para ser útiles. Son orientaciones que cualquier equipo puede adoptar. En diseños de producto, sugieren limitar cadenas a un ancho razonable y elegir ese ancho observando cómo cae la inconsistencia en validaciones internas. En despliegues sensibles, invitan a monitorear de forma continua la estabilidad ante pequeñas variaciones de la entrada. En exploraciones de prompting, piden no confundir estabilidad con acierto y no apostar todo a la longitud de la cadena como si fuera una panacea.
La geometría del pensamiento interno
Hay otra capa del problema que resulta clave. No alcanza con mirar la longitud de la cadena. Importa la “intensidad” con que el modelo representa las cosas por dentro. Esa intensidad se captura con un número sencillo, la norma del vector. Para quien no use esa jerga, la norma es la longitud de un vector en el espacio donde vive. Uno puede imaginar un mapa de muchas dimensiones. Un vector muy largo está lejos del centro. Un vector corto está cerca. Lo que el marco teórico y la verificación empírica muestran es que cuando los vectores que representan la entrada y los estados ocultos tienen normas muy grandes, la inestabilidad crece. Si esas normas se mantienen en rangos moderados, la robustez mejora.
La intuición es clara. Cuando una representación está en una zona extrema del espacio interno, pequeños empujones pueden moverla a regiones donde la función de pensamiento cambia de comportamiento. Aparecen los acantilados. En cambio, cuando la representación se mantiene en zonas templadas, las mismas perturbaciones producen desplazamientos controlados y la cadena sigue su curso. Llevado a la práctica, esto quiere decir que un modelo que “piensa con calma” es preferible a uno que “piensa a los gritos”. No hablamos de estilo literario. Hablamos de magnitudes numéricas. Una sesión interna que evita excitaciones desmesuradas es más estable.
Hay pistas adicionales. Los sistemas modernos incluyen mecanismos de normalización que, entre otras cosas, moderan las magnitudes internas. Esas capas funcionan como estabilizadores. También hay señales de que los modelos aprenden por sí mismos a mantener los estados ocultos en franjas relativamente acotadas. Aun así, los vectores de entrada pueden entrar con normas muy variables. Allí aparece una oportunidad práctica. Si podemos evaluar candidatos de prompt midiendo la norma de la representación de la entrada y de los estados, podemos elegir el que induzca un estado más sereno. Esto cambia por completo el juego del prompting. En lugar de probar docenas de variantes y medir cuál acierta más en un conjunto de pruebas, usamos una métrica interna que correlaciona con estabilidad. El objetivo deja de ser “pegarle” en promedio y pasa a ser “resistir” cambios de formulación.
Para ilustrar con un caso cotidiano, piense en dos formas de iniciar una consulta jurídica. En una se pide directamente un resumen de cláusulas y riesgos. En la otra se agrega un párrafo previo con un encuadre emocional y varios adjetivos. Es probable que la segunda opción lleve la representación de entrada a una zona más alejada del centro de ese espacio interno, por la mezcla de registros y la densidad semántica superpuesta. Si uno calcula la norma y observa que ese valor supera una franja que el equipo definió como segura, conviene ajustar la redacción a un tono más neutro. No se pierde riqueza. Se gana estabilidad. La idea general es sencilla. Menos excitación numérica, más robustez.
De la teoría al taller
El último tramo de la propuesta baja el mapa a un procedimiento concreto. Seleccionar prompts con una métrica interna de estabilidad. El algoritmo es directo. Para una tarea dada, se formulan varias variantes de prompt que sean semánticamente equivalentes. Se corre el modelo con cada una y se extraen las representaciones de entrada y, si es posible, alguna capa de estados ocultos. Se computa una métrica que combina sus normas. Se elige la variante que genere menores normas promedio. Con ese prompt base se confía en que la cadena de pensamiento resultante será más resistente a pequeñas perturbaciones. Se puede además fijar un umbral. Si una sesión supera ese umbral, se dispara una corrección automática. Por ejemplo, pedir al sistema que simplifique la instrucción, elimine elementos accesorios o reordene frases para regresar a una zona segura del espacio interno.
Este proceso no reemplaza las verificaciones de precisión. Complementa. Primero se garantiza una base de estabilidad. Luego se optimiza la tasa de acierto con ajustes guiados por datos. La ventaja es doble. Se reduce el trabajo de ensayo y error porque las señales internas son más baratas de medir que baterías de pruebas externas. Y se obtiene una propiedad que las pruebas promedio no entregan. Consistencia ante ruido. Ese atributo es el que más se reclama en dominios de riesgo. Diagnóstico, finanzas, legal, gobierno. Allí donde un sinónimo no debería torcer la decisión.
En evaluaciones comparativas, esta metodología supera enfoques puramente empíricos en conjuntos de tareas exigentes. No hace falta replicar tablas ni curvas para captar la idea. Lo importante es la dirección. Elegir prompts no por simpatía ni por intuición, sino por la calma que inducen. Si a eso se suma un tope razonable a la longitud de la cadena y un mecanismo para detectar cuándo la perturbación reencuadra la tarea, la mejora práctica es tangible. Un sistema así configurado evita encarnizamiento terapéutico de pensamiento cuando no tiene sentido, gana consistencia en los márgenes donde el usuario más lo necesita y da señales internas para monitorear en producción.
A partir de aquí, se abre una agenda de ingeniería con tres frentes. El primero es producto. Incluir medidores internos de estabilidad y paneles simples que permitan ver, sesión a sesión, qué tan cerca se está de los límites. El segundo es entrenamiento. Incorporar regularizaciones que penalicen normas excesivas en ciertas capas, de modo que el modelo aprenda espacios de representación más templados. El tercero es evaluación continua. No solo medir acierto en un conjunto fijo, sino someter de forma regular las tareas a perturbaciones controladas que simulan errores tipográficos, reordenamientos, sinónimos y ruido inocuo. El objetivo es evitar sorpresas. Un sistema que cae ante cambios leves en el texto no está listo para interactuar con la vida real.
Tres preguntas guía para decidir en la práctica
Primera pregunta. Qué tamaño de perturbación es aceptable para mi caso de uso. En disciplinas como clínica o crédito, se puede definir una canasta de alteraciones permitidas y medir que la salida se mantenga dentro de un rango. Si no se cumple, no se habilita la cadena de pensamiento en ese flujo, o se pide intervención humana en cada salto de paso.
Segunda pregunta. Cuál es la longitud de cadena que ofrece mejor compromiso entre costo y estabilidad. No hay un número universal. Hay una inflexión que se descubre midiendo. En general, pocas iteraciones agregan mucho valor y las siguientes aportan poco. Ese punto de rendimiento decreciente es un buen límite operativo.
Tercera pregunta. Cómo monitoreo la calma interna del sistema. La norma de la representación de entrada y alguna señal de activación en capas clave pueden convertirse en semáforos simples. Verde para sesiones templadas. Amarillo para sesiones excitadas que requieren cuidado adicional. Rojo para sesiones fuera de rango donde conviene reescribir o pedir ayuda.
Riesgos, oportunidades y un cambio de enfoque
La robustez no es un lujo. Es el requisito para confiar. El costo de ignorarla es alto. Respuestas inconsistentes minan la aceptación social de herramientas que, cuando funcionan, multiplican productividad y amplían acceso. El beneficio de atenderla con principios claros es igualmente alto. Con métricas internas y reglas simples se gana estabilidad sin perder capacidad. Esta transición, de la magia del prompt a la ingeniería de la consistencia, tiene una consecuencia cultural. Cambia la conversación. De qué truco hace hablar mejor al sistema a qué condiciones lo vuelven confiable. Ese giro es sano. Desplaza la atención desde la apariencia del texto a la calidad del proceso que lo produce.
La oportunidad técnica es evidente. Se pueden diseñar arquitecturas y procedimientos de entrenamiento que incentiven representaciones más moderadas. Se pueden construir bancos de pruebas orientados a estabilidad y no solo a acierto promedio. Se puede enriquecer la interfaz para que el usuario vea señales simples de estabilidad y entienda cuándo conviene reformular. La oportunidad social también lo es. En educación, derecho, salud y finanzas, contar con un mecanismo que garantice consistencia ante pequeñas variaciones hace la diferencia entre una herramienta confiable y una curiosidad peligrosa. La oportunidad económica es directa. El costo de soporte baja cuando las respuestas no cambian por caprichos del texto. La reputación mejora cuando la herramienta no parece esquiva.
Hay, por supuesto, límites. No es razonable esperar que un modelo resista cualquier tipo de cambio en la entrada. Si el encuadre se altera, si el objetivo se transforma, si la perturbación es un cambio de tarea, la cadena seguirá otro camino. No hay milagros. Lo importante es distinguir el ruido tolerable de la torsión de objetivo. Un sistema bien instrumentado puede advertir esas condiciones. Es preferible una negativa explícita a una respuesta segura de sí misma pero irrelevante. En ese sentido, la robustez y la honestidad van de la mano. Un modelo que reconoce cuando la entrada lo aleja de su zona de validez es más valioso que uno que insiste con confianza en cualquier terreno.
Ideas finales
La cadena de pensamiento elevó el techo de lo que un modelo de lenguaje puede hacer cuando la tarea exige varios pasos. También dejó a la vista el piso sobre el que se apoya esa nueva altura. La estabilidad. Durante un tiempo se creyó que bastaba con encontrar la forma correcta de instruir al sistema. Que la optimización de prompts resuelve casi todo. Ese camino rindió frutos, pero topó con un límite previsible. La ausencia de principios convertía la práctica en una carrera de trucos. El aporte del marco que analizamos es ordenar la escena con reglas simples y operables. Si el sistema es estable, unas pocas iteraciones amortiguan perturbaciones pequeñas. Si la perturbación supera cierto umbral, no hay longitud de cadena que salve la coherencia. Si las representaciones internas se mantienen en rangos moderados, la resistencia al ruido crece. Con esas reglas, se puede diseñar un proceso de selección de prompts que priorice la calma interna en lugar del acierto puntual. Se puede monitorear la estabilidad como parte del servicio y no como una curiosidad de laboratorio. Se puede entrenar con regularizaciones que favorezcan espacios de representación templados. Se puede evaluar con baterías que midan consistencia ante ruido y no solo promedio de aciertos.
Nada de esto excluye el juicio humano. Al contrario. Lo hace más valioso. Un profesional puede decidir cuándo una perturbación es ruido aceptable y cuándo reencuadra la tarea. Puede establecer umbrales adecuados a su dominio. Puede definir longitudes de cadena razonables. Puede leer señales internas y ajustar su interacción. Lo fundamental es que ahora hay un lenguaje compartido y prácticas replicables. La robustez deja de ser un deseo y se vuelve un criterio con instrumentos. Si algo caracteriza a una disciplina madura es precisamente eso. La posibilidad de predecir, de controlar y de mejorar de forma confiable.
En un horizonte cercano, la presión para adoptar sistemas de IA en procesos sensibles seguirá creciendo. La única adopción sostenible será la que ponga la robustez en el centro. No como barniz, sino como requisito de diseño. En ese horizonte, pensar más no siempre alcanza. Pensar mejor, con calma medible, sí. Esa es la idea fuerza que conviene llevarse. Que la inteligencia artificial profesional no solo necesita modelos más grandes, necesita modelos más serenos. Que la ingeniería de prompts no debe desaparecer, debe profesionalizarse con métricas internas. Que la evaluación no debe quedarse en rankings, debe incluir estrés controlado. Y que la confianza pública no se ganará con promesas, se ganará con consistencia. Paso a paso, pero con pasos que valgan la pena.
Referencias
Bachlechner, T. C., Majumder, B. P., Mao, H. H., Cottrell, G., & McAuley, J. (2020). Rezero is all you need: Fast convergence at large depth. In Conference on Uncertainty in Artificial Intelligence.
Bigelow, E. J., Lubana, E. S., Dick, R. P., Tanaka, H., & Ullman, T. (2024). In-context learning dynamics with random binary sequences. In The Twelfth International Conference on Learning Representations.
Cui, Y., He, P., Tang, X., He, Q., Luo, C., Tang, J., & Xing, Y. (2024). A theoretical understanding of chain-of-thought: Coherent reasoning and error-aware demonstration. arXiv preprint arXiv:2410.16540.
Dingzirui Wang et al. (2025) Bounds of Chain-of-Thought Robustness: Reasoning Steps, Embed Norms, and Beyond. arXiv:2509.21284.
Li, H., Wang, M., Lu, S., Cui, X., & Chen, P.-Y. (2024). Training nonlinear transformers for chain-of-thought inference: A theoretical generalization analysis. arXiv preprint arXiv:2410.02167.
Roh, J., Gandhi, V., Anilkumar, S., & Garg, A. (2025). Break-the-chain: Reasoning failures in Ilms via adversarial prompting in code generation. arXiv preprint arXiv:2506.06971.
Shao, J., & Cheng, Y. (2025). Cot is not true reasoning, it is just a tight constraint to imitate: A theory perspective. arXiv preprint arXiv:2506.02878.
Wang, W., Hosseini, P., & Feizi, S. (2025). Chain-of-defensive-thought: Structured reasoning elicits robustness in large language models against reference corruption. arXiv preprint arXiv:2504.20769.