Cuando más contexto significa peor rendimiento: las cuatro formas en que los modelos colapsan
Gemini 2.5 y GPT-4.1 llegaron con una promesa seductora. Una ventana de un millón de símbolos permitiría acceder simultáneamente a todos los documentos relevantes, conectarse a todas las herramientas disponibles, mantener memoria perfecta de conversaciones extensas. La visión parecía alcanzable: construir agentes capaces de ejecutar tareas complejas sin supervisión humana constante, coordinando acciones a través de información masiva recopilada de fuentes diversas.
El optimismo fue inmediato. RAG, la técnica de selección cuidadosa de fragmentos de bases de conocimiento, parecía primitiva. MCP, el protocolo de conexión a servicios múltiples, generaba entusiasmo desproporcionado. Los agentes autónomos prometían estar a punto de existir realmente.
Pero sucedió algo imprevisto. La realidad técnica contradice frontalmente el optimismo comercial. Contextos extensos no producen respuestas superiores; frecuentemente generan degradación sistemática del rendimiento. Los modelos fallan de maneras inesperadas cuando sus contextos crecen descontroladamente. Una investigación reciente identifica cuatro mecanismos distintos mediante los cuales estos sistemas se desmorona, cada uno con características específicas que todo constructor debe comprender antes de desplegar agentes en producción.
David Breunig, especialista en sistemas autónomos, documentó exhaustivamente estos patrones tras observar comportamientos inexplicables en agentes desplegados. Su análisis, respaldado por estudios de DeepMind, Databricks, Berkeley y colaboraciones entre Microsoft y Salesforce, revela una verdad incómoda: las ventanas gigantes resuelven problemas específicos como síntesis de documentos o recuperación de hechos, pero crean vulnerabilidades severas cuando se aplican al razonamiento multi-paso o coordinación de herramientas múltiples. Incluso el celebrado o3 de OpenAI, que logró 98.1% en ciertas pruebas, se desmorona hasta 64.1% cuando la información se fragmenta a través de intercambios conversacionales que acumulan contexto conflictivo.
Envenenamiento: el error que no se borra
DeepMind entrenó un agente Gemini para jugar Pokémon. La tarea exigía navegar menús complejos, gestionar inventario, ejecutar estrategias de combate prolongado. El agente jugaba bien hasta que ocasionalmente alucinaba detalles sobre el estado del juego. Cuando esto sucedía, algo extraño ocurría: el error se solidificaba en el contexto del modelo, contaminando todas las decisiones posteriores.
DeepMind identificó esto como "envenenamiento de contexto". Una alucinación inicial, una vez introducida en el contexto, era referenciada repetidamente como hecho establecido. Cuando la sección de objetivos del contexto se contaminaba con información falsa, el agente desarrollaba estrategias completamente absurdas. Perseguía metas imposibles. Repetía comportamientos inútiles indefinidamente. Se atascaba en bucles sin escape.
El problema no radicaba en falta de capacidad del modelo. Radicaba en que el contexto envenenado sobrescribía su comprensión entrenada del juego, forzándolo a operar bajo suposiciones fundamentalmente falsas. Ninguna cantidad de experiencia adicional podía corregir esta situación mientras el veneno permaneciera presente.
Los cuatro mecanismos de colapso contextual
Envenenamiento de contexto: Una alucinación inicial se replica dentro del contexto donde es referenciada repetidamente como hecho establecido, contaminando todas las decisiones posteriores y desarrollando estrategias basadas en suposiciones fundamentalmente falsas.
Distracción contextual: El contexto crece tan extenso que el modelo sobre-enfatiza el historial acumulado, repitiendo acciones pasadas en lugar de sintetizar planes nuevos, fenómeno que comienza alrededor de cien mil símbolos en modelos grandes.
Confusión contextual: El contenido superfluo, especialmente herramientas irrelevantes, es empleado por el modelo para generar respuestas de baja calidad; todos los modelos rinden peor con múltiples herramientas que con una sola según Berkeley Function-Calling Leaderboard.
Conflicto contextual: La información nueva entra en conflicto directo con información previa, causando que modelos se aferren a intentos tempranos incorrectos de resolver problemas antes de poseer información completa, provocando caída promedio de 39% en precisión.
Distracción: cuando el historial sofoca la innovación
El agente de Pokémon continuó jugando. Conforme acumulaba más historial durante partidas largas, algo cambió. El contexto crecía desde miles hasta cientos de miles de símbolos. Aunque Gemini 2.5 Pro soporta técnicamente más de un millón de símbolos, la efectividad del agente se desplomaba significativamente más allá de cien mil.
El comportamiento se volvía predecible. En lugar de desarrollar estrategias nuevas, el agente repetía acciones de su vasto historial contextual. Se volvía abrumado, incapaz de sintetizar planes novedosos. Simplemente reciclaba lo que ya había hecho.
DeepMind observó este patrón anecdóticamente, pero Databricks lo cuantificó rigurosamente. Su estudio sobre modelos más pequeños descubrió que la precisión de Llama 3.1 405B comenzaba a decaer alrededor de treinta y dos mil símbolos. Los modelos más pequeños degradaban incluso antes. Una pregunta inevitable surge: si los modelos comienzan a fallar mucho antes de llenar sus ventanas declaradas, ¿cuál es el propósito real de contextos gigantescos?
Breunig propone una respuesta: contextos extensos funcionan para dos casos específicos. Resumen de documentos largos. Recuperación de hechos puntuales. Para tareas que requieren razonamiento multi-paso, síntesis creativa, o coordinación compleja, cada modelo posee un techo de distracción. Superarlo vuelve el contexto perjudicial en lugar de beneficioso.
Confusión: el problema de las herramientas múltiples
Durante meses pareció que todas las empresas lanzarían un servidor MCP. El protocolo permitía a modelos conectarse a servicios arbitrarios mediante definiciones estandarizadas. La visión era intoxicante: un modelo potente conectado simultáneamente a todos los servicios, ejecutando tareas sin supervisión humana.
La propuesta parecía simple. Arroja todas las definiciones en el mensaje. Deja que el modelo se encargue del resto.
Sin embargo, sucedió algo predecible. El Berkeley Function-Calling Leaderboard demuestra que todos los modelos rinden peor cuando reciben múltiples herramientas que cuando trabajan con una sola. El equipo de Berkeley diseñó escenarios donde ninguna herramienta resultaba relevante, esperando que el modelo no las llamara. Pero todos ocasionalmente invocaban herramientas completamente irrelevantes.
Un ejemplo dramático proviene del conjunto de pruebas GeoEngine, que presenta cuarenta y seis herramientas diferentes. Un equipo proporcionó a Llama 3.1 8B cuantizado una consulta con todas las cuarenta y seis herramientas. El modelo falló completamente a pesar de que el contexto estaba dentro de la ventana de dieciséis mil símbolos. Cuando dieron al modelo solo diecinueve herramientas, logró éxito.
El problema es elemental: si colocas algo en el contexto, el modelo debe prestarle atención. Puede ser información completamente irrelevante o definiciones innecesarias, pero el modelo la considerará. Los modelos grandes mejoran en ignorar contexto superfluo, pero continuamos viendo información inútil derribar agentes completos. Las ventanas más largas permiten empacar más información, pero esta capacidad viene acompañada de desventajas sustanciales.
Conflicto: el primer error que persiste
Un equipo conjunto de Microsoft y Salesforce documentó la forma más problemática de colapso contextual. Los investigadores fragmentaron información de pruebas a través de varios intercambios conversacionales. La diferencia es sutil pero crítica: a veces escribes párrafos completos en ChatGPT antes de presionar enviar, contemplando todos los detalles. Otras veces comienzas con una pregunta simple, luego añades detalles cuando la respuesta no satisface.
El equipo simuló esta segunda dinámica. Toda la información se distribuía a través de varias rondas de conversación. Los resultados fueron dramáticamente peores. Caída promedio de treinta y nueve por ciento en precisión. Incluso o3 de OpenAI se desplomó de noventa y ocho punto uno a sesenta y cuatro punto uno.
¿Por qué sucede esto? El contexto ensamblado contenía la totalidad del intercambio conversacional, incluyendo intentos tempranos del modelo de responder el desafío antes de poseer toda la información. Estas respuestas incorrectas permanecían presentes e influenciaban la respuesta final. El equipo lo expresa así: "Descubrimos que cuando los modelos toman un giro equivocado en una conversación, se pierden y no se recuperan."
Esto no augura nada favorable para constructores de agentes. Los agentes ensamblan contexto desde documentos dispersos, llamadas a herramientas, y desde otros modelos encargados de subproblemas. Todo este contexto tiene potencial genuino de contradecirse a sí mismo. Además, cuando te conectas a herramientas MCP que no creaste, sus descripciones probablemente choquen con el resto del mensaje.
El agente de Pokémon como laboratorio del colapso
Entorno complejo: Jugar Pokémon requiere navegar menús intrincados, gestionar inventario, ejecutar estrategias durante horas, proporcionando banco de pruebas ideal para capacidades agente realistas.
Envenenamiento observable: Cuando el modelo alucinaba detalles, estos errores contaminaban objetivos posteriores, llevando a comportamientos absurdos como perseguir metas imposibles o atascarse en bucles infinitos.
Degradación medible: Aunque Gemini 2.5 Pro soporta más de un millón de símbolos, efectividad colapsaba significativamente más allá de cien mil, repitiendo acciones pasadas en lugar de sintetizar estrategias nuevas.
Distinción crucial: DeepMind diferencia entre contexto largo para recuperación versus contexto largo para razonamiento multi-paso generativo. El primero funciona. El segundo exhibe degradación sistemática.
La promesa de contextos ilimitados chocó contra la realidad medida. Conforme los contextos se expanden, emergen modos de fallo antes invisibles. El envenenamiento incrusta errores que se amplifican progresivamente. Los agentes, abrumados por historial extenso, repiten acciones pasadas en lugar de sintetizar estrategias nuevas. Herramientas y documentos irrelevantes provocan confusión que dispersa el foco. Las contradicciones internas descarrilan el razonamiento completo. Estos fallos impactan especialmente a agentes porque operan precisamente en los escenarios donde los contextos se desmorona descontroladamente: reuniendo información de múltiples fuentes, haciendo llamadas secuenciales a herramientas, participando en razonamiento multi-turno, acumulando historiales extensos.
Breunig promete un artículo de seguimiento cubriendo técnicas concretas para mitigar estos problemas. Métodos para cargar herramientas dinámicamente. Cuarentenas de contexto que aíslen información potencialmente conflictiva. Monitoreo de señales de degradación antes de que contaminen sistemas completos. La gestión cuidadosa del contexto, no su maximización indiscriminada, emerge como la clave para construir agentes verdaderamente exitosos.
Las ventanas gigantes de contexto resuelven problemas valiosos. Síntesis de documentos largos. Recuperación de hechos puntuales. Pero introducen vulnerabilidades severas cuando se emplean ingenuamente para razonamiento complejo o coordinación de herramientas múltiples. Esa es la lección fundamental que la industria debe aprender antes de desplegar agentes masivamente en producción.
Referencias
Breunig, D. (2025). How Long Contexts Fail: Managing Your Context is the Key to Successful Agents. Personal blog, junio 2025.
DeepMind. (2025). Gemini 2.5 Technical Report. Context poisoning and distraction in agentic workflows.
Databricks. (2025). Long Context Performance Study: Llama 3.1 Model Family. Correctness degradation analysis.
Berkeley Function-Calling Leaderboard. (2025). Version 3: Tool-use benchmark evaluation across frontier models.
Microsoft Research y Salesforce AI. (2025). Sharded Prompts and Context Clash: Multi-turn Performance Degradation Study.
GeoEngine Benchmark Team. (2025). Small Model Performance with Multiple Tools: A Quantized Llama 3.1 8B Study.



