AMemGym: la razón científica por la que tu chatbot no recuerda lo que le contaste hace tres semanas

Tu asistente virtual te olvidó: por qué los chatbots pierden la memoria después de 50 mensajes

Investigadores crearon AMemGym, el primer laboratorio interactivo que simula conversaciones reales de meses entre usuarios ficticios y asistentes digitales. Los hallazgos revelan una crisis oculta: después de 47 intercambios de mensajes, sistemas considerados de frontera como Claude o Gemini olvidan las preferencias del usuario y responden peor que tirar una moneda al aire. El problema no es la capacidad de procesar texto largo, sino la incapacidad para recordar qué importa cuando la conversación se extiende en el tiempo

Por el equipo editorial | 6 de febrero, 2026

Imagina contarle a tu asistente virtual que odiás el cilantro en la tercera conversación de enero. Para marzo, tras 50 mensajes intercambiados sobre recetas, preferencias alimentarias y planes para cenas, le pedís sugerencias para un plato. Te recomienda tacos con salsa de cilantro fresco. Este colapso de memoria no es anécdota: representa el comportamiento sistemático de todos los chatbots actuales cuando las conversaciones se extienden más allá de umbrales específicos. AMemGym, un entorno de prueba presentado para revisión en la conferencia ICLR 2026, expone por primera vez esta fragilidad mediante simulaciones controladas donde personas ficticias conversan durante meses virtuales mientras sus vidas cambian de empleo, hobbies y circunstancias personales.

Hasta ahora, todas las pruebas de memoria conversacional seguían el mismo patrón defectuoso. Investigadores generaban transcripciones de diálogo con un sistema, luego evaluaban otro sistema diferente usando esas mismas transcripciones. Un defecto lógico fundamental vicia esta aproximación. Si el asistente que está siendo evaluado nunca participó en la conversación original, sus respuestas no afectaron el rumbo del diálogo. Sería como evaluar tu habilidad para navegar mostrándote el video del viaje de otra persona: nunca tomaste las decisiones que llevaron a ciertos lugares o situaciones. AMemGym invierte esta lógica. Cada asistente conversa realmente con usuarios simulados que reaccionan a lo que dice, revelando u ocultando información según cómo fluye el intercambio. Esta metodología captura cómo se comportan los sistemas en uso real, no en transcripciones ajenas.

Biografías sintéticas que envejecen durante meses virtuales

El sistema comienza construyendo biografías detalladas de 20 personas ficticias extraídas de un conjunto de 100,000 perfiles sintéticos. Cada personaje tiene edad, ocupación, nivel educativo y circunstancias de vida específicas. Se generan preguntas que esa persona haría naturalmente: consejos para organizar reuniones mensuales de bridge, sugerencias para mentoría de jóvenes en la comunidad, recomendaciones sobre actividades recreativas. Estas consultas requieren conocer detalles personales específicos para responder correctamente. Tamaño del grupo, edad de los participantes, nivel de experiencia, disponibilidad de tiempo: todos estos factores cambian la respuesta correcta. Luego viene la parte crucial: el sistema simula cómo esas circunstancias cambian durante 11 períodos temporales con eventos de vida narrativos como cambios de empleo, mudanzas, nuevos hobbies o alteraciones en rutinas.

Cada transición está motivada por eventos concretos. Una persona que inicialmente mentoreaba en sesiones pequeñas ahora lidera talleres para grupos grandes después de asumir responsabilidades en una organización comunitaria. Otra que organizaba partidas de bridge para jugadores experimentados ahora recibe principiantes tras unirse a un club con demografía más diversa. Nada es arbitrario. Todas las trayectorias reflejan evoluciones de vida realistas donde preferencias y circunstancias se transforman gradualmente. Durante conversaciones naturales, el usuario simulado revela esta información implícitamente. Menciona casualmente "ahora que lidero el taller semanal" o "desde que el grupo creció a 12 personas". El asistente debe capturar estos detalles, almacenarlos y recuperarlos semanas virtuales después cuando la pregunta de evaluación requiere esa información específica.

💬 Ejemplo de evaluación típica en AMemGym

Perfil inicial: Elena, profesora de música de 58 años, organiza reuniones mensuales de bridge con un grupo pequeño de amigas veteranas del juego. Menciona casualmente que el grupo es íntimo, todas tienen más de 50 años y prefieren partidas relajadas sin torneos formales.

Eventos simulados: Durante el tercer mes virtual, Elena menciona que se unió a un nuevo club donde hay jugadores más jóvenes. En el quinto mes, comenta que ahora organizan partidas para 10 a 12 personas con edades mixtas. Para el séptimo mes, habla de introducir variantes del juego para mantener interesados a los principiantes.

Pregunta de evaluación: "¿Qué actividades puedo organizar para mis reuniones mensuales de bridge para mantenerlas frescas y entretenidas?" Las opciones de respuesta varían según tamaño del grupo, edad de participantes y nivel de experiencia. La respuesta correcta cambia en cada período según el estado actual de Elena.

Fallo típico: El asistente responde basándose en información de enero (grupo pequeño de veteranas) cuando está en junio y Elena ya lidera un grupo grande y diverso. Olvidó las actualizaciones mencionadas en conversaciones intermedias.

Dos anotadores independientes validaron que las simulaciones son realistas. Revisaron 200 consultas diseñadas para revelar estados específicos del usuario, verificando que la información se transmitiera claramente. El puntaje promedio fue 99.1% con acuerdo casi perfecto entre evaluadores. Otros 748 turnos de conversación se verificaron para asegurar que el usuario simulado nunca contradijera información establecida previamente, logrando consistencia de 99.2%. Cuando compararon las respuestas correctas generadas automáticamente con juicios de dos humanos independientes, el acuerdo fue 0.92 entre humanos y 0.96 y 0.94 entre el sistema automático y cada evaluador. Las simulaciones son suficientemente realistas como para servir de laboratorio confiable.

El colapso sistemático tras semanas de conversación

Una crisis silenciosa emerge en los datos. Todos los modelos evaluados funcionan excelentemente al inicio: Claude Sonnet 4, Gemini 2.5 Flash, GPT-4.1 y otros alcanzan más de 80% de efectividad cuando el historial es breve y la información está fresca. Conforme se acumulan conversaciones, aparece el problema. En el primer período real después de la introducción inicial, Claude mantiene 54% de su capacidad para recordar. Para el séptimo período, ha colapsado hasta 12%. En el octavo período, apenas logra 19%. Gemini 2.5 Flash sigue trayectoria similar: inicia en 75%, cae a 45% en el tercer período, y se desploma hasta 7% en el octavo. GPT-4.1 comienza en 72%, declina progresivamente y alcanza apenas 9% en el séptimo período. DeepSeek-v3 nunca supera 51% incluso al inicio y termina en territorio negativo, respondiendo peor que adivinanza aleatoria.

Este patrón de deterioro no refleja limitaciones para entender el lenguaje o razonar sobre información disponible. Cuando se proporciona explícitamente al asistente toda la información actual del usuario antes de hacer la pregunta, evitando completamente la necesidad de recordar nada, responde correctamente más del 80% de las veces. El problema no es capacidad de razonamiento: es memoria pura. Estos sistemas pueden aplicar información cuando la tienen enfrente, pero no logran mantenerla accesible cuando se enterró bajo docenas de intercambios posteriores. La brecha entre lo que podrían hacer con memoria perfecta y lo que realmente logran crece exponencialmente. Para el décimo período, funcionan apenas mejor que responder al azar.

Deterioro de memoria conversacional a lo largo de períodos de interacción: todos los asistentes muestran colapso pronunciado después de múltiples sesiones, con sistemas considerados de frontera cayendo desde 80% de efectividad hasta rangos de 10-20%

Algunos sistemas intentan soluciones más sofisticadas. En lugar de depender únicamente de leer todo el historial cada vez, extraen información clave y la almacenan en bases de datos externas que pueden buscar selectivamente. Otros comprimen el historial completo en resúmenes compactos que caben en la ventana de atención del modelo. Hay variantes que combinan ambas técnicas: extraen hechos importantes, los reescriben para facilitar búsqueda posterior, y solo recuperan fragmentos relevantes cuando el usuario hace una pregunta. Estas arquitecturas especializadas mejoran el rendimiento significativamente. La variante más efectiva actualiza su memoria externa cada 2 turnos de conversación, mantiene 4 mensajes recientes visibles y recupera hasta 30 memorias relevantes por consulta. Alcanza 29% de capacidad recordatoria sostenida, mejora sustancial sobre el 20% de modelos que simplemente leen todo el historial cada vez.

⚠️ Tres formas en que falla la memoria del asistente

Fallo de captura inicial: Nunca registró la información aunque el usuario la mencionó claramente. Ocurre cuando el sistema no identifica qué fragmentos del diálogo contienen hechos importantes versus conversación casual. Tasas típicas: 30-38% de información crítica nunca se almacena correctamente.

Fallo de recuperación: Almacenó la información correctamente, pero no la encuentra cuando la necesita. Sucede cuando busca en su memoria usando términos que no coinciden con cómo almacenó originalmente, o cuando información relevante queda enterrada bajo cientos de otros fragmentos. Tasas típicas: 9-25% de información almacenada no se recupera.

Fallo de aplicación: Recuperó toda la información correcta, pero la usa incorrectamente para responder. Tiene todos los hechos necesarios pero no puede combinarlos apropiadamente para generar la respuesta adecuada. Tasas típicas: 7-24% de casos donde memoria perfecta aún produce respuesta incorrecta.

Las compensaciones entre estas tres dimensiones explican por qué distintas arquitecturas funcionan mejor en escenarios diferentes. Sistemas que extraen y reescriben información selectivamente reducen los fallos de aplicación porque mantienen el historial compacto. El modelo no se pierde en contextos gigantescos. Pero aumentan los fallos de recuperación porque pierden información atómica durante la compresión o carecen de visión global durante búsqueda. Otros sistemas actualizan memoria con menor frecuencia y retienen más mensajes recientes sin procesar. Esto aumenta fallos de recuperación porque múltiples fuentes confunden la generación, aunque mejora capturas iniciales porque hay más contexto disponible cuando el sistema decide qué almacenar.

Estrategia	Capacidad de memoria	Falla al guardar	Falla al buscar	Falla al usar
Extracción selectiva externa	29.1%	33.8%	15.9%	7.4%
Búsqueda en historial completo	22.7%	37.7%	17.2%	6.7%
Modelo nativo sin memoria especializada	20.3%	30.1%	8.7%	24.4%
Compresión agresiva interna	17.2%	28.6%	24.5%	12.2%

Asistentes que aprenden a recordar viendo sus errores

AMemGym permite algo previamente imposible: los asistentes pueden mejorar autónomamente su estrategia para recordar. Investigadores trataron las instrucciones que controlan cómo el asistente decide qué información merece almacenarse como texto editable que evoluciona mediante ciclos iterativos. En cada ciclo, el asistente conversa con el entorno, recibe un resumen de sus errores, y un sistema supervisor reescribe las instrucciones de memoria para corregir patrones de fallo observados. Se probaron tres variantes: sin evolución como línea base estática, retroalimentación mostrando solo las preguntas sin respuestas correctas, y retroalimentación completa incluyendo preguntas, respuestas del asistente y respuestas correctas.

Este proceso produce mejoras notables. Asistentes recibiendo retroalimentación completa lograron 19.7% de capacidad recordatoria comparado con 17.2% para la línea base sin evolución. El análisis detallado revela que la mejora proviene principalmente de capturas iniciales más efectivas. Fallos al almacenar información cayeron desde 29.3% hasta 26.3%. El asistente aprendió a identificar qué fragmentos del diálogo contienen hechos recordables versus conversación intrascendente. Instrucciones genéricas como "rastrear niveles de habilidad" evolucionaron hasta reglas específicas: "capturar enfoques de enseñanza adecuados a niveles de experiencia, incluyendo formatos de sesión, rompehielos preferidos y estructuras de grupo". El sistema descubrió autónomamente esquemas para información recurrente como logística de coros o fiestas de visualización temáticas.

✓ Por qué conversaciones simuladas superan transcripciones estáticas

Realismo interactivo: Cuando el usuario simulado reacciona a lo que el asistente responde, revelando u ocultando información según el flujo natural del diálogo, la evaluación refleja cómo funcionará el sistema en uso real con humanos que también adaptan sus respuestas.

Señales confiables para mejora: Asistentes optimizados con conversaciones reales desarrollan estrategias que funcionan cuando sus propias respuestas determinan el rumbo del intercambio, no solo cuando leen pasivamente transcripciones donde nunca participaron. La diferencia puede cambiar el ranking de sistemas hasta 3 posiciones.

Diagnóstico preciso: Separando fallos en captura, recuperación y aplicación, el sistema identifica exactamente dónde colapsa la memoria. Algunos asistentes fallan porque nunca almacenan la información; otros porque la almacenan pero no la encuentran; otros porque la encuentran pero la usan incorrectamente.

Costo accesible: Generar un usuario sintético completo con biografía, trayectoria de vida durante meses virtuales, y respuestas correctas para todas las combinaciones de circunstancias cuesta menos de un dólar. Esto permite pruebas exhaustivas sin depender de curación manual costosa.

Las compensaciones arquitectónicas emergen claramente en los diagnósticos. Sistemas que extraen selectivamente qué recordar y almacenan externamente superan ventanas de contexto masivas donde el modelo intenta mantener todo el historial visible simultáneamente. Con 29.1% de capacidad recordatoria sostenida, la variante más efectiva supera el 20.3% de modelos que simplemente leen todo. Pero esta ventaja tiene precio: fallos de recuperación aumentan desde 8.7% hasta 15.9% porque fragmentar información en memoria externa y buscarla selectivamente pierde percepción global. Cuando la frecuencia de actualización disminuye y más mensajes permanecen sin procesar, los fallos de recuperación escalan hasta 24.5% porque múltiples fuentes confunden al generador. Capturas iniciales mejoran, sin embargo, porque hay más contexto disponible cuando el sistema decide qué almacenar.

La configuración extendida de AMemGym incrementa la dificultad dramáticamente. Duplica los períodos temporales de 11 a 21, aumenta estados requeridos por pregunta de 2 a 3, y multiplica turnos de interacción de 4 a 10. El contexto total alcanza más de 512,000 palabras, equivalente aproximado a una novela de 400 páginas de historial conversacional completo. Bajo esta presión extrema, Gemini 2.5 Flash Lite colapsa desde 26.9% en configuración base hasta 13.7% en configuración extendida. GPT-4.1-mini cae desde 20.3% hasta 10.4%. Estos números sugieren que incluso avances futuros en capacidad de procesamiento no resolverán el problema fundamental: leer más texto simultáneamente no equivale a recordar efectivamente qué importa cuando el historial se extiende durante meses.

Para usuarios cotidianos, las implicaciones son directas. Cualquier persona usando ChatGPT, Claude o Gemini durante semanas para gestionar proyectos, planificar eventos o recibir consejos personalizados eventualmente experimentará este colapso de memoria. El asistente olvidará preferencias establecidas, repetirá sugerencias ya descartadas, o recomendará opciones incompatibles con circunstancias actualizadas recientemente. AMemGym no solo expone este problema: proporciona el laboratorio para diseñar, probar y optimizar soluciones. Desarrolladores ahora tienen herramientas para evaluar arquitecturas competidoras, identificar configuraciones óptimas para casos de uso específicos, y entrenar sistemas que aprenden autónomamente estrategias más robustas. La pregunta ya no es si los asistentes conversacionales tienen problemas de memoria, sino cuánto costará computacionalmente resolver ese problema para horizontes temporales realistas.

Referencias

AMemGym: Interactive Memory Benchmarking for Assistants in Long-Horizon Conversations - OpenReview, ICLR 2026 (under review). https://openreview.net/forum?id=sfrVLzsmlf

AMEMGYM: Interactive Memory Benchmarking for Assistants in Long-Horizon Conversations - PDF, ICLR 2026. https://openreview.net/pdf/d747d28a10ab06a042585322ffb59ca2f9b624a7.pdf

Xu, J., Szlam, A., Weston, J. (2022). Beyond goldfish memory: Long-term open-domain conversation. ACL 2022.

Wu, D., et al. (2024). LongMemEval: Benchmarking chat assistants on long-term interactive memory. arXiv:2410.10813.

Maharana, A., et al. (2024). Evaluating very long-term conversational memory of LLM agents. ACL 2024.

Jiang, B., et al. (2025). Know me, respond to me: Benchmarking LLMs for dynamic user profiling. arXiv:2504.14225.

Chhikara, P., et al. (2025). Mem0: Building production-ready AI agents with scalable long-term memory. arXiv:2504.19413.

Meyer, Y., Corneil, D. (2025). Nemotron-Personas: Synthetic personas aligned to real-world distributions. Hugging Face/NVIDIA.

AMemGym: la razón científica por la que tu chatbot no recuerda lo que le contaste hace tres semanas