HaluMem: el benchmark que mide la raíz de las alucinaciones

HaluMem: El Diagnóstico de las Alucinaciones en la Memoria de la IA

El campo de la inteligencia artificial ha experimentado una transformación radical impulsada por los avances en los modelos de lenguaje grandes (LLMs), dando lugar a la aparición de los agentes de IA. Estos sistemas, capaces de realizar tareas autónomas y mantener interacciones persistentes con los usuarios, prometen revolucionar industrias enteras, desde la atención médica hasta la gestión financiera. Sin embargo, detrás de esta promesa tecnológica se esconde un desafío fundamental que amenaza con socavar la confianza y la fiabilidad de estas nuevas herramientas: las alucinaciones. Las alucinaciones en IA no son meros errores triviales; se definen como la generación de información fabricada, incorrecta o inconsistente, presentada con una aparente confianza. Este fenómeno, arraigado en la naturaleza estadística de los LLMs (que predicen la siguiente palabra más probable sin un verdadero entendimiento semántico), ha sido un obstáculo persistente para la adopción masiva de la IA.

Incidentes notables, como un informe generado por IA de Deloitte que contenía referencias completamente inventadas, han puesto de manifiesto las consecuencias prácticas de este problema, subrayando la brecha crítica entre el potencial experimental y la preparación para la producción de muchas aplicaciones de IA. La prevalencia de estas falacias es alarmante; estudios indican que los modelos avanzados producen respuestas completamente precisas solo aproximadamente el 35% de las veces, y que pueden fallar en tareas de oficina entre el 91% y el 98% de las ocasiones.

A medida que la investigación en IA ha madurado, el concepto de alucinación ha evolucionado desde una simple noción de falta de fidelidad a una taxonomía sofisticada y granular. Se ha reconocido que no todas las alucinaciones son iguales y que sus causas y efectos varían según el contexto de la tarea. Una distinción conceptual crucial, propuesta por benchmarks como HalluLens, separa las alucinaciones extrínsecas de las intrínsecas. Las alucinaciones extrínsecas son aquellas donde el contenido generado contradice hechos verificables en el mundo real, mientras que las alucinaciones intrínsecas ocurren cuando la salida no es coherente con el contexto de entrada proporcionado al modelo. Esta distinción es vital porque implica diferentes estrategias de mitigación: una requiere acceso a bases de datos externas y conocimiento factual, mientras que la segunda depende principalmente de la capacidad del modelo para rastrear y utilizar la información contextual proporcionada.

Más allá de esta clasificación, la comunidad científica ha desarrollado un ecosistema robusto de benchmarks para evaluar y medir la prevalencia de estas falacias. Plataformas como el Hallucinations Leaderboard integran múltiples pruebas estándar, como TriviaQA y TruthfulQA, para evaluar la fidelidad a la fuente en tareas de respuesta a preguntas abiertas, y SQuADv2 para evaluar la capacidad de los modelos para identificar si una pregunta es contestable con la información proporcionada. Otros benchmarks, como HaluEval, se centran en evaluar la propia capacidad de los modelos para reconocer alucinaciones en texto existente, utilizando muestras anotadas por humanos y generadas por otros LLMs. Estos esfuerzos han sido cruciales para establecer un punto de referencia objetivo contra el cual medir el progreso en la reducción de las alucinaciones de generación, convirtiéndose en un componente indispensable de cualquier pipeline de desarrollo de IA serio.

Sin embargo, a pesar de estos avances significativos en la evaluación de las alucinaciones de generación, existía una brecha crítica en el campo. Los benchmarks existentes se centraban casi exclusivamente en el resultado final del modelo: la respuesta de texto generada. Eran "cajas negras" que evaluaban la calidad de la salida sin poder diagnosticar dónde exactamente, dentro del proceso interno del sistema, había surgido el error. Un agente podía haber extraído correctamente la información de un diálogo, pero luego haberla procesado incorrectamente durante la actualización de la memoria; o bien pudo haber recuperado una memoria antigua y obsoleta para generar su respuesta. Estas causas eran invisibles para las evaluaciones de extremo a extremo (end-to-end).

Es en este vacío donde emerge HaluMem, no como un simple añadido a la lista de benchmarks, sino como un cambio de paradigma fundamental. Su contribución principal no reside en evaluar si una respuesta es correcta o falsa, sino en identificar y localizar la fase del proceso de memoria donde se originan las falacias. El artículo HaluMem: Evaluating Hallucinations in Memory Systems of Agents introduce el concepto de "alucinación en memoria", un defecto más profundo y perjudicial que las simples alucinaciones de generación. Este fenómeno se refiere a la tendencia de los agentes de IA no solo a olvidar la información proporcionada por el usuario, sino a generar activamente memorias falsas sobre él, creando preferencias incorrectas, estados laborales inventados o historias personales fabricadas. Esta incapacidad para retener y representar de manera precisa la realidad personal del usuario constituye un problema fundamental para el desarrollo de asistentes, compañeros o tutores de IA verdaderamente fiables y persistentes a largo plazo. HaluMem reconoce que la fiabilidad de un agente no depende únicamente de su capacidad para generar un buen texto, sino de la integridad de su propia memoria, que es considerada la infraestructura fundamental para la consistencia, la adaptabilidad y la confianza. Al pasar del diagnóstico de la salida al análisis del proceso interno, HaluMem abre una nueva era en la evaluación de la fiabilidad de la IA, proporcionando los instrumentos necesarios para construir agentes cuya inteligencia esté firmemente anclada en una memoria fiable y duradera.

Un microscopio para la mente artificial: la arquitectura operacional de HaluMem

La innovación central de HaluMem reside en su diseño metodológico, que rompe con el enfoque monolítico de los benchmarks anteriores y ofrece un microscopio para examinar el mecanismo de la memoria del agente de IA. En lugar de evaluar un único resultado final, HaluMem descompone el proceso de almacenamiento y recuperación de información en tres etapas operativas distintas y analizables: extracción de memoria, actualización de memoria y pregunta-respuesta. Esta división permite a los investigadores y desarrolladores localizar con precisión dónde ocurren los fallos, un avance conceptual masivo que transforma la evaluación de una prueba de rendimiento global a un diagnóstico mecánico detallado.

La primera etapa, Extracción de Memoria, mide la capacidad del sistema para identificar y capturar correctamente nueva información de una conversación o diálogo. Es el primer paso donde la información humana debe ser traducida a un formato estructurado que el agente pueda comprender y almacenar. La segunda etapa, Actualización de Memoria, evalúa la habilidad del sistema para modificar, reemplazar o eliminar información existente en su base de datos cuando recibe nuevos datos contradictorios o complementarios. Esta etapa es crucial para mantener la coherencia temporal y evitar la acumulación de información obsoleta o incorrecta. Finalmente, la tercera etapa, Pregunta-Respuesta, utiliza la memoria consolidada por las dos primeras etapas para generar una respuesta a una consulta, funcionando como un test de integración final que revela cómo los errores en las etapas anteriores se propagan hacia el resultado final.

Al evaluar cada una de estas etapas por separado, HaluMem puede determinar si un agente tiene problemas de selección de información, dificultades con las modificaciones o simplemente falla en la consulta final, proporcionando así una guía mucho más precisa para la optimización del sistema.

Puntos clave de fracaso en el proceso de memoria (Promedio de sistemas en HaluMem-Medium). Las tasas de omisión y error en las etapas iniciales son la principal fuente de alucinaciones.

Para llevar a cabo esta evaluación operacional, HaluMem se apoya en dos datasets de gran escala y alta fidelidad, construidos meticulosamente mediante un complejo pipeline de seis etapas. Estos datasets, llamados HaluMem-Medium y HaluMem-Long, contienen aproximadamente 15,000 puntos de memoria y 3,500 pares de pregunta-respuesta cada uno, basados en interacciones humanas-IA multi-turno. HaluMem-Medium se deriva de diálogos de 20 usuarios, con un total de 30,073 turnos, resultando en un contexto promedio de unos 160,000 tokens por usuario. Para explorar el comportamiento de los sistemas bajo condiciones de "contexto largo", donde la interferencia y la degradación de la memoria son más pronunciadas, se creó HaluMem-Long. Este conjunto de datos extiende el contexto promedio por usuario a más de 1 millón de tokens, alcanzando un total de 53,516 turnos de diálogo. Curiosamente, esta expansión se logró insertando diálogos irrelevantes de otras fuentes, como Q&A de ELI5 y problemas de razonamiento matemático, manteniendo constante el número de puntos de memoria y preguntas originales. Este enfoque permite aislar el efecto de la longitud pura del contexto, separándolo de la carga de información relevante que el agente necesita procesar.

Tipo de pregunta	Propósito y descripción
Basic Fact Recall	Evalúa la capacidad básica de recuperar hechos directos y explícitos de la memoria.
Multi-hop Inference	Prueba la capacidad del agente para realizar razonamiento lógico o temporal, conectando múltiples piezas de información dispersas en la memoria para llegar a una conclusión.
Dynamic Update	Mide la habilidad para seguir cambios en el estado de las cosas a lo largo del tiempo, como un cambio de carrera o una condición de salud.
Memory Boundary	Evalúa la capacidad de reconocer qué información está fuera de su conocimiento y abstenerse de fabricar una respuesta.
Generalization & Application	Prueba la capacidad de inferir preferencias o comportamientos en nuevas situaciones basándose en experiencias pasadas documentadas en la memoria.
Memory Conflict	Mide la habilidad para detectar y resolver contradicciones internas o con la información de origen, mostrando una comprensión de la consistencia.

Para asegurar la calidad y fiabilidad de los datos, una parte sustancial de HaluMem-Medium (aproximadamente el 50%) fue validada por humanos, obteniendo una alta tasa de corrección (95.70%), relevancia (9.58/10) y consistencia (9.45/10). Esta validación humana es crucial para que las métricas de evaluación sean significativas. El framework de HaluMem incluye un conjunto de métricas específicas para cada etapa operativa, permitiendo una evaluación granular y sistemática. Para la Extracción de Memoria, se miden la Cobertura (Recall), que indica qué porcentaje de la información relevante se capturó, y la Fidelidad (Accuracy), que mide qué tan preciso fue el contenido extraído. También se evalúa la Resistencia a Memorias Falsas (FMR), que mide la capacidad del sistema para ignorar los distractores introducidos. Para la Actualización de Memoria, se evalúan la Precisión de la Actualización, la Tasa de Alucinación en la Actualización y la Tasa de Omisión en la Actualización, que mide la frecuencia con la que el sistema ignora actualizar la información necesaria. Finalmente, para la Pregunta-Respuesta, se utiliza la Precisión de la Respuesta (QA-Accuracy), junto con las tasas de alucinación y omisión en esta etapa final. Esta combinación de un pipeline de datos de alta calidad, un enfoque operacional granular y un conjunto de métricas detalladas convierte a HaluMem en una herramienta de diagnóstico sin precedentes, capaz de revelar debilidades profundas en los sistemas de memoria que permanecían ocultas a los métodos de evaluación anteriores.

Los talones de Aquiles ocultos: hallazgos críticos sobre la fiabilidad de la memoria

La aplicación de la metodología HaluMem a varios sistemas de memoria de vanguardia (como Mem0, Mem0-Graph, Memobase, Supermemory y Zep) ha arrojado resultados alarmantes que desafían profundamente nuestra comprensión de la fiabilidad de los agentes de IA. Lejos de mostrar un progreso notable en la gestión de la memoria, los sistemas evaluados exhibieron deficiencias sistémicas y consistentes, revelando que la mayor parte de los problemas no surgen en la etapa final de generación de respuestas, sino en los fundamentos mismos del proceso de almacenamiento de información.

El hallazgo más crítico y recurrente es que la extracción de memoria es el talón de Aquiles de los sistemas actuales. Durante esta primera etapa, todos los sistemas evaluados demostraron una baja cobertura, con un recall inferior al 60%, lo que significa que descartaron o no capturaron correctamente más de la mitad de la información relevante proporcionada en los diálogos. Además, su precisión o fidelidad también fue decepcionantemente baja, con una tasa de accuracy inferior al 62%. Esto implica que incluso cuando intentaban extraer información, lo hacían de manera imprecisa, fabricando detalles u omitiendo partes importantes. Esta deficiencia fundamental en la selección inicial de información es el origen de muchos de los problemas posteriores, ya que el sistema simplemente no tenía una base sólida sobre la cual construir una memoria fiable.

Este fracaso en la etapa de extracción tiene consecuencias en cascada que degradan aún más el rendimiento en las etapas posteriores. Cuando la información que llega a la segunda etapa, la actualización de memoria, es incompleta o incorrecta, el sistema se ve gravemente afectado. Los resultados mostraron que, aunque la tasa de alucinación durante la actualización era relativamente baja (inferior al 1%), la tasa de omisión era extremadamente alta, superando el 50% en muchos casos. Esto indica que los sistemas no inventan frecuentemente información falsa durante la actualización, sino que simplemente omiten actualizar la información que deberían, probablemente porque la extrajeron incorrectamente o no pudieron vincularla adecuadamente con los datos existentes. La precisión de las actualizaciones correctas fue igualmente pobre, con menos del 50% de las actualizaciones siendo procesadas correctamente.

Comparativa de rendimiento (HaluMem-Medium). El gráfico muestra la caída entre la información inicial capturada (Recall de Extracción) y la precisión final en las respuestas (Precisión de QA).

Como resultado de estas falencias acumuladas en las etapas de extracción y actualización, el rendimiento en la etapa final de pregunta y respuesta fue insuficiente, con la precisión de respuesta end-to-end quedando por debajo del 56% en todos los sistemas evaluados. Los errores y alucinaciones que comenzaron como omisiones o inexactitudes en la extracción se propagaron y se manifestaron en las respuestas finales, demostrando un vínculo causal claro entre los fallos operacionales tempranos y la fiabilidad global del agente.

Otro hallazgo sorprendente y contraintuitivo provino de la evaluación en contextos ultra-largos, utilizando el dataset HaluMem-Long. Contra la suposición de que una mayor longitud de contexto siempre sería beneficiosa, los resultados mostraron que la mayoría de los sistemas de memoria empeoraron drásticamente a medida que aumentaba la cantidad de diálogo. Por ejemplo, el sistema Mem0 experimentó una caída catastrófica en su capacidad de extracción: el recall disminuyó del 42.91% en HaluMem-Medium al ridículo 3.23% en HaluMem-Long. Este colapso dramático demuestra que la mera ampliación de la ventana de contexto es insuficiente y, de hecho, puede ser perjudicial si el sistema carece de mecanismos inteligentes para filtrar el ruido y priorizar la relevancia. Solo un sistema, Supermemory, mostró un comportamiento diferente: su rendimiento mejoró en los contextos largos, probablemente debido a su capacidad para extraer un mayor volumen de memoria, aunque a costa de una menor resistencia a las distracciones (un FMR bajo). Esto sugiere que existe un compromiso fundamental entre la cobertura (capturar todo lo posible) y la precisión (evitar la absorción de ruido).

Sistema de memoria	Recuerdo de extracción (%)	Precisión de extracción (%)	Omisión en actualización (%)	Precisión de QA (%)
Mem0	42.91	60.86	74.02	53.02
Mem0-Graph	43.28	61.86	75.24	54.66
Memobase	14.55	32.29	94.25	35.33
Supermemory	41.53	60.83	82.47	54.07
Zep	No evaluado	47.28	52.31	55.47
Todos los sistemas (promedio)	< 60	< 62	> 50	< 56

Finalmente, el análisis de la eficiencia de los sistemas reveló otro cuello de botella importante. El proceso de "añadir diálogo" (operaciones de escritura), que engloba tanto la extracción como la actualización, resultó ser significativamente más lento que la simple recuperación de memoria. En HaluMem-Medium, Supermemory fue el más rápido en total (368.74 minutos), mientras que Mem0 tardó más de 2,800 minutos. Esta lentitud es aún más notable considerando que realizaba menos extracciones exitosas, indicando una alta ineficiencia. En HaluMem-Long, el costo computacional de Supermemory aumentó drásticamente debido al mayor volumen de memoria procesada, mientras que Mem0 fue comparativamente más rápido debido a su menor actividad. Esto indica que el proceso de escritura en la memoria es una barrera computacional significativa que debe ser optimizada para que los agentes puedan interactuar de manera fluida y a gran escala. En resumen, los hallazgos de HaluMem pintan un retrato sombrío pero fundamentalmente honesto de la situación actual de la memoria de los agentes de IA. Revelan que, lejos de ser una característica sofisticada y fiable, la memoria en muchos sistemas actuales es una fuente primaria de fragilidad, inexactitud y vulnerabilidad, lo que representa un obstáculo formidable para la creación de agentes verdaderamente autónomos y confiables.

El impacto estratégico de HaluMem: rendirse a la fiabilidad para el futuro de los agentes

Los hallazgos de HaluMem trascienden el ámbito académico y ofrecen una advertencia estratégica clara para el desarrollo futuro de los agentes de IA, respondiendo directamente a la necesidad de comprender su impacto en el avance tecnológico. El estudio demuestra de manera contundente que la fiabilidad de un agente no es un atributo secundario que surge automáticamente de modelos de lenguaje más grandes o de ventanas de contexto más largas. Por el contrario, revela que la memoria es un componente propenso a errores que requiere una atención arquitectónica y de ingeniería cuidadosa y deliberada. La conclusión principal de la investigación es que el futuro de la memoria de los agentes debe centrarse en el desarrollo de mecanismos de operación interpretables y restringidos. Esto marca un cambio de paradigma desde la búsqueda de memorias "infinitas" hacia la creación de sistemas de memoria "inteligentes", capaces de filtrar, priorizar y verificar la información que almacenan.

La investigación subraya la urgente necesidad de separar el "stack de IA Core" (el núcleo de inteligencia, razonamiento y acción) del "stack de fiabilidad" (monitorización, control y garantía de confianza). Dado que la memoria es una fuente primaria de fallos, no puede ser tratada como una caja negra. Debe ser gestionada por un conjunto robusto de barreras de seguridad (guardrails), mecanismos de verificación y supervisión, similar a los sistemas de control en la aviación o la industria nuclear. Los equipos que estandarizan este stack de fiabilidad pueden escalar sus operaciones de manera más rápida y segura, entrando en industrias altamente reguladas como la financiera o la sanitaria, donde la fiabilidad es imperativa.

Estos hallazgos validan y fortalecen enfoques arquitectónicos pragmáticos, como el flujo de trabajo de "Planificar-Hacer-Verificar" propuesto por expertos de Deloitte. En este modelo, la fase de "verificación" se convierte en el corazón del proceso de memoria. Implica diseñar agentes especializados para la validación y la corrección, utilizando diferentes modelos para la generación y la comprobación para detectar errores mutuos, una técnica que crea un sistema de control redundante. La investigación de HaluMem proporciona una justificación científica sólida para este enfoque, demostrando que los errores en la extracción y actualización son predeciblemente altos. Por lo tanto, cualquier sistema de verificación debe ser diseñado para interceptar estos fallos antes de que se propaguen.

La disponibilidad pública de los datos y el código de HaluMem es un catalizador crucial para la comunidad. Al poner a disposición de todos los investigadores y desarrolladores las herramientas para evaluar objetivamente la fiabilidad de la memoria, HaluMem acelera la innovación dirigida a resolver los problemas específicos que ha expuesto. Permite comparar sistemáticamente nuevas arquitecturas, validar la eficacia de nuevas técnicas de mitigación y establecer un estándar de oro para la fiabilidad en el desarrollo de agentes de IA.

En última instancia, el impacto de HaluMem se sentirá en la velocidad y el alcance de la adopción de la IA en el mundo real. Si bien los modelos de lenguaje han demostrado un potencial increíble, la fiabilidad sigue siendo un obstáculo para que las empresas inviertan en proyectos a gran escala. Gartner predijo que más del 40% de los proyectos de agentes de IA serán cancelados para 2027 debido a costos crecientes, valor de negocio incierto y controles de riesgo inadecuados. HaluMem proporciona una hoja de ruta para abordar estos problemas de forma tangible. Al centrar la investigación y el desarrollo en mejorar la fiabilidad de la memoria, podemos construir agentes que ganen la confianza de los usuarios y las organizaciones. Esto no solo mejora la experiencia del usuario al crear interacciones más coherentes y personalizadas, sino que también reduce los riesgos asociados con la toma de decisiones automatizadas basadas en información errónea o contaminada.

La fiabilidad de la memoria es el puente que une el potencial teórico de la IA con sus aplicaciones prácticas y beneficiosas. Al proporcionar un diagnóstico preciso de las debilidades de la memoria, HaluMem no solo señala un problema, sino que prescribe un camino hacia soluciones más robustas. Su legado será medible en el énfasis futuro en la robustez de la memoria, la implementación de arquitecturas de fiabilidad y el desarrollo de técnicas de autocorrección, sentando las bases para una nueva generación de agentes de IA que puedan mantener relaciones verdaderamente persistentes, adaptativas y, lo más importante, confiables con los humanos.

Referencias

Agrawal, G., Kumarage, T., Alghamdi, Z., & Liu, H. (2024). Mindful-rag: A study of points of failure in retrieval augmented generation. In 2nd International Conference on Foundation and Large Language Models, Dubai, 607–611.
Chen, C., Liu, K., Chen, Z., Gu, Y., Wu, Y., Tao, M., Fu, Z., & Ye, J. (2024). INSIDE: llms’ internal states retain the power of hallucination detection. In The Twelfth International Conference on Learning Representations, ICLR 2024, Vienna, Austria.
Chhikara, P., Khant, D., Aryan, S., Singh, T., & Yadav, D. (2025). Mem0: Building production-ready ai agents with scalable long-term memory. arXiv preprint arXiv:2504.19413.
Edge, D., Trinh, H., Cheng, N., Bradley, J., Chao, A., Mody, A., Truitt, S., Metropolitansky, D., Ness, R. O., & Larson, J. (2025). From local to global: A graph rag approach to query-focused summarization. arXiv preprint arXiv:2404.16130.
Fan, A., Jernite, Y., Perez, E., Grangier, D., Weston, J., & Auli, M. (2019). ELI5: Long form question answering. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, 3558–3567.
Ge, T., Chan, X., Wang, X., Yu, D., Mi, H., & Yu, D. (2025). Scaling synthetic data creation with 1,000,000,000 personas. arXiv preprint arXiv:2406.20094.
Huang, L., Yu, W., Ma, W., Zhong, W., Feng, Z., Wang, H., Chen, Q., Peng, W., Feng, X., Qin, B., & Liu, T. (2025). A survey on hallucination in large language models: Principles, taxonomy, challenges, and open questions. ACM Transactions on Information Systems, 43(2), 1–55.
Jiang, B., Hao, Z., Cho, Y.-M., Li, B., Yuan, Y., Chen,S., Ungar, L., Taylor, C. J., & Roth, D. (2025). Know me, respond to me: Benchmarking llms for dynamic user profiling and personalized responses at scale. arXiv preprint arXiv:2504.14225.
Kang, J., Ji, M., Zhao, Z., & Bai, T. (2025). Memory os of ai agent. arXiv preprint arXiv:2506.06326.
Li, Z., Song, S., Xi, C., Wang, H., Tang, C., Niu, S., Chen, D., Yang, J., Li, C., Yu, Q., Zhao, J., Wang, Y., Liu, P., Lin, Z., Wang, P., Huo, J., Chen, T., Chen, K., Li, K., Tao, Z., Ren, J., Lai, H., Wu, H., Tang, B., Wang, Z., Fan, Z., Zhang, N., Zhang, L., Yan, J., Yang, M., Xu, T., Xu, W., Chen, H., Wang,H., Yang, H., Zhang, W., Xu, Z.-Q. J., Chen, S., & Xiong, F. (2025). Memos: A memory os for ai system. arXiv preprint arXiv:2507.03724.
Liu, L., Yang, X., Shen, Y., Hu, B., Zhang, Z., Gu, J., & Zhang, G. (2023). Think-in-memory: Recalling and post-thinking enable llms with long-term memory. arXiv preprint arXiv:2311.08719.
Maharana, A., Lee, D.-H., Tulyakov, S., Bansal, M., Barbieri, F., & Fang, Y. (2024). Evaluating very long-term conversational memory of llm agents. In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Vol. 1), 13851–13870.
Wu, D., Wang, H., Yu, W., Zhang, Y., Chang, K.-W., & Yu, D. (2025). Longmemeval: Benchmarking chat assistants on long-term interactive memory. In The Thirteenth International Conference on Learning Representations.
Zhao, S., Hong, M., Liu, Y., Hazarika, D., & Lin, K. (2025). Do LLMs recognize your preferences? evaluating personalized preference following in LLMs. In The Thirteenth International Conference on Learning Representations.
Chen, D., Niu, S., Li, K., Liu, P., Zheng, X., Tang, B., Li, X., Xiong, F., & Li, Z. (2025). HaluMem: Evaluating hallucinations in memory systems of agents. arXiv preprint arXiv:2511.03506.

HaluMem: el benchmark que mide la raíz de las alucinaciones