Los modelos de lenguaje de gran escala han transformado la manera en que las máquinas procesan y generan información. Sin embargo, su tendencia a producir respuestas incorrectas o inventadas, conocida como alucinación, representa uno de los desafíos más persistentes del campo. La Generación Aumentada por Recuperación surgió como respuesta a esta limitación, permitiendo que los sistemas consulten fuentes externas antes de generar sus respuestas. Pero incluso esta solución ha revelado sus propias ineficiencias: los métodos actuales consumen cantidades extraordinarias de tokens, el equivalente computacional a páginas y páginas de texto, para responder preguntas que a menudo requieren información mucho más concisa.
Un equipo de investigadores de la Universidad de Ciencia y Tecnología de China, la Universidad de la Ciudad de Hong Kong y Xiaohongshu Inc. ha desarrollado TeaRAG, un marco que replantea fundamentalmente cómo estos sistemas recuperan y procesan información. El enfoque no busca simplemente hacer que los modelos sean más precisos, sino transformar radicalmente su eficiencia sin sacrificar la calidad de sus respuestas. Los resultados son contundentes: mejoras del 4% en precisión para modelos de 8 mil millones de parámetros, acompañadas de una reducción del 61% en el uso de tokens. Para modelos más grandes, de 14 mil millones de parámetros, las cifras son del 2% de mejora con un 59% menos de tokens.
La investigación parte de una observación fundamental: los sistemas actuales de generación aumentada por recuperación funcionan como agentes autónomos que pueden invocar múltiples búsquedas mientras razonan sobre un problema. Estos sistemas agénticos, como Search-R1 y R1-Searcher, han demostrado capacidades impresionantes para descomponer problemas complejos en pasos manejables. Sin embargo, su arquitectura revela dos ineficiencias críticas. La primera tiene que ver con el contenido recuperado. Los métodos convencionales devuelven fragmentos completos de documentos que pueden contener párrafos enteros de información contextual, gran parte de ella irrelevante para la pregunta específica. La segunda ineficiencia se manifiesta en el proceso de razonamiento: incluso para preguntas que requieren un solo salto lógico, estos sistemas tienden a realizar múltiples iteraciones de búsqueda y razonamiento, un fenómeno que los investigadores denominan "pensamiento excesivo".
La arquitectura de la eficiencia: grafos de conocimiento heterogéneos
TeaRAG aborda ambas dimensiones del problema mediante dos innovaciones complementarias. En el ámbito de la recuperación de información, el sistema construye lo que denomina Grafos de Asociación de Conocimiento. Estos grafos son estructuras heterogéneas que capturan simultáneamente la información de fragmentos textuales y tripletas de conocimiento extraídas de grafos de conocimiento estructurados. La clave está en cómo el sistema explota la co-ocurrencia: cuando un fragmento de texto y una tripleta provienen de la misma fuente de información, esta coincidencia actúa como una señal de alta confianza. El sistema aplica entonces Personalized PageRank, un algoritmo que originalmente revolucionó cómo Google ordenaba páginas web, para identificar y priorizar la información más relevante dentro de este grafo.
Grafo de Asociación de Conocimiento
El proceso funciona de la siguiente manera: cuando el sistema recibe una pregunta, primero identifica las entidades clave mencionadas en ella. Estas entidades sirven como anclas para la recuperación posterior. El sistema descompone la pregunta en subpreguntas más específicas centradas en estas entidades. Para cada subpregunta, realiza dos tipos de recuperación simultánea: una búsqueda semántica que devuelve fragmentos de texto completos, y una búsqueda en el grafo de conocimiento que devuelve tripletas estructuradas del tipo sujeto-predicado-objeto. Estas tripletas son inherentemente más densas en información que el texto completo, ya que capturan hechos específicos sin el contexto adicional.
Una vez recuperada esta información dual, TeaRAG construye su Grafo de Asociación de Conocimiento. Este grafo contiene cuatro tipos de nodos: la subpregunta misma, los fragmentos de texto recuperados, las tripletas de conocimiento y las entidades mencionadas en ambos. Las conexiones entre estos nodos son de dos tipos. Las aristas de co-ocurrencia, que tienen un peso fijo, conectan fragmentos con las tripletas que fueron extraídas de ellos, tripletas con sus entidades constituyentes, y fragmentos con las entidades de sus títulos. Las aristas de relevancia, cuyo peso deriva de las puntuaciones del sistema de recuperación, conectan tanto fragmentos como tripletas con la subpregunta.
La aplicación de Personalized PageRank sobre este grafo produce una distribución de importancia para cada nodo. El algoritmo equilibra dos factores: la estructura de co-ocurrencia del grafo y la relevancia directa a la pregunta. Este balance se controla mediante un hiperparámetro que los investigadores denominan alfa. Cuando alfa es pequeño, el sistema prioriza la relevancia semántica directa. Cuando alfa es grande, enfatiza las conexiones estructurales. Los experimentos muestran que el sistema funciona mejor con valores de alfa entre 0.3 y 0.7, sugiriendo que la combinación óptima requiere considerar ambos factores.
El resultado de este proceso de filtrado es un conjunto mucho más conciso de información. En lugar de alimentar al modelo con cinco fragmentos completos de texto, TeaRAG puede proporcionar una mezcla de fragmentos y tripletas que, en conjunto, contienen la misma información relevante en un espacio considerablemente menor. Los datos experimentales lo confirman: donde los métodos tradicionales utilizan un promedio de 810 tokens por recuperación, TeaRAG reduce esta cifra a 618 tokens, una disminución del 23.8%.
Comparación de Uso de Tokens en Sistemas de RAG Agéntico
| Método | Contenido por Recuperación | Tokens de Razonamiento | Contenido Recuperado | Total |
|---|---|---|---|---|
| R1-Searcher-Qwen-7B+R | 810 | 325 | 1749 | 2074 |
| Search-R1-base-7B+R | 811 | 189 | 2091 | 2281 |
| TeaRAG-8B | 618 | 81 | 803 | 884 |
Aprendizaje consciente del proceso: supervisando cada paso del razonamiento
Pero la eficiencia en la recuperación es solo la mitad de la solución. La otra mitad radica en cómo el modelo utiliza esta información para razonar. Los sistemas agénticos actuales, entrenados mediante aprendizaje por refuerzo basado únicamente en el resultado final, carecen de supervisión sobre su proceso de razonamiento intermedio. Esta ausencia de guía conduce al pensamiento excesivo: el modelo realiza múltiples iteraciones de búsqueda y razonamiento incluso cuando una o dos serían suficientes. El análisis de los investigadores revela que el 44% de las preguntas en sus conjuntos de prueba son de un solo salto lógico, pero los sistemas existentes frecuentemente requieren tres o más pasos para responderlas.
TeaRAG aborda esta ineficiencia mediante lo que denominan Optimización de Preferencia Directa Iterativa Consciente del Proceso. Esta técnica representa un cambio fundamental en cómo se entrena el modelo. En lugar de juzgar solo si la respuesta final es correcta, el sistema evalúa cada paso intermedio del razonamiento. La evaluación se basa en un mecanismo de coincidencia de conocimiento que pregunta: ¿este paso capturó información relevante de las evidencias disponibles? ¿las entidades identificadas realmente aparecen en la subpregunta generada? ¿el resumen extrae los hechos clave del contexto recuperado?
El entrenamiento ocurre en dos etapas claramente diferenciadas. La primera es ajuste fino supervisado tradicional, donde el modelo aprende el formato básico del proceso de razonamiento. Los investigadores utilizaron el conjunto de datos MuSiQue, que proporciona preguntas multipasos con sus descomposiciones estructuradas y evidencias de respaldo. Transformaron estas estructuras en lenguaje natural fluido, creando ejemplos completos de rutas de razonamiento. Esta fase enseña al modelo la gramática del razonamiento agéntico: cómo identificar entidades, formular subpreguntas, invocar recuperación y sintetizar información.
La segunda etapa es donde reside la verdadera innovación. El sistema muestrea múltiples rutas de razonamiento para cada pregunta en el conjunto de entrenamiento. Cada ruta recibe tres tipos de recompensas. La recompensa de resultado mide qué tan bien la respuesta final coincide con la verdad fundamental, utilizando puntuación F1 en lugar de coincidencia exacta para capturar respuestas parcialmente correctas. La recompensa de formato verifica que la ruta siga la estructura esperada. Y crucialmente, la recompensa de proceso evalúa cada paso intermedio.
Sistema de Recompensas
Sistema de Recompensas
Evaluación multidimensional
Recompensa de Resultado
Precisión F1
Peso: 40%
Recompensa de Formato
Estructura correcta
Peso: 10%
Recompensa de Proceso
Pasos intermedios
Peso: 50%
- Consistencia: 10%
- Subpregunta: 30%
- Contexto: 30%
- Resumen: 30%
La recompensa de proceso se descompone en varios componentes. Primero, verifica la consistencia entre entidades y subpreguntas: las entidades identificadas deben aparecer realmente en la subpregunta generada. Esta verificación recibe un peso del 10% en la recompensa total. Los otros tres componentes, cada uno con un peso del 30%, evalúan diferentes aspectos de la adquisición de conocimiento. La recompensa de subpregunta mide si la subpregunta generada captura información relevante de las evidencias fundamentales. La recompensa de contexto evalúa si el contenido recuperado contiene la información necesaria. La recompensa de resumen verifica si el resumen extrae correctamente los hechos clave.
Estos componentes funcionan mediante vectores de memoria. Para cada pieza de evidencia fundamental, el sistema rastrea la máxima similitud alcanzada con cualquier paso del razonamiento. Si una evidencia nunca alcanza una similitud alta con ninguna subpregunta, contexto recuperado o resumen, el sistema infiere que esta información crítica nunca fue capturada. Crucialmente, estas puntuaciones de similitud se dividen por el número total de pasos de razonamiento. Esta normalización penaliza inherentemente las rutas de razonamiento más largas, creando un incentivo explícito para la concisión.
Con estas recompensas calculadas, el sistema construye pares de preferencia para el entrenamiento. Para cada ruta de razonamiento que cumple con criterios estrictos de calidad, el sistema selecciona una ruta rechazada correspondiente. Estas rutas rechazadas pueden fallar de tres maneras: violando el formato requerido, fallando completamente en alcanzar la respuesta correcta, o acercándose a la respuesta correcta pero con un proceso de razonamiento defectuoso. Esta construcción cuidadosa de pares asegura que el modelo aprenda no solo qué respuestas son correctas, sino también qué procesos de razonamiento son eficientes y efectivos.
El entrenamiento procede iterativamente. Después de cada ronda, el modelo actualizado genera nuevas rutas de razonamiento, que se evalúan y se usan para construir nuevos pares de preferencia. Esta iteración permite al modelo refinar progresivamente su estrategia de razonamiento. Los investigadores encontraron que tres rondas de entrenamiento producen los mejores resultados, equilibrando mejoras de rendimiento contra el riesgo de sobreajuste.
Evolución del Rendimiento a través de Iteraciones de DPO
| Etapa | EM (Llama3-8B) | F1 (Llama3-8B) | Pasos de Razonamiento |
|---|---|---|---|
| SFT | 32.6 | 40.6 | 1.47 |
| DPO-1 | 43.0 | 52.2 | 1.38 |
| DPO-2 | 43.6 | 53.1 | 1.35 |
| DPO-3 | 45.1 | 54.5 | 1.31 |
La escala importa: validación en grafos de conocimiento masivos
Una limitación común en investigaciones previas sobre recuperación mejorada por grafos ha sido su dependencia de grafos de conocimiento relativamente pequeños. Los investigadores de TeaRAG abordaron esta brecha construyendo un grafo de conocimiento a escala completa basado en el corpus completo de Wikipedia del 20 de diciembre de 2018. Este corpus contiene más de 3.2 millones de documentos divididos en más de 21 millones de fragmentos. Utilizando el modelo Qwen2.5-14B-Instruct, extrajeron tripletas de conocimiento de cada fragmento.
El grafo resultante es sustancialmente mayor que cualquiera utilizado en trabajos previos sobre este tema. Contiene más de 51 millones de entidades y más de 130 millones de tripletas. Cada entidad cabeza tiene un promedio de 9.24 aristas salientes, mientras que cada entidad cola tiene un promedio de 3.05 aristas entrantes. Estas estadísticas reflejan la estructura naturalmente desbalanceada del conocimiento: algunas entidades, como países o conceptos fundamentales, aparecen frecuentemente como sujetos de múltiples relaciones, mientras que muchas otras entidades más específicas aparecen principalmente como objetos.
Escala del Grafo de Conocimiento de Wikipedia
Esta escala masiva presenta desafíos computacionales sustanciales. La recuperación basada en grafos requiere primero identificar entidades relevantes, luego explorar sus vecindarios en el grafo. Con un grafo de esta magnitud, búsquedas ingenuas serían prohibitivamente costosas. TeaRAG emplea una estrategia de recuperación en dos etapas. Primero, para cada entidad clave identificada en la pregunta, el sistema genera una consulta combinando la entidad con la subpregunta. Esta consulta se usa para recuperar entidades relacionadas del grafo. Luego, el sistema recopila todas las tripletas conectadas a estas entidades relacionadas, formando un conjunto candidato. En la segunda etapa, usa la subpregunta para recuperar las tripletas más relevantes de este conjunto candidato.
Este enfoque de dos etapas equilibra exhaustividad y eficiencia. La primera etapa asegura que el sistema considere información más allá del vecindario inmediato de las entidades mencionadas explícitamente. La segunda etapa filtra este conjunto ampliado para retener solo la información más relevante. Los experimentos muestran que este método supera tanto la recuperación puramente basada en grafos como la recuperación puramente semántica, validando el valor de combinar ambas modalidades.
Resultados experimentales: eficiencia sin compromisos
Los investigadores evaluaron TeaRAG en seis conjuntos de datos de referencia que cubren tanto preguntas de un solo salto como preguntas multisalto. Para preguntas de un solo salto, usaron Natural Questions y PopQA. Para preguntas multisalto, usaron HotpotQA, 2WikiMultiHopQA, MuSiQue y Bamboogle. Algunos de estos conjuntos de datos se incluyeron en el entrenamiento, proporcionando pruebas dentro del dominio, mientras que otros eran completamente nuevos, probando la capacidad de generalización.
Comparación de Rendimiento en Conjuntos de Datos de QA (EM %)
| Dataset | Search-R1-base-7B+R | TeaRAG-8B |
|---|---|---|
| NQ | 50.39% | 50.06% |
| PopQA | 49.86% | 51.98% |
| HotpotQA | 47.66% | 46.59% |
| 2Wiki | 39.49% | 47.89% |
| Musique | 21.64% | 26.98% |
| Bamboogle | 51.20% | 47.20% |
En todos los conjuntos de datos, TeaRAG demuestra mejoras sustanciales sobre los métodos de línea base. Usando Llama3-8B-Instruct como modelo base, TeaRAG logra una puntuación promedio de Coincidencia Exacta del 45.12%, superando a Search-R1-base-7B+R por 1.75 puntos porcentuales y a R1-Searcher-Qwen-7B+R por 4.51 puntos. Las mejoras son particularmente pronunciadas en conjuntos de datos multisalto como 2WikiMultiHopQA, donde TeaRAG logra 47.89% contra 39.49% de Search-R1-base-7B+R.
Aún más impresionante es la eficiencia con la que TeaRAG logra estos resultados. El análisis de distribución de pasos de razonamiento revela que el 73.18% de las respuestas de TeaRAG requieren solo un paso de razonamiento, con un 23.47% adicional requiriendo dos pasos. En contraste, Search-R1-base-7B+R completa solo el 21.96% de preguntas en un paso, con solo el 25.87% en dos pasos. Esta distribución más concentrada refleja directamente el impacto de la supervisión consciente del proceso: el modelo aprende a reconocer cuándo tiene suficiente información para responder, evitando iteraciones innecesarias.
Distribución de Pasos de Razonamiento (%)
| Pasos | Search-R1-base-7B+R | TeaRAG-8B |
|---|---|---|
| 1 paso | 21.96% | 73.18% |
| 2 pasos | 25.87% | 23.47% |
| 3 pasos | 30.02% | 2.48% |
| 4 pasos | 17.67% | 0.69% |
| 5 pasos | 4.48% | 0.18% |
Las consecuencias en el uso de tokens son dramáticas. Para el contenido recuperado por iteración, TeaRAG usa un promedio de 618 tokens, comparado con 810 para R1-Searcher-Qwen-7B+R y 811 para Search-R1-base-7B+R. Este ahorro del 23.8% proviene directamente del mecanismo de filtrado basado en Personalized PageRank. Para tokens de pensamiento, generados durante el razonamiento del modelo, TeaRAG usa solo 81 tokens en promedio, comparado con 325 para R1-Searcher-Qwen-7B+R y 189 para Search-R1-base-7B+R. Esta reducción del 57% refleja rutas de razonamiento más cortas y más eficientes.
Sumando todos los tokens, TeaRAG genera un total promedio de 884 tokens por pregunta. Los métodos de línea base requieren 2,074 y 2,281 tokens respectivamente. Esta reducción del 57-61% representa un ahorro computacional masivo. En implementaciones a gran escala que procesan millones de consultas, tal eficiencia se traduce directamente en costos operacionales reducidos y tiempos de respuesta más rápidos.
Los resultados con Qwen2.5-14B-Instruct como modelo base muestran patrones similares. TeaRAG logra una puntuación promedio de Coincidencia Exacta del 47.41%, superando a Search-R1-base-14B+R por 0.94 puntos porcentuales. La distribución de pasos de razonamiento muestra que el 72.52% de las respuestas requieren solo un paso, comparado con el 3.44% para Search-R1-base-14B+R. El uso total de tokens promedia 938 tokens, comparado con 2,295 para la línea base, una reducción del 59%.
Diseccionando las contribuciones: estudios de ablación
Para comprender qué componentes de TeaRAG contribuyen más a su rendimiento, los investigadores realizaron extensos estudios de ablación. Estos experimentos aislaron sistemáticamente diferentes aspectos del sistema, revelando su impacto individual.
El primer conjunto de ablaciones se centró en métodos de recuperación de contexto. Los investigadores compararon varios enfoques: recuperación puramente basada en grafos, recuperación puramente semántica, recuperación híbrida con concatenación simple, recuperación híbrida con filtrado Personalized PageRank, y versiones agénticas iterativas de cada uno. Los resultados revelan varias ideas importantes.
La recuperación iterativa agéntica supera consistentemente a la recuperación de una sola ronda. Descomponer preguntas complejas en subpreguntas más simples permite que el sistema enfoque su recuperación de manera más estrecha, capturando información más relevante. Esta validación confirma la intuición central detrás de los sistemas agénticos: que el razonamiento y la recuperación multietapa pueden manejar complejidad que supera las capacidades de enfoques de un solo paso.
Comparación de Métodos de Recuperación
| Método | EM (%) | Tokens/Recuperación |
|---|---|---|
| Single-G (Solo Grafo) | 19.98% | 79 |
| Single-S (Solo Semántico) | 22.37% | 779 |
| Single-Con (Concatenación) | 24.57% | 859 |
| Single-PPR (Filtrado) | 25.35% | 650 |
| TeaRAG-G (Agente, Solo Grafo) | 33.86% | 88 |
| TeaRAG-S (Agente, Solo Semántico) | 44.84% | 790 |
| TeaRAG (Agente, Híbrido Filtrado) | 45.12% | 618 |
La recuperación híbrida supera a cualquier método único cuando se combina adecuadamente. La concatenación ingenua de fragmentos y tripletas proporciona cierta mejora sobre la recuperación puramente semántica, pero introduce verbosidad innecesaria. El filtrado Personalized PageRank aborda esta ineficiencia, seleccionando los elementos más informativos de ambas modalidades. Sorprendentemente, este enfoque filtrado logra un rendimiento ligeramente mejor que la concatenación simple mientras usa significativamente menos tokens.
La recuperación puramente basada en grafos, aunque eficiente en tokens, sufre de pérdida de información. Las tripletas capturan hechos específicos pero carecen del contexto que los fragmentos de texto completo proporcionan. Esta ambigüedad puede dificultar que el modelo interprete correctamente la información. La recuperación puramente semántica evita este problema pero introduce el problema opuesto: exceso de contexto que entierra información crítica. El enfoque híbrido de TeaRAG encuentra el equilibrio óptimo.
El segundo conjunto de ablaciones examinó el diseño de recompensas. Los investigadores entrenaron modelos usando solo recompensas de resultado, recompensas de resultado y formato, y el sistema completo de recompensa de resultado, formato y proceso. También realizaron entrenamiento durante múltiples iteraciones para observar efectos a largo plazo.
Impacto de las Recompensas de Proceso en el Entrenamiento Iterativo (EM %)
| Tipo de Recompensa | Iteración 1 | Iteración 2 | Iteración 3 |
|---|---|---|---|
| Solo Resultado | 42.85% | 37.12% (Colapsa) | N/A |
| Resultado + Formato | 42.87% | 43.29% | 39.73% (Colapsa) |
| Resultado + Formato + Proceso | 42.96% | 43.62% | 45.12% (Estable) |
Los resultados demuestran inequívocamente el valor de las recompensas de proceso. Después de una sola ronda de entrenamiento, el modelo con solo recompensas de resultado logra una puntuación de Coincidencia Exacta del 42.85% con un promedio de 1.48 pasos de razonamiento. Agregar recompensas de formato mejora ligeramente la puntuación a 42.87% sin cambiar la longitud de razonamiento. Incluir recompensas de proceso aumenta la puntuación a 42.96% mientras reduce los pasos de razonamiento a 1.38.
Los efectos se vuelven más pronunciados con el entrenamiento iterativo. Después de tres rondas, el modelo con solo recompensas de resultado y formato colapsa a 39.73% de precisión con 2.13 pasos de razonamiento. El modelo ha aprendido a favorecer rutas de razonamiento más largas que casualmente llegan a respuestas correctas, pero mediante procesos defectuosos. En contraste, el modelo con recompensas de proceso alcanza 45.12% de precisión con solo 1.31 pasos de razonamiento. La supervisión del proceso previene el colapso estabilizando el entrenamiento contra preferencias espurias.
Este hallazgo tiene implicaciones importantes para el aprendizaje por refuerzo en sistemas agénticos más ampliamente. Las recompensas basadas puramente en resultados, aunque conceptualmente simples, crean señales de optimización ruidosas que pueden llevar al aprendizaje a callejones sin salida. La supervisión del proceso proporciona una guía más rica que dirige el aprendizaje hacia estrategias generalizables.
Sensibilidad a hiperparámetros: robustez y ajuste
Los investigadores realizaron análisis exhaustivos de sensibilidad para comprender cómo las elecciones de hiperparámetros afectan el rendimiento de TeaRAG. Estos análisis examinaron tres dimensiones clave: el número de elementos de contenido por recuperación, el parámetro alfa de Personalized PageRank y la temperatura de generación.
Rendimiento (F1 %) según Contenidos por Recuperación
| # de Contenidos | Search-R1 F1 (%) | TeaRAG-8B F1 (%) |
|---|---|---|
| 1 | 49.2% | 52.1% |
| 2 | 51.5% | 53.8% |
| 3 | 52.3% | 54.2% |
| 4 | 52.3% | 54.5% |
| 5 (Óptimo) | 52.1% | 54.4% |
El número de elementos de contenido por recuperación representa una compensación fundamental. Más elementos proporcionan más información potencialmente relevante, pero también introducen más ruido y consumen más tokens. Los experimentos muestran que TeaRAG funciona razonablemente bien even con tan solo tres elementos por recuperación, logrando una puntuación F1 promedio de aproximadamente 52%. El rendimiento mejora constantemente a medida que aumenta el número de elementos, alcanzando su punto máximo alrededor de cinco elementos.
Crucialmente, TeaRAG mantiene su ventaja sobre los métodos de línea base en todas las configuraciones probadas. Esta robustez sugiere que el mecanismo de filtrado Personalized PageRank mejora efectivamente la calidad de la información independientemente del tamaño exacto del conjunto. También indica que el sistema podría ajustarse para diferentes requisitos operacionales, priorizando la eficiencia extrema o la máxima precisión según sea necesario.
El parámetro alfa en Personalized PageRank controla el equilibrio entre relevancia de consulta y estructura de co-ocurrencia. Los experimentos muestran que TeaRAG es notablemente robusto a variaciones en alfa entre 0.1 y 0.7. El rendimiento se mantiene relativamente estable en este rango, con solo ligeras disminuciones en los extremos. Esta robustez surge porque el Grafo de Asociación de Conocimiento está construido a partir de información ya determinada como relevante por los recuperadores semánticos y basados en grafos.
El rendimiento cae más notablemente cuando alfa se acerca a 1.0, priorizando fuertemente la estructura de co-ocurrencia sobre la relevancia de consulta. En esta configuración, el sistema puede seleccionar tripletas que están fuertemente conectadas a fragmentos recuperados pero que carecen del contexto necesario para la interpretación. Esto confirma que tanto la relevancia semántica como las conexiones estructurales contribuyen a una recuperación efectiva.
Curiosamente, valores más altos de alfa reducen el número promedio de tokens de contenido por recuperación. Esto ocurre porque enfatizar la estructura de co-ocurrencia tiende a promover tripletas sobre fragmentos. Si bien esto mejora la eficiencia de tokens, el menor contexto eventualmente perjudica la precisión, ilustrando la compensación entre concisión e información.
La temperatura de generación controla la aleatoriedad en la generación de texto del modelo. Los experimentos muestran que tanto TeaRAG como los métodos de línea base son relativamente insensibles a la temperatura en el rango de 0.2 a 1.0. Esta estabilidad es algo sorprendente dado que la temperatura a menudo afecta significativamente el rendimiento del modelo en tareas generativas. La explicación probable es que el razonamiento agéntico anclado en información recuperada reduce la incertidumbre, haciendo que la salida del modelo sea más determinista independientemente de la configuración de temperatura.
TeaRAG mantiene una ventaja consistente sobre Search-R1-base-7B+R en todas las temperaturas probadas. Las pruebas estadísticas confirman que esta ventaja es significativa, validando que las mejoras no son artefactos de configuraciones de hiperparámetros específicas.
Eficiencia computacional: de la teoría a la práctica
Más allá de las métricas de precisión y uso de tokens, los investigadores analizaron la eficiencia computacional real durante el entrenamiento y la inferencia. Estos análisis proporcionan información sobre la viabilidad práctica de implementar TeaRAG a escala.
Para el entrenamiento, TeaRAG requiere sustancialmente menos tiempo que Search-R1. Entrenando Llama3-8B-Instruct, TeaRAG completa el entrenamiento en 681 minutos en 8 GPUs A100, comparado con 2,944 minutos para Search-R1-base-7B. Esta aceleración de 4.3 veces proviene principalmente del enfoque de Optimización de Preferencia Directa Iterativa de TeaRAG, que desacopla el muestreo del entrenamiento. Search-R1 emplea Optimización de Política Proximal, que requiere muestreo continuo durante el entrenamiento, accediendo repetidamente a sistemas de recuperación externos.
Tiempo de Entrenamiento Comparativo (minutos)
| Modelo | Entrenamiento | Inferencia (Muestreo) | Cálculo de Recompensas | Total |
|---|---|---|---|---|
| TeaRAG-8B | 85 | 376 | 220 | 681 |
| Search-R1-7B | 1320 | 1624 | 0 | 2944 |
| TeaRAG-14B | 115 | 417 | 220 | 752 |
| Search-R1-14B | 2462 | 2496 | 0 | 4958 |
El desglose del tiempo revela dónde TeaRAG logra sus ganancias de eficiencia. El entrenamiento real consume 85 minutos, el muestreo de inferencia requiere 376 minutos, y el cálculo de recompensas toma 220 minutos. En contraste, para Search-R1, el entrenamiento requiere 1,320 minutos y el muestreo de inferencia 1,624 minutos. El tiempo de inferencia más corto de TeaRAG refleja sus rutas de razonamiento más cortas y recuperaciones más eficientes. El tiempo de entrenamiento más corto refleja la simplicidad algorítmica de la Optimización de Preferencia Directa en comparación con la Optimización de Política Proximal.
El uso de memoria también favorece a TeaRAG. El entrenamiento consume 42 GB por GPU para el modelo de 8 mil millones de parámetros, comparado con 79 GB para Search-R1. Esta reducción proviene del uso de adaptación de bajo rango de TeaRAG, que entrena solo un pequeño número de parámetros adicionales en lugar de actualizar todo el modelo. Además, Optimización de Preferencia Directa no requiere el modelo crítico separado que Optimización de Política Proximal necesita.
Para modelos más grandes, las diferencias de eficiencia se vuelven aún más pronunciadas. Entrenar Qwen2.5-14B-Instruct con TeaRAG requiere 752 minutos y 61 GB por GPU. Search-R1-base-14B requiere 4,958 minutos y 80 GB por GPU. La aceleración de 6.6 veces es aún mayor que para modelos más pequeños, sugiriendo que los beneficios de eficiencia de TeaRAG escalan favorablemente con el tamaño del modelo.
Durante la inferencia, los investigadores evaluaron el tiempo requerido para procesar el conjunto de desarrollo de 2WikiMultiHopQA, que contiene 12,576 preguntas. TeaRAG-8B completa este conjunto en 1,061 segundos totales, divididos en 578 segundos para recuperación y 482 segundos para generación. Search-R1-base-7B+R requiere 2,243 segundos totales, con 601 segundos para recuperación y 1,641 segundos para generación.
Tiempo de Inferencia en 2WikiMultiHopQA (segundos)
| Modelo | Recuperación | Generación | KAG+PPR | Total |
|---|---|---|---|---|
| TeaRAG-8B | 578 | 482 | 24 | 1061 |
| Search-R1-7B+R | 601 | 1641 | 0 | 2243 |
| TeaRAG-14B | 639 | 495 | 22 | 1156 |
| Search-R1-14B+R | 525 | 2655 | 0 | 3180 |
El tiempo de generación más corto de TeaRAG refleja directamente sus rutas de razonamiento más cortas. Generar menos pasos de razonamiento reduce naturalmente el tiempo de cómputo. Sorprendentemente, TeaRAG en realidad requiere ligeramente menos tiempo de recuperación que Search-R1, a pesar de realizar tanto recuperación semántica como basada en grafos. Esto ocurre porque las rutas de razonamiento más cortas de TeaRAG significan que invoca recuperación con menos frecuencia en general.
Los investigadores señalan que la recuperación semántica y basada en grafos podría ejecutarse en paralelo, reduciendo potencialmente aún más el tiempo de recuperación. Sin embargo, esta optimización no se implementó en el trabajo actual. El tiempo de construcción del Grafo de Asociación de Conocimiento y el filtrado Personalized PageRank agregan solo 24 segundos para todo el conjunto de datos, un overhead insignificante que demuestra la eficiencia de estas operaciones.
Estudio de caso: anatomía de una respuesta eficiente
Para ilustrar concretamente cómo TeaRAG logra sus mejoras de eficiencia, los investigadores presentan un caso comparativo detallado. La pregunta es: "¿Dónde fue el lugar de muerte del padre de Alexander Carl Otto Westphal?" La respuesta correcta es Kreuzlingen.
TeaRAG aborda esta pregunta en un solo paso de razonamiento. Primero identifica la entidad clave: Alexander Carl Otto Westphal. Formula la subpregunta: "¿Quién fue el padre de Alexander Carl Otto Westphal?" La recuperación híbrida devuelve cinco elementos de información. Dos fragmentos de texto proporcionan contexto biográfico sobre Alexander Carl Otto Westphal. Dos tripletas establecen explícitamente la relación padre-hijo: "Alexander Carl Otto Westphal padre Carl Friedrich Otto Westphal" y "Alexander Carl Otto Westphal hijo de Carl Friedrich Otto Westphal". Un fragmento adicional sobre Carl Friedrich Otto Westphal contiene el hecho crítico: murió el 27 de enero de 1890 en Kreuzlingen.
El sistema Personalized PageRank reconoce la fuerte co-ocurrencia entre los fragmentos y las tripletas, todos derivados de fuentes relacionadas con la familia Westphal. Prioriza esta información relevante mientras filtra el material biográfico menos pertinente. El resumen generado captura el hecho esencial: "La información indica que el padre de Alexander Carl Otto Westphal, Carl Friedrich Otto Westphal, murió en Kreuzlingen." El modelo entonces proporciona directamente la respuesta final: Kreuzlingen.
Esta ruta de razonamiento de un solo paso es eficiente y correcta. Consume 618 tokens en total, aprovechando las tripletas de alta densidad para complementar el contexto textual.
En contraste, Search-R1-base-7B+R aborda la misma pregunta con tres iteraciones de búsqueda y razonamiento. La primera búsqueda, para "padre de Alexander Carl Otto Westphal", devuelve cinco fragmentos largos de texto. El modelo identifica correctamente que el padre es Carl Friedrich Otto Westphal. Sin embargo, en lugar de extraer directamente el lugar de muerte de la información recuperada, el modelo formula una segunda búsqueda: "lugar de muerte de Otto Carl Friedrich Westphal".
Esta segunda búsqueda devuelve información similar, incluido el fragmento que establece que Carl Friedrich Otto Westphal murió en Kreuzlingen. Sin embargo, el modelo se confunde por el nombre del abuelo, también llamado Otto Carl Friedrich Westphal. Genera una tercera búsqueda idéntica a la segunda. La información redundante no resuelve la confusión. El modelo finalmente proporciona una respuesta incorrecta: Berlín, el lugar de nacimiento en lugar del lugar de muerte.
Esta ruta de razonamiento consume 2,281 tokens, casi cuatro veces más que TeaRAG, y aún así llega a una conclusión incorrecta. El ejemplo ilustra dos problemas clave que TeaRAG resuelve. Primero, los fragmentos de texto verbosos sin la estructura de las tripletas pueden oscurecer información crítica, llevando a confusión. Segundo, la falta de supervisión del proceso permite que el modelo persiga búsquedas redundantes que no agregan nueva información.
Generalización fuera del dominio: más allá de los datos de entrenamiento
Una prueba crítica de cualquier sistema de aprendizaje automático es su capacidad para generalizar a datos no vistos durante el entrenamiento. TeaRAG enfrenta esta prueba mediante evaluación en múltiples conjuntos de datos fuera del dominio: PopQA, 2WikiMultiHopQA y Bamboogle. Estos conjuntos de datos no se utilizaron en ninguna fase del entrenamiento, proporcionando una medida pura de generalización.
En PopQA, un conjunto de datos de preguntas de un solo salto sobre entidades populares, TeaRAG-8B logra 51.98% de Coincidencia Exacta y 56.08% de F1. Esto supera a Search-R1-base-7B+R por 2.12 puntos en Coincidencia Exacta y 1.08 puntos en F1. Las mejoras son modestas pero consistentes, demostrando que los mecanismos aprendidos por TeaRAG se transfieren efectivamente.
En 2WikiMultiHopQA, un conjunto de datos de razonamiento multisalto, los resultados son más dramáticos. TeaRAG-8B logra 47.89% de Coincidencia Exacta, superando a Search-R1-base-7B+R por 8.40 puntos porcentuales. Esto es particularmente notable porque 2WikiMultiHopQA fue parte del entrenamiento de R1-Searcher pero no de TeaRAG. El hecho de que TeaRAG aún supere significativamente a R1-Searcher-Qwen-7B+R, que sí entrenó en estos datos, sugiere que TeaRAG ha aprendido estrategias de razonamiento más generalizables.
En Bamboogle, un conjunto de datos desafiante de preguntas multisalto que requiere razonamiento sobre información dispersa, TeaRAG-8B logra 47.20% de Coincidencia Exacta. Esto iguala o supera a todos los métodos de línea base excepto Search-R1-base-7B+R, que alcanza 51.20%. Sin embargo, TeaRAG logra este rendimiento con 61% menos tokens, representando una compensación eficiencia-precisión superior.
Estos resultados fuera del dominio confirman que TeaRAG no simplemente memoriza patrones de entrenamiento sino que aprende estrategias de razonamiento y recuperación generalizables. La combinación de recuperación híbrida estructurada y supervisión consciente del proceso produce un sistema que se adapta efectivamente a nuevos dominios.
Limitaciones y direcciones futuras
A pesar de sus impresionantes resultados, TeaRAG tiene varias limitaciones que apuntan a direcciones productivas para investigación futura. La primera concierne a la construcción del grafo de conocimiento. El sistema actual extrae tripletas de fragmentos de texto usando un modelo de lenguaje, un proceso que puede introducir errores. Las tripletas pueden capturar incorrectamente relaciones o perder matices importantes presentes en el texto original. Trabajos futuros podrían explorar métodos de extracción más robustos, posiblemente incorporando verificación humana para relaciones críticas.
La segunda limitación se relaciona con la cobertura del grafo de conocimiento. Aunque el grafo de Wikipedia utilizado es sustancialmente más grande que los empleados en trabajos previos, todavía representa solo una fracción del conocimiento mundial. Los dominios especializados, información propietaria e información que cambia rápidamente no están bien representados. Extender TeaRAG para incorporar múltiples grafos de conocimiento especializados, o para construir dinámicamente grafos específicos de consultas, podría ampliar su aplicabilidad.
La tercera limitación concierne a la paralelización. La implementación actual ejecuta recuperación semántica y basada en grafos secuencialmente, a pesar de que estas operaciones son independientes y podrían ejecutarse en paralelo. Implementar recuperación paralela podría reducir sustancialmente el tiempo de inferencia, particularmente para consultas que requieren múltiples iteraciones.
La cuarta limitación se relaciona con el mecanismo de recompensa de proceso. El sistema actual requiere evidencias fundamentales anotadas para calcular recompensas, limitando su aplicabilidad a conjuntos de datos con tales anotaciones. Desarrollar métodos para estimar la calidad del proceso sin evidencias explícitas, quizás usando señales de auto-consistencia o aprendizaje contrastivo, podría hacer que el enfoque sea más ampliamente aplicable.
Una quinta limitación es la dependencia del sistema de modelos de lenguaje específicos. TeaRAG fue entrenado y evaluado usando Llama3-8B-Instruct y Qwen2.5-14B-Instruct. Aunque estos son modelos ampliamente utilizados, investigaciones futuras deberían explorar qué tan bien los métodos de TeaRAG se transfieren a otras familias de modelos, incluidos modelos más pequeños para aplicaciones con recursos limitados y modelos más grandes que podrían beneficiarse aún más de la recuperación eficiente.
Finalmente, el trabajo actual se centra exclusivamente en tareas de respuesta a preguntas. Sin embargo, los principios subyacentes de TeaRAG, recuperación híbrida con filtrado consciente de la co-ocurrencia y entrenamiento con supervisión consciente del proceso, podrían aplicarse a otras tareas de razonamiento intensivo en conocimiento. La generación de texto largo, la verificación de hechos, la síntesis de múltiples documentos y el razonamiento en diálogos multiturnos representan dominios prometedores para exploración futura.
Implicaciones más amplias para la inteligencia artificial generativa
Más allá de sus contribuciones técnicas específicas, TeaRAG ilustra varios principios importantes para el desarrollo futuro de sistemas de inteligencia artificial. El primero es que la eficiencia y la precisión no necesitan estar en conflicto. La sabiduría convencional sugiere que mejorar el rendimiento requiere más cómputo, más datos, modelos más grandes. TeaRAG demuestra que el diseño cuidadoso de arquitectura y estrategias de entrenamiento puede lograr mejoras simultáneas en ambas dimensiones.
El segundo principio es el valor de combinar representaciones complementarias de conocimiento. El texto completo proporciona contexto rico pero puede ser verboso. Las representaciones estructuradas son concisas pero pueden carecer de matices. Los sistemas híbridos que explotan inteligentemente ambas modalidades pueden superar enfoques que dependen de una sola.
El tercer principio concierne a la supervisión en el aprendizaje por refuerzo. Las recompensas basadas únicamente en resultados son conceptualmente simples pero pueden llevar a comportamientos patológicos donde el sistema aprende atajos que funcionan en el entrenamiento pero fallan en la generalización. La supervisión del proceso, aunque más compleja de implementar, proporciona señales de aprendizaje más ricas que guían el desarrollo de estrategias verdaderamente generalizables.
El cuarto principio se relaciona con el diseño de sistemas agénticos. La autonomía es valiosa, pero debe ser guiada. Permitir que los modelos invoquen herramientas arbitrariamente sin supervisión sobre su proceso de razonamiento puede llevar a ineficiencia y errores. Estructurar el espacio de acciones del agente e incorporar señales de eficiencia en el aprendizaje produce sistemas más robustos y eficientes.
Estos principios tienen relevancia más allá del contexto específico de la generación aumentada por recuperación. Se aplican a cualquier sistema donde los modelos de aprendizaje automático interactúan con fuentes de información externas, descomponen problemas complejos o aprenden estrategias de razonamiento multietapa. A medida que tales sistemas se vuelven cada vez más centrales para aplicaciones del mundo real, los principios ilustrados por TeaRAG probablemente darán forma al desarrollo futuro.
El panorama competitivo y el contexto de investigación
TeaRAG emerge en un momento de rápida innovación en la generación aumentada por recuperación. La investigación reciente ha explorado numerosas direcciones: desde métodos de recuperación más sofisticados hasta marcos de razonamiento multiagente, desde grafos de conocimiento dinámicamente construidos hasta modelos de recompensa aprendidos para supervisión del proceso. TeaRAG sintetiza ideas de múltiples vertientes de esta investigación, demostrando cómo pueden combinarse de manera efectiva.
El trabajo más estrechamente relacionado incluye Search-R1 y R1-Searcher, ambos sistemas agénticos entrenados mediante aprendizaje por refuerzo. Search-R1 emplea Optimización de Política Proximal con recompensas basadas en resultados, demostrando capacidades de razonamiento impresionantes pero con costos computacionales sustanciales. R1-Searcher emplea un enfoque de dos etapas, primero enseñando generación de consultas de recuperación y luego optimizando con Reinforce++, logrando buenos resultados pero aún careciendo de supervisión del proceso.
Otro trabajo relevante incluye HippoRAG, que propone memoria a largo plazo inspirada neurobiológicamente para modelos de lenguaje, y sistemas como LightRAG y GraphRAG que exploran diferentes arquitecturas para integrar grafos de conocimiento. TeaRAG se distingue al combinar recuperación híbrida explícita con filtrado consciente de la co-ocurrencia y al introducir supervisión consciente del proceso a través de Optimización de Preferencia Directa.
El trabajo concurrente incluye Graph-R1, que extiende ideas similares de aprendizaje por refuerzo específicamente a la recuperación aumentada por grafos. Sin embargo, Graph-R1 emplea Optimización de Política Proximal en lugar de Optimización de Preferencia Directa, incurriendo en mayores costos de entrenamiento. Además, Graph-R1 se enfoca exclusivamente en recuperación basada en grafos, perdiendo los beneficios de la información contextual de fragmentos de texto.
La ubicación de TeaRAG en este panorama de investigación más amplio ilustra cómo el progreso científico a menudo proviene de la síntesis inteligente de ideas existentes en lugar de avances completamente novedosos. Al combinar recuperación híbrida, filtrado Personalized PageRank, supervisión consciente del proceso y Optimización de Preferencia Directa iterativa, TeaRAG logra resultados que superan sistemas construidos sobre cualquier técnica individual.
Consideraciones de implementación práctica
Para organizaciones que consideran implementar sistemas similares a TeaRAG en producción, varios factores prácticos merecen consideración. El primero es la infraestructura de recuperación. TeaRAG requiere tanto recuperación semántica como basada en grafos, necesitando vectores de embedding densos para fragmentos de texto y un sistema de consulta de grafos para tripletas. Estos sistemas deben ser altamente disponibles y de baja latencia, ya que son invocados múltiples veces por consulta.
El segundo factor es la construcción y mantenimiento del grafo de conocimiento. Extraer tripletas de millones de documentos requiere recursos computacionales sustanciales. Además, el grafo debe actualizarse periódicamente a medida que la información cambia. Las organizaciones deben equilibrar la cobertura contra la frescura, potencialmente manteniendo múltiples versiones del grafo para diferentes propósitos.
El tercer factor concierne a los requisitos del modelo. Aunque TeaRAG es más eficiente que los métodos de línea base, aún requiere ejecutar un modelo de lenguaje de múltiples miles de millones de parámetros, potencialmente múltiples veces por consulta. El despliegue en producción requiere infraestructura de GPU con latencia apropiada y capacidad de rendimiento. Las técnicas de optimización como cuantización, destilación de conocimiento o compilación pueden ayudar a reducir los requisitos de recursos.
El cuarto factor se relaciona con el monitoreo y la evaluación. Los sistemas de producción necesitan métricas integrales más allá de la simple precisión. La latencia, el uso de recursos, las tasas de fallo y la satisfacción del usuario deben rastrearse continuamente. La capacidad de TeaRAG para proporcionar rutas de razonamiento estructuradas facilita el análisis de fallas y la depuración, pero las organizaciones aún necesitan construir herramientas para aprovechar esta capacidad.
El quinto factor concierne a las consideraciones de seguridad y privacidad. Los sistemas de recuperación aumentada acceden a bases de datos de información potencialmente sensible. Los controles de acceso apropiados, el registro de auditoría y los mecanismos de privacidad diferencial pueden ser necesarios dependiendo del contexto de aplicación. Además, el modelo debe evitar revelar inadvertidamente información sensible en sus respuestas.
Una redefinición del equilibrio entre precisión y eficiencia
TeaRAG representa un avance significativo en la generación aumentada por recuperación agéntica, demostrando que los sistemas pueden volverse simultáneamente más precisos y más eficientes. Las contribuciones clave del trabajo residen en tres áreas interconectadas. Primero, la construcción de Grafos de Asociación de Conocimiento que capturan co-ocurrencias entre fragmentos de texto y tripletas de conocimiento, con filtrado Personalized PageRank que identifica información de alta densidad. Segundo, el diseño de recompensas conscientes del proceso que evalúan pasos de razonamiento intermedios mediante coincidencia de conocimiento, penalizando inherentemente el pensamiento excesivo. Tercero, la estrategia de Optimización de Preferencia Directa Iterativa que permite un entrenamiento eficiente con supervisión del proceso sin los costos computacionales de algoritmos de aprendizaje por refuerzo en línea.
Los resultados experimentales validan estas contribuciones en múltiples dimensiones. TeaRAG logra mejoras del 4% en Coincidencia Exacta para modelos de 8 mil millones de parámetros y del 2% para modelos de 14 mil millones de parámetros, mientras reduce simultáneamente el uso de tokens en 61% y 59% respectivamente. Estas ganancias persisten en conjuntos de datos tanto dentro del dominio como fuera del dominio, demostrando generalización robusta. Los estudios de ablación confirman que tanto la recuperación híbrida con filtrado Personalized PageRank como las recompensas conscientes del proceso contribuyen esencialmente al rendimiento.
Más allá de sus resultados técnicos inmediatos, TeaRAG ilustra principios más amplios para el diseño de sistemas de inteligencia artificial. La eficiencia no debe tratarse como una restricción que limita las capacidades, sino como un objetivo de diseño que impulsa la innovación arquitectónica. Combinar representaciones complementarias de conocimiento a través de mecanismos que explotan sus fortalezas relativas puede superar enfoques que dependen de una sola modalidad. La supervisión del proceso en el aprendizaje por refuerzo, aunque más compleja que las recompensas basadas puramente en resultados, produce sistemas más robustos y generalizables.
A medida que los modelos de lenguaje se vuelven cada vez más centrales para aplicaciones del mundo real, la sostenibilidad se convierte en una consideración crítica. Los costos computacionales de ejecutar sistemas de inteligencia artificial a escala, tanto financiera como ambientalmente, exigen atención a la eficiencia. TeaRAG demuestra que tal eficiencia es alcanzable sin sacrificar, e incluso mejorando, las capacidades del sistema. Este equilibrio representa un camino prometedor para el desarrollo futuro de tecnologías de inteligencia artificial que sean tanto poderosas como sostenibles.
Los investigadores han puesto el código de TeaRAG a disposición de la comunidad científica en GitHub, facilitando la reproducción, extensión e integración en otros sistemas. Esta apertura acelerará la exploración de las ideas introducidas y su adaptación a nuevos dominios y aplicaciones. A medida que el campo continúa evolucionando rápidamente, contribuciones como TeaRAG que avanzan simultáneamente múltiples objetivos, precisión, eficiencia, generalización, marcan direcciones particularmente valiosas para el progreso colectivo.
El futuro de la inteligencia artificial generativa seguramente involucrará sistemas cada vez más sofisticados que razonan sobre conocimiento externo, descomponen problemas complejos y aprenden estrategias generalizables a través de interacciones con su entorno. TeaRAG proporciona un modelo de cómo tales sistemas pueden diseñarse para lograr alto rendimiento con eficiencia de recursos responsable. Los principios que ilustra, desde la recuperación híbrida consciente de la estructura hasta el aprendizaje por refuerzo consciente del proceso, probablemente influirán en el trabajo en este espacio durante años venideros.
Referencias
Artículo principal:
Zhang, C., Wang, Y., Xu, D., Zhang, H., Lyu, Y., Chen, Y., Liu, S., Xu, T., Zhao, X., Gao, Y., Hu, Y., & Chen, E. (2025). TeaRAG: A Token-Efficient Agentic Retrieval-Augmented Generation Framework. arXiv:2511.05385v1 [cs.IR]
Trabajos relacionados citados:
Jin, B., Zeng, H., Yue, Z., Wang, D., Zamani, H., & Han, J. (2025). Search-r1: Training llms to reason and leverage search engines with reinforcement learning. arXiv:2503.09516
Song, H., Jiang, J., Min, Y., Chen, Z., Wu, Y., Zhao, J., Tian, W., Zhao, W. X., Fang, L., & Wen, J. R. (2025). R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning. arXiv:2503.05592
Gutiérrez, B. J., Shu, Y., Gu, Y., Yasunaga, M., & Su, Y. (2024). Hipporag: Neurobiologically inspired long-term memory for large language models. Advances in Neural Information Processing Systems, 37
Trivedi, H., Balasubramanian, N., Khot, T., & Sabharwal, A. (2022). MuSiQue: Multihop Questions via Single-hop Question Composition. Transactions of the Association for Computational Linguistics, 10, 539-554
Rafailov, R., Sharma, A., Mitchell, E., Manning, C. D., Ermon, S., & Finn, C. (2023). Direct preference optimization: Your language model is secretly a reward model. Advances in Neural Information Processing Systems, 36, 53728-53741
Lewis, P., Perez, E., Piktus, A., Petroni, F., Karpukhin, V., Goyal, N., Küttler, H., Lewis, M., Yih, W., Rocktäschel, T., Riedel, S., & Kiela, D. (2020). Retrieval-augmented generation for knowledge-intensive nlp tasks. Advances in Neural Information Processing Systems, 33, 9459-9474



