ReasonEmbed supera a todos los sistemas anteriores en búsqueda intensiva en razonamiento

ReasonEmbed: la inteligencia artificial aprende a razonar antes de buscar

Un avance revolucionario que permite a los sistemas de IA identificar información relevante mediante razonamiento profundo, no solo coincidencia de palabras

En el vertiginoso paisaje de la inteligencia artificial contemporánea, donde los modelos de lenguaje se entrenan con billones de parámetros y las aplicaciones conversacionales alcanzan niveles de sofisticación casi desconcertantes, existe un problema silencioso pero fundamental: la búsqueda inteligente de información. No hablamos aquí de la típica consulta en un motor de búsqueda tradicional, donde basta con teclear unas palabras clave para obtener una lista de páginas web ordenadas por relevancia. Nos referimos a algo mucho más complejo y sutil: la capacidad de un sistema automatizado para identificar, dentro de vastas colecciones de documentos especializados, aquellos fragmentos de conocimiento que realmente pueden ayudar a resolver problemas que exigen razonamiento profundo.

Imaginemos por un momento a un estudiante de doctorado enfrentándose a un teorema matemático complejo, o a un ingeniero de software buscando ejemplos de código que le permitan resolver un algoritmo particularmente intrincado. En ambos casos, la pregunta que formulan no puede responderse con una simple coincidencia de palabras. Requiere que el sistema comprenda la naturaleza del problema, identifique las técnicas relevantes, y conecte conceptos que quizás no compartan términos obvios pero sí una estructura lógica común. Este tipo de recuperación de información, conocida como recuperación intensiva en razonamiento, representa uno de los desafíos más estimulantes para la inteligencia artificial actual.

Es precisamente en este contexto donde surge ReasonEmbed, un modelo de incrustaciones textuales desarrollado por un equipo de investigadores de instituciones académicas chinas de primer nivel. Este sistema no solo busca documentos: razona sobre ellos.

Comparación de rendimiento: ReasonEmbed versus sistemas existentes

Este gráfico muestra cómo ReasonEmbed supera dramáticamente a todos los sistemas previos en tareas de recuperación intensiva en razonamiento. La puntuación nDCG@10 mide qué tan bien el sistema identifica documentos relevantes, donde valores más altos indican mejor rendimiento.

El equipo responsable del desarrollo identificó tres contribuciones técnicas fundamentales que distinguen a ReasonEmbed de sus predecesores. La primera es ReMixer, un método novedoso para sintetizar datos de entrenamiento que evita precisamente ese problema de trivialidad. La segunda es Redapter, un algoritmo de aprendizaje autoadaptativo que ajusta dinámicamente el peso de cada muestra durante el entrenamiento según su intensidad de razonamiento.

Los resultados obtenidos son notables. La variante basada en el modelo Qwen3-8B alcanza una puntuación de 38.1 en la métrica nDCG@10 del benchmark BRIGHT, superando en aproximadamente diez puntos a los sistemas más avanzados existentes hasta el momento.

La síntesis de datos como piedra angular

El corazón metodológico de ReasonEmbed reside en su estrategia para generar datos de entrenamiento sintéticos. A diferencia de los enfoques tradicionales, que simplemente recopilan pares de consultas y documentos de fuentes existentes, este sistema construye desde cero un conjunto de datos diseñado específicamente para fomentar el razonamiento.

Características del conjunto de datos sintético generado por ReMixer

Esta tabla muestra la composición del conjunto de datos sintético utilizado para entrenar ReasonEmbed. Cada dominio contribuye miles de consultas complejas, con múltiples documentos positivos y negativos.

Dominio	Consultas finales	Docs. positivos promedio	Docs. negativos promedio	Longitud media consulta
Biología	7,470	8	90	118
Ciencias de la Tierra	8,492	8	90	112
Economía	7,147	14	84	117
Psicología	5,412	10	88	119
LeetCode (programación)	8,640	11	87	713
TOTAL	81,659	12	86	221

Evolución del rendimiento según tamaño del conjunto de datos

Conforme aumenta la cantidad de datos sintéticos de entrenamiento, el rendimiento de ReasonEmbed mejora consistentemente.

Impacto de los componentes de razonamiento

Este gráfico ilustra cómo cada elemento del sistema contribuye al rendimiento final.

Para hacer este proceso computacionalmente viable, los investigadores emplean una técnica de destilación de conocimiento. Primero, utilizan un modelo de lenguaje extremadamente avanzado para generar trayectorias de razonamiento sobre un subconjunto de muestras.

Aprendizaje autoadaptativo según intensidad de razonamiento

La segunda innovación fundamental de ReasonEmbed se encuentra en su método de entrenamiento. Los investigadores observaron que no todas las muestras sintéticas poseen el mismo nivel de dificultad.

Comparación con el estado del arte

Para contextualizar adecuadamente el avance que representa ReasonEmbed, conviene examinar en detalle el panorama de sistemas existentes.

Comparación detallada: sistemas de propósito general versus especializados

Esta tabla clasifica los sistemas de recuperación según su enfoque y muestra cómo ReasonEmbed supera a todos.

Sistema	Tipo	Tamaño	Puntuación BRIGHT	Enfoque
SISTEMAS DE PROPÓSITO GENERAL
BM25	Léxico	-	14.5	Coincidencia de términos
OpenAI-3-Large	Semántico	-	17.9	Embeddings generales
gte-Qwen2-7B	Semántico	7B	23.5	Aprendizaje contrastivo
SISTEMAS ESPECIALIZADOS EN RAZONAMIENTO
ReasonIR-8B	Razonamiento	8B	24.4	Consultas largas
RaDeR-gte-Qwen2-7B	Razonamiento	7B	25.5	Generación sofisticada
DIVER-Retriever	Razonamiento	4B	28.9	Enfoque multi-etapa
REASONEMBED (ESTE TRABAJO)
ReasonEmbed-Qwen3-4B	Razonamiento	4B	37.1	ReMixer + Redapter
ReasonEmbed-Qwen3-8B	Razonamiento	8B	38.1	ReMixer + Redapter

¿Qué significa nDCG@10?

La métrica nDCG@10 (Normalized Discounted Cumulative Gain at 10) mide qué tan bien un sistema ordena los documentos relevantes en las primeras diez posiciones. Un valor de 38.1 significa que el sistema identifica documentos altamente relevantes y los coloca en las posiciones superiores el 38.1% de las veces de manera óptima. Aunque pueda parecer modesto, en tareas de razonamiento intensivo donde las relaciones son sutiles y complejas, esta puntuación representa un rendimiento excepcional.

Implicaciones técnicas y metodológicas

El desarrollo de ReasonEmbed ofrece lecciones valiosas que trascienden el sistema específico y tocan aspectos fundamentales del diseño de modelos de inteligencia artificial. La primera y quizás más importante es que la calidad de los datos de entrenamiento importa tanto o más que la arquitectura del modelo. Los investigadores demuestran que un diseño cuidadoso del proceso de síntesis de datos puede compensar limitaciones de escala o arquitectura.

La segunda lección atañe al papel del razonamiento explícito en tareas de procesamiento del lenguaje. Tradicionalmente, los sistemas de recuperación de información operaban mediante coincidencia de patrones, ya fuera léxica o semántica. ReasonEmbed demuestra que incorporar procesos de razonamiento explícito, tanto en la generación de datos como en la evaluación de relevancia, mejora sustancialmente la capacidad del sistema para capturar relaciones complejas.

Principio fundamental: La calidad de los datos sintéticos puede superar a la cantidad de datos naturales. Un conjunto cuidadosamente diseñado de ochenta mil muestras resulta más valioso que millones de ejemplos triviales extraídos automáticamente.
Diseño adaptativo: Los sistemas de aprendizaje deben reconocer que no todas las muestras tienen igual valor pedagógico. Un algoritmo que ajusta dinámicamente la atención según la dificultad de cada ejemplo aprovecha mejor los recursos de entrenamiento.
Razonamiento explícito: Incorporar trayectorias de razonamiento en el proceso de generación y anotación de datos permite que los modelos aprendan no solo qué documentos son relevantes, sino por qué lo son.
Evaluación rigurosa: Los análisis exhaustivos de ablación, estudios de escalabilidad y evaluación en múltiples dominios resultan esenciales para comprender verdaderamente qué funciona y por qué.

Análisis detallado de componentes

Los investigadores realizan una serie exhaustiva de estudios de ablación para identificar la contribución individual de cada componente del sistema. Estos experimentos, meticulosamente diseñados, permiten descomponer el rendimiento global y entender qué elementos resultan verdaderamente esenciales.

El primer conjunto de experimentos examina el impacto del método de minería de candidatos. Al comparar el enfoque por defecto, que excluye documentos fuente, con alternativas que los incluyen, se observa una diferencia dramática en el rendimiento. Las configuraciones que utilizan documentos fuente como positivos alcanzan puntuaciones de apenas 14.5 a 22.1, mientras que el método por defecto llega a 37.1. Esta diferencia de más de quince puntos confirma la hipótesis central sobre la trivialidad: cuando las conexiones entre consultas y documentos resultan demasiado directas, el modelo aprende patrones superficiales que no se transfieren a escenarios reales.

Impacto del modelo de razonamiento en el rendimiento final

Este gráfico muestra cómo la calidad del modelo utilizado para generar consultas enriquecidas con razonamiento afecta directamente el rendimiento del sistema. Modelos más potentes producen mejores estimaciones de intensidad de razonamiento.

El segundo grupo de experimentos evalúa el proceso de anotación de relevancia. Los resultados muestran que la destilación mejora el rendimiento de 32.4 a 37.1, mientras que la incorporación de razonamiento explícito lo eleva de 35.0 a 37.1. Ambos elementos resultan, por tanto, contributivos y complementarios.

El tercer experimento analiza la influencia del modelo utilizado para generar consultas enriquecidas con razonamiento. Los resultados muestran una correlación clara entre la capacidad del modelo generador y el rendimiento final: GPT-4.1-mini alcanza 38.1, mientras que Qwen3-4B solo llega a 36.5. Esta relación subraya la importancia de utilizar modelos suficientemente potentes para las tareas de razonamiento, incluso cuando operan en una fase de preprocesamiento.

Rendimiento por dominios específicos

Un análisis particularmente revelador consiste en examinar el rendimiento de ReasonEmbed desagregado por dominios individuales. Este nivel de granularidad permite identificar no solo la mejora promedio sino también la consistencia del sistema a través de diferentes tipos de contenido especializado.

Rendimiento por dominio: Ciencias Biológicas y Sociales

ReasonEmbed supera consistentemente a DIVER (el anterior líder) en todos los dominios científicos evaluados.

Rendimiento por dominio: Programación y Matemáticas

Las mejoras son especialmente notables en dominios técnicos como programación y matemáticas avanzadas.

Los resultados desagregados revelan que ReasonEmbed no solo mejora el rendimiento promedio, sino que lo hace de manera consistente en prácticamente todos los dominios evaluados. En biología, la mejora es de 13.7 puntos (de 41.8 a 55.5). En ciencias de la tierra, de 12.9 puntos (de 43.7 a 56.6). En economía, donde ambos sistemas enfrentan mayores dificultades debido a la complejidad del razonamiento causal requerido, la mejora sigue siendo sustancial: 14.5 puntos (de 21.7 a 36.2).

Particularmente interesante resulta el rendimiento en dominios de programación. En LeetCode, donde las consultas típicamente involucran descripciones de problemas algorítmicos complejos, ambos sistemas muestran rendimientos más modestos, pero ReasonEmbed mantiene su ventaja. En Stack Overflow, donde las preguntas técnicas se formulan en lenguaje natural menos estructurado, la mejora de ReasonEmbed resulta dramática: 14 puntos (de 25.1 a 39.1).

Impacto potencial en aplicaciones reales

Las implicaciones prácticas de ReasonEmbed se extienden mucho más allá del ámbito académico. Los asistentes de inteligencia artificial autónomos, que prometen revolucionar campos como la ingeniería de software, la investigación científica y la consultoría profesional, dependen críticamente de su capacidad para acceder a información relevante mediante razonamiento profundo.

Casos de uso potenciales de ReasonEmbed por industria

Este gráfico ilustra los sectores donde la recuperación intensiva en razonamiento podría tener mayor impacto transformador en los próximos años.

En el dominio de la ingeniería de software, imagine un asistente que pueda ayudar a un programador a resolver un problema complejo de optimización de algoritmos. La consulta no será simplemente "¿cómo ordeno una lista?", sino algo mucho más matizado: "necesito un algoritmo de ordenamiento que funcione eficientemente con datos parcialmente ordenados y que minimice el uso de memoria auxiliar". Un sistema como ReasonEmbed podría identificar documentos que, aunque no mencionen explícitamente esas restricciones, discutan algoritmos aplicables como TimSort o el ordenamiento por inserción adaptativo.

En medicina clínica, los profesionales enfrentan regularmente situaciones donde deben integrar múltiples fuentes de evidencia para tomar decisiones diagnósticas o terapéuticas. Un sistema de recuperación que comprenda las relaciones causales entre síntomas, mecanismos fisiopatológicos y opciones de tratamiento podría transformar la práctica basada en evidencia, permitiendo acceso rápido a literatura relevante incluso cuando la consulta no comparte terminología técnica exacta con los documentos pertinentes.

El sector legal representa otro dominio prometedor. Los abogados dedican cantidades sustanciales de tiempo a la investigación de precedentes y doctrina jurídica. Un sistema que pueda identificar casos relevantes no por similitud superficial de hechos sino por analogía estructural de razonamiento jurídico tendría un valor práctico enorme.

Limitaciones y direcciones futuras

A pesar de sus resultados impresionantes, ReasonEmbed presenta limitaciones que los propios investigadores reconocen abiertamente. La primera atañe a la dependencia de modelos de lenguaje potentes para la generación de datos y consultas enriquecidas. Aunque se emplea destilación para hacer el proceso más eficiente, el sistema sigue limitado por las capacidades del modelo de razonamiento más avanzado utilizado en la fase de construcción de datos.

La segunda limitación concierne a la evaluación. Aunque BRIGHT y R2MED constituyen benchmarks rigurosos, ambos representan dominios específicos y no cubren exhaustivamente todo el espectro de tareas de razonamiento posibles. Sería deseable contar con evaluaciones en dominios adicionales como derecho, humanidades, o ciencias sociales más allá de economía y psicología.

La tercera limitación se relaciona con la eficiencia computacional. Aunque ReasonEmbed resulta más eficiente que alternativas basadas en modelos de lenguaje de gran escala operando en tiempo de inferencia, el proceso de generación y anotación de datos sigue siendo computacionalmente costoso. La democratización de estas tecnologías requerirá métodos aún más eficientes que permitan su adopción por organizaciones con recursos limitados.

Respecto a direcciones futuras, los investigadores sugieren varias líneas prometedoras de investigación. La primera consiste en explorar arquitecturas de modelos específicamente diseñadas para razonamiento en lugar de adaptar modelos de propósito general. Estructuras que incorporen explícitamente mecanismos de inferencia lógica o razonamiento causal podrían superar las limitaciones inherentes de las arquitecturas transformer tradicionales.

La segunda dirección involucra la expansión del conjunto de datos sintético mediante la incorporación de más dominios y tipos de razonamiento. El proceso ReMixer podría aplicarse a corpus especializados en campos no representados actualmente, ampliando la cobertura del sistema. Además, sería valioso explorar la generación de consultas que requieran razonamiento contrafactual, analógico o abductivo, más allá del razonamiento deductivo e inductivo que predomina en los datos actuales.

La tercera dirección concierne a la personalización y adaptación. Diferentes usuarios y contextos pueden beneficiarse de estrategias de recuperación especializadas. Un sistema que pueda adaptarse dinámicamente al estilo de consulta de un usuario particular o al dominio específico de una aplicación podría ofrecer mejoras adicionales de rendimiento.

Consideraciones éticas y sociales

El desarrollo de sistemas de recuperación de información cada vez más sofisticados plantea importantes consideraciones éticas y sociales que merecen atención cuidadosa. La primera concierne al sesgo y la equidad. Los modelos de lenguaje utilizados para generar datos sintéticos heredan inevitablemente los sesgos presentes en sus datos de entrenamiento. Si estos sesgos se propagan al sistema de recuperación, podrían resultar en acceso diferencial a información relevante para diferentes grupos de usuarios.

La segunda consideración atañe a la transparencia y explicabilidad. A medida que los sistemas de recuperación se vuelven más complejos, entender por qué un documento particular se considera relevante para una consulta dada resulta cada vez más difícil. Esta opacidad puede ser problemática en dominios donde la justificación de decisiones resulta crítica, como medicina o derecho.

La tercera consideración se relaciona con la dependencia tecnológica. Sistemas como ReasonEmbed, que demuestran capacidades significativamente superiores a alternativas previas, podrían crear dependencias donde organizaciones y profesionales confían excesivamente en las recomendaciones automatizadas sin ejercer juicio crítico independiente. El equilibrio entre aprovechar las capacidades tecnológicas y mantener expertise humano constituye un desafío importante.

La cuarta consideración involucra cuestiones de acceso y equidad digital. Si estos sistemas avanzados permanecen accesibles únicamente para organizaciones con recursos sustanciales, podrían exacerbar desigualdades existentes en acceso a información y conocimiento. Los esfuerzos de democratización tecnológica, incluyendo la disponibilización de modelos de código abierto y la reducción de requisitos computacionales, resultan esenciales para mitigar este riesgo.

Contexto histórico y evolución del campo

Para apreciar plenamente el significado de ReasonEmbed, resulta útil situarlo en el contexto de la evolución histórica de los sistemas de recuperación de información. Los primeros sistemas, desarrollados en las décadas de 1960 y 1970, operaban mediante coincidencia léxica simple: identificaban documentos que contenían las mismas palabras que la consulta. Aunque efectivos en dominios controlados, estos sistemas fracasaban en capturar relaciones semánticas y no podían manejar variaciones en vocabulario.

La introducción de modelos vectoriales y análisis de semántica latente en las décadas de 1980 y 1990 representó un avance significativo, permitiendo capturar similitudes semánticas más allá de coincidencias léxicas exactas. Sin embargo, estos métodos seguían limitados por su incapacidad para representar relaciones complejas y estructuras conceptuales profundas.

La revolución del aprendizaje profundo en la década de 2010 transformó radicalmente el campo. Las incrustaciones de palabras como Word2Vec y GloVe demostraron que representaciones vectoriales aprendidas de grandes corpus capturaban relaciones semánticas sorprendentemente ricas. Los modelos transformer y BERT extendieron estos avances, permitiendo representaciones contextuales sofisticadas.

Sin embargo, incluso estos sistemas avanzados mostraban limitaciones en tareas que requerían razonamiento genuino. Podían identificar similitud semántica pero no necesariamente relevancia conceptual profunda. ReasonEmbed representa un paso adelante en esta progresión histórica, demostrando que es posible incorporar capacidades de razonamiento explícito en sistemas de recuperación.

Reflexiones finales sobre el futuro de la recuperación inteligente

ReasonEmbed representa un hito significativo en la evolución de los sistemas de recuperación de información, pero su verdadera importancia trasciende las métricas de rendimiento. Este trabajo demuestra que la inteligencia artificial puede desarrollar capacidades que van más allá de la coincidencia de patrones, adentrándose en el territorio del razonamiento genuino sobre contenido complejo.

La transición desde sistemas que simplemente buscan similitud superficial hacia aquellos que comprenden estructura conceptual profunda refleja un cambio paradigmático en nuestra relación con la información digital. En un mundo donde el volumen de conocimiento técnico y científico crece exponencialmente, la capacidad de navegar eficientemente ese océano de datos mediante razonamiento automatizado se convierte no en un lujo sino en una necesidad fundamental.

El camino hacia sistemas verdaderamente inteligentes de gestión del conocimiento apenas comienza. ReasonEmbed muestra lo que es posible cuando combinamos arquitecturas de modelos avanzadas con metodologías cuidadosas de generación de datos y algoritmos de entrenamiento adaptativos. Los próximos años probablemente verán avances adicionales en múltiples direcciones: modelos más eficientes, conjuntos de datos más diversos, mejor comprensión de diferentes tipos de razonamiento, y aplicaciones en dominios cada vez más especializados.

Sin embargo, el progreso técnico debe ir acompañado de reflexión ética y consideración cuidadosa de implicaciones sociales. Los sistemas que median nuestro acceso al conocimiento ejercen poder significativo sobre cómo pensamos, aprendemos y tomamos decisiones. Asegurar que estos sistemas operen de manera justa, transparente y beneficiosa para toda la humanidad constituye una responsabilidad colectiva que trasciende consideraciones puramente técnicas.

El futuro de la recuperación de información será, sin duda, un futuro de razonamiento automatizado cada vez más sofisticado. ReasonEmbed marca un punto de inflexión en ese camino, demostrando no solo que tal futuro es posible, sino que ya ha comenzado a materializarse. La pregunta ahora no es si los sistemas de inteligencia artificial pueden razonar sobre información compleja, sino cómo podemos asegurar que esas capacidades se desarrollen y apliquen de manera que amplifiquen el florecimiento humano en lugar de sustituirlo.

En última instancia, el valor de sistemas como ReasonEmbed no radica simplemente en su capacidad técnica superior, sino en su potencial para democratizar el acceso al conocimiento especializado, acelerar el descubrimiento científico, facilitar la toma de decisiones informadas, y permitir que más personas participen efectivamente en diálogos intelectuales complejos. Si podemos realizar ese potencial mientras navegamos cuidadosamente los riesgos asociados, habremos dado un paso significativo hacia una sociedad del conocimiento verdaderamente inclusiva y efectiva.

Referencias bibliográficas

Chen, J., Lan, J., Li, C., Lian, D., & Liu, Z. (2025). ReasonEmbed: Enhanced Text Embeddings for Reasoning-Intensive Document Retrieval. arXiv preprint arXiv:2510.08252.

SU, H., Yen, H., Xia, M., Shi, W., Muennighoff, N., Wang, H., Haisu, L., Shi, Q., Siegel, Z. S., Tang, M., Sun, R., Yoon, J., Arik, S. O., Chen, D., & Yu, T. (2025). BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval. In The Thirteenth International Conference on Learning Representations.

Bajaj, P., Campos, D., Craswell, N., Deng, L., Gao, J., Liu, X., Majumder, R., McNamara, A., Mitra, B., Nguyen, T., & others. (2016). Ms marco: A human generated machine reading comprehension dataset. arXiv preprint arXiv:1611.09268.

Wang, L., Yang, N., Huang, X., Yang, L., Majumder, R., & Wei, F. (2024). Improving text embeddings with large language models. In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 11897-11916, Bangkok, Thailand. Association for Computational Linguistics.

Lee, C., Roy, R., Xu, M., Raiman, J., Shoeybi, M., Catanzaro, B., & Ping, W. (2024). Nv-embed: Improved techniques for training llms as generalist embedding models. arXiv preprint arXiv:2405.17428.

Shao, R., Qiao, R., Kishore, V., Muennighoff, N., Lin, X. V., Rus, D., Low, B. K. H., Min, S., Yih, W., Koh, P. W., & others. (2025). Reasonir: Training retrievers for reasoning tasks. arXiv preprint arXiv:2504.20595.

Das, D., Nuallain, S. O., & Rahimi, R. (2025). Rader: Reasoning-aware dense retrieval models. arXiv preprint arXiv:2505.18405.

Long, M., Sun, D., Yang, D., Wang, J., Shen, Y., Wang, J., Wei, P., Gu, J., & Wang, J. (2025). Diver: A multi-stage approach for reasoning-intensive information retrieval. arXiv preprint arXiv:2508.07995.

Mikolov, T., Sutskever, I., Chen, K., Corrado, G. S., & Dean, J. (2013). Distributed representations of words and phrases and their compositionality. In Advances in neural information processing systems, pages 3111-3119.

Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 4171-4186.

Robertson, S. E., & Walker, S. (1994). Some simple effective approximations to the 2-poisson model for probabilistic weighted retrieval. In SIGIR'94: Proceedings of the Seventeenth Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, pages 232-241. Springer-Verlag.

Sobre este artículo

Fecha de publicación: Octubre 2025

Tema principal: Inteligencia Artificial, Recuperación de Información, Modelos de Lenguaje

Nivel técnico: Avanzado - requiere conocimientos de aprendizaje automático y procesamiento del lenguaje natural

Código y modelos: Los autores han hecho disponibles los datos sintéticos y modelos entrenados para la comunidad investigadora, promoviendo la reproducibilidad y el avance colaborativo del campo.

ReasonEmbed supera a todos los sistemas anteriores en búsqueda intensiva en razonamiento