De los datos a las leyes: el poder del agente SR-Scientist

La búsqueda de leyes fundamentales que gobiernen el universo es una de las actividades más antiguas y profundas del ser humano. Durante siglos, este proceso ha sido guiado por la intuición, la observación meticulosa y el razonamiento lógico de científicos individuales o equipos humanos. Sin embargo, la explosión de datos generada por simulaciones complejas y experimentos a gran escala en campos como la física, la biología y la ciencia de materiales ha creado un desafío sin precedentes: cómo extraer patrones significativos y ecuaciones interpretables de vastos volúmenes de información.

En respuesta a esta necesidad, surgen los modelos de lenguaje grande (LLM), capaces de procesar y generar texto humano, pero cuyo potencial trasciende con creces la simple comunicación. Investigadores de la Universidad Jiao Tong de Shanghái han llevado este potencial a su máxima expresión con la creación de SR-Scientist, un marco revolucionario que transforma a estos modelos en agentes científicos autónomos.

El núcleo del enfoque de SR-Scientist es la creación de un "agente" inteligente que opera de manera autónoma. Este agente, impulsado por un LLM, sigue un ciclo iterativo conocido como "razonamiento-acción" (ReAct). En cada paso de este ciclo, el agente primero utiliza su capacidad de lenguaje natural para reflexionar sobre los datos proporcionados y planificar la siguiente acción.

Esta fase de razonamiento puede implicar preguntarse qué tipo de análisis estadístico podría revelar una relación oculta o qué forma podría tener una ecuación plausible. A continuación, el agente ejecuta una acción específica, utilizando un conjunto de herramientas programadas que puede invocar. Estas herramientas son cruciales, ya que permiten al agente interactuar con los datos de una manera tangible y automatizada.

Dos de estas herramientas son particularmente fundamentales. La primera es un analizador de datos (data_analyzer), que permite al agente realizar análisis estadísticos profundos y crear visualizaciones para entender mejor la estructura de los datos. La segunda es un evaluador de ecuaciones (equation_evaluator), que toma una ecuación propuesta, la implementa como código y la evalúa contra los datos reales para calcular métricas de precisión numérica, como el Error Absoluto Porcentual Medio (MAPE).

Lo que distingue a SR-Scientist de otros enfoques es su capacidad para optimizar activamente las ecuaciones que propone. Utiliza un poderoso algoritmo de optimización llamado BFGS para afinar los parámetros libres de la ecuación, buscando los valores que minimicen el error cuadrático medio (MSE) entre las predicciones de la ecuación y los datos observados. Este ciclo de razonamiento, acción y observación se repite hasta que la ecuación alcanza un umbral de precisión predefinido o se completa un número máximo de iteraciones.

Componentes Clave y Funcionamiento de SR-Scientist

Para comprender la potencia de SR-Scientist, es fundamental desglosar sus componentes arquitectónicos y entender cómo trabajan en conjunto para crear un agente de descubrimiento científico tan sofisticado. El sistema está concebido como un ente autónomo que opera bajo un marco ReAct, alternando entre pensamiento reflexivo y acciones prácticas.

Este ciclo iterativo es el motor principal de su capacidad para resolver problemas complejos. En cada iteración, el agente recibe una observación del entorno (los datos y los resultados de la última acción), genera un razonamiento en lenguaje natural sobre qué hacer a continuación, invoca una de sus herramientas habilitadas y recibe una nueva observación que concluye el ciclo. Este proceso se repite hasta que se cumple una condición de parada, como alcanzar un nivel de precisión deseado o agotar el número máximo de turnos disponibles.

Las herramientas que equipan a SR-Scientist son el puente entre su capacidad de razonamiento abstracto y la realidad de los datos. Dos de ellas son omnipresentes: el analizador de datos y el evaluador de ecuaciones. El analizador de datos es un intérprete de Python que permite al agente ejecutar código para realizar un análisis estadístico exhaustivo y crear gráficos para visualizar patrones en los datos. Esto va desde cálculos básicos de resumen hasta técnicas más avanzadas como el examen de residuales, lo que ayuda al agente a formular hipótesis más informadas sobre la posible estructura de la ecuación subyacente.

Por otro lado, el evaluador de ecuaciones es responsable de poner a prueba las ideas del agente. Implementa una ecuación propuesta como código y la evalúa contra los datos, calculando métricas de rendimiento clave como el MAPE y el MSE. Además, este evaluador integra un optimizador BFGS para afinar automáticamente los coeficientes de la ecuación, buscando los valores que mejor se ajusten a los datos observados. La interacción fluida entre estos dos módulos permite un bucle de retroalimentación rápido y eficiente: el análisis guía la proposición, y la evaluación proporciona la corrección.

Un desafío fundamental en el uso de LLMs es su finita capacidad de contexto, que limita la cantidad de información que pueden retener durante una sesión de inferencia. Para superar esta barrera, SR-Scientist implementa un componente innovador: un buffer de experiencia (experience buffer). Este buffer funciona como una memoria externa y persistente para el agente. A medida que explora diferentes ecuaciones, el sistema almacena las que obtienen las puntuaciones más altas (las que tienen el menor error) junto con sus métricas de rendimiento en un formato E = {(ei, si)}.

En cada nueva iteración, en lugar de partir de cero, el agente consulta este buffer y lo utiliza para construir un prompt in-contexto. Este prompt incluye ejemplos de las K ecuaciones de mejor rendimiento encontradas hasta el momento, proporcionando un punto de partida mucho más rico y orientado hacia el éxito. Este mecanismo es crucial para lograr una optimización de horizonte largo, ya que permite al agente capitalizar el conocimiento acumulado en iteraciones anteriores, evitando la repetición de errores y concentrando su búsqueda en regiones más prometedoras del espacio de soluciones.

Superando los Límites del Estado del Arte

La validez y el impacto de cualquier método científico se miden por su rendimiento en comparación con los enfoques existentes y su capacidad para abordar problemas realistas. SR-Scientist fue sometido a una evaluación rigurosa en el benchmark LSR-Synth2, un conjunto de datos diseñado específicamente para medir la capacidad de razonamiento genuina de los sistemas de IA, evitando la memorización trivial de ecuaciones conocidas.

Este benchmark presenta 129 problemas desafiantes distribuidos equitativamente entre cuatro disciplinas científicas: química (36 problemas), biología (24 problemas), física (44 problemas) y ciencia de materiales (25 problemas). Los problemas están diseñados para exigir una comprensión profunda de los conceptos científicos y la capacidad de generalizar más allá de los datos de entrenamiento.

Los resultados de la evaluación demuestran una mejora sustancial sobre el estado del arte. SR-Scientist supera consistentemente a una variedad de métodos de referencia, que incluyen tanto enfoques clásicos como otros basados en LLMs. En términos de precisión general, medido por la métrica Acc₀.₀₁ (la proporción de problemas para los cuales la ecuación encontrada tiene un error relativo menor que 0.01), el marco muestra un aumento absoluto en el rendimiento del 6% al 35% en comparación con los métodos de base. Este margen de ganancia subraya la superioridad del enfoque agente de SR-Scientist sobre las estrategias más estáticas y menos iterativas.

Figura 1: Comparación del rendimiento general (Acc₀.₀₁) de SR-Scientist con distintos modelos base frente a métodos de referencia.

Una de las métricas más importantes en el descubrimiento de ecuaciones es la precisión simbólica, que evalúa si la ecuación encontrada por el sistema es exactamente idéntica a la ecuación verdadera subyacente, no solo numéricamente similar. Aquí, SR-Scientist también destaca, logrando tasas de precisión simbólica significativamente más altas que muchos de sus competidores.

Modelo	Precisión General (Acc₀.₀₁)	Precisión Simbólica (%)	Dominio Especializado (Acc₀.₀₁)
SR-Scientist (GPT-OSS-120B)	63.57%	7.00%	49.35% (Ciencia de Materiales)
SR-Scientist (Qwen3-Coder-30B)	40.92% (con RL)	7.00%	Información no disponible
PySR	51.35%	4.65%	Información no disponible
LLM-SR (GLM-4.5-Air)	56.25%	7.75%	Información no disponible
LLM-SR (GPT-OSS-120B)	58.91%	7.00%	Información no disponible

Además de su rendimiento en el benchmark, SR-Scientist demuestra robustez en varias facetas cruciales. El estudio de ablación confirmó la importancia de sus componentes clave: la eliminación del analizador de datos redujo drásticamente la precisión del modelo GPT-OSS-120B de 63.57% a 35.66%. El sistema también muestra una notable capacidad de generalización a datos fuera de distribución (OOD) y robustez al ruido gaussiano, manteniendo un alto nivel de precisión incluso cuando los datos de entrada se contaminaban con un ruido de hasta una desviación estándar de 0.1. La inclusión del buffer de experiencia y el entrenamiento por refuerzo fueron identificados como factores críticos para mejorar la eficiencia y la calidad de las soluciones encontradas.

Figura 2: Robustez al ruido gaussiano. SR-Scientist mantiene un rendimiento superior incluso con niveles crecientes de ruido (σ = 0.01, 0.05, 0.1).

Ecualizando los Límites de la Ciencia Aplicada

En el campo de la física, SR-Scientist enfrentó la tarea de modelar osciladores no lineales. Se utilizaron dos problemas de prueba personalizados, Oscillation 1 y Oscillation 2, que contienen múltiples términos no lineales y constantes desconocidas. Por ejemplo, la ecuación para Oscillation 1 es:

ẋ = F·sin(ω·x) − α·v³ − β·x³ − γ·x·v − x·cos(x)

donde v es la velocidad, x es la posición, y F, ω, α, β, γ son parámetros desconocidos que el sistema debía determinar. De manera similar, Oscillation 2 presenta una estructura diferente dependiendo del tiempo t. Redescubrir la estructura correcta de estas ecuaciones diferenciales y estimar los valores de los parámetros es un desafío considerable para cualquier método. Los resultados de SR-Scientist en estos problemas demuestran su capacidad para identificar correctamente tanto la forma funcional de las ecuaciones como los valores de las constantes.

En biología, el sistema se enfrentó al desafío del crecimiento bacteriano. Se utilizó un modelo que describe la tasa de cambio de la densidad poblacional de Escherichia coli (B) como un producto de funciones no lineales que dependen de variables ambientales como la temperatura (T) y el nivel de pH. La ecuación propuesta es de la forma:

dB/dt = f_B(B) · f_S(S) · f_T(T) · f_pH(pH)

donde cada función f representa una influencia específica. Para evitar que el LLM simplemente memorizara una solución conocida, se introdujeron funciones arbitrarias para f_T(T) y f_pH(pH), como tanh(k(T − x₀)) y exp(−|pH − pH_opt|). La capacidad de SR-Scientist para trabajar con estas funciones paramétricas y no estándar demuestra su flexibilidad para adaptarse a los modelos biológicos complejos y poco convencionales.

Quizás uno de los casos de estudio más notables es el de la ciencia de materiales. SR-Scientist se aplicó a un conjunto de datos experimental de ensayos de tracción en aleaciones de aluminio 6061-T651, realizados a seis temperaturas diferentes, cubriendo las regiones elástica, plástica y de fallo del material. El objetivo era descubrir una ecuación que relacionara el esfuerzo (σ) con la deformación (ε) y la temperatura (T). El marco fue capaz de identificar con éxito un modelo que describe adecuadamente el comportamiento complejo del material bajo diversas condiciones.

El Ecosistema del Descubrimiento Científico Automatizado

SR-Scientist no es un desarrollo aislado, sino el resultado de décadas de investigación en aprendizaje automático y ciencias computacionales, y es parte de un ecosistema de herramientas y marcos que están redefiniendo el método científico. El campo del descubrimiento de ecuaciones ha sido históricamente dominado por enfoques como la Programación Genética (GP), popularizada por el trabajo seminal de Schmidt y Lipson en 2009, que utilizaba la evolución artificial para buscar soluciones matemáticas. Posteriormente, surgieron métodos como la Identificación Dispersa de Dinámicas No Lineales (SINDy), que utiliza regresión dispersa para encontrar las pocas funciones que describen la dinámica de un sistema, promoviendo la parsimonia.

Sin embargo, los enfoques tradicionales enfrentan desafíos significativos, como la dificultad para generalizar a datos fuera de distribución y la sensibilidad al ruido. Con el auge de los LLMs, emergieron nuevas formas de atacar el problema. LLM-SR, desarrollado por investigadores de Virginia Tech, es un precursor directo de SR-Scientist en el sentido de que también utiliza LLMs para el descubrimiento de ecuaciones.

LLM-SR combina el conocimiento intrínseco del LLM con una búsqueda evolutiva sobre programas matemáticos, representando las ecuaciones como código Python para una mayor flexibilidad. Otros marcos, como DrSR, van un paso más allá con un razonamiento dual, utilizando tres módulos distintos para el análisis de datos, la extracción de ideas y la generación de ecuaciones. Estos marcos comparten el objetivo común de aprovechar el poder de los LLMs para superar las limitaciones de los métodos más tradicionales.

La colaboración internacional es un rasgo distintivo del proyecto SR-Scientist, reflejando la naturaleza global de la investigación científica moderna. Los autores principales del artículo son Shijie Xia, Yuhan Sun y Pengfei Liu. La investigación involucró a instituciones de primer orden, incluyendo la Shanghai Jiao Tong University, la Swiss Federal Institute of Technology (EPFL), el Massachusetts Institute of Technology (MIT), la University of Cambridge y la University of Chicago.

La infraestructura de cómputo utilizada fue igualmente robusta, con el entrenamiento del modelo Qwen3-Coder-30B realizado en 32 GPUs NVIDIA H200, y el tiempo total de inferencia para los 129 problemas del benchmark consumiendo 2 GPUs H100 durante 5 horas. Este nivel de inversión en hardware de vanguardia subraya la naturaleza intensiva en recursos de este tipo de investigación.

La Transformación del Método Científico

La llegada de marcos como SR-Scientist marca el inicio de una transformación profunda y duradera en el método científico. Al automatizar la formulación y refinación de hipótesis en forma de ecuaciones, estos sistemas no solo aceleran el ritmo del descubrimiento, sino que también amplían la escala y la complejidad de los problemas que pueden abordarse.

La visión a largo plazo trasciende la idea de un simple asistente de laboratorio digital. Se perfila un futuro en el que los laboratorios autónomos ("self-driving laboratories") operen 24/7, utilizando robots para realizar experimentos, sensores para recopilar datos en tiempo real y agentes de IA como SR-Scientist para analizar los resultados y proponer la siguiente serie de experimentos. En este ciclo continuo, la IA no solo describe lo que sucede, sino que dirige activamente la exploración científica, guiando a los humanos hacia descubrimientos insospechados.

La implicación más inmediata es un cambio en el perfil de productividad de los científicos. La carga de trabajo asociada con la formulación de modelos, la calibración de parámetros y la validación de hipótesis se reduce drásticamente. Esto permite a los investigadores dedicar más tiempo a la conceptualización creativa, a la interpretación de resultados y a la transferencia de conocimiento a la sociedad. La colaboración entre humanos y máquinas se vuelve primordial.

El científico humano se convierte en un "curador de la verdad", responsable de validar la plausibilidad de las soluciones encontradas por el agente, interpretar su significado físico y guiar el experimento hacia objetivos más amplios y filosóficamente relevantes. La IA se encarga de la ardua tarea de la búsqueda combinatoria en el vasto espacio de las posibles ecuaciones, dejando al humano la tarea de la síntesis y la comprensión.

Esta tecnología también tiene el potencial de democratizar el acceso al descubrimiento científico. Si bien el entrenamiento de los modelos subyacentes requiere recursos masivos, el acceso a las herramientas de descubrimiento podría volverse más amplio y accesible. Un día, los estudiantes de secundaria podrían usar interfaces web para proponer sus propios experimentos y recibir sugerencias de ecuaciones que describan sus resultados.

Los pequeños laboratorios de investigación o las empresas emergentes podrían utilizar estos marcos para acelerar el desarrollo de nuevos productos o procesos sin necesidad de un equipo de modelado matemático dedicado. La capacidad de descubrir leyes científicas de manera automatizada podría cerrar brechas de conocimiento en áreas subfinanciadas o poco exploradas, fomentando un progreso más equitativo en la ciencia global.

Sin embargo, este futuro brillante viene acompañado de desafíos y dilemas éticos. Uno de los mayores obstáculos es garantizar la interpretabilidad y la fiabilidad de las soluciones encontradas por los agentes. ¿Cómo podemos confiar en una ecuación descubierta por un modelo de lenguaje cuyo razonamiento interno es una "caja negra"? Aunque la precisión simbólica es un indicador valioso, no garantiza la causalidad. Es posible que el agente encuentre una ecuación que se ajuste perfectamente a los datos pero que carezca de fundamento físico. Por lo tanto, la validación humana y la verificación experimental permanecerán como pilares indispensables del método científico.

Otro desafío es la calidad y el sesgo de los datos. El principio de que "basura entra, basura sale" sigue siendo aplicable; si los datos de entrenamiento o los datos experimentales están sesgados o contienen errores sistemáticos, el agente probablemente aprenderá y propagará esos mismos errores. Finalmente, surge la pregunta sobre el papel del fracaso en el aprendizaje científico. La ciencia a menudo avanza a través de hipótesis que se demuestran falsas. ¿Podrán los agentes de IA aprender de sus "fracasos" de una manera que imite la perseverancia y la capacidad de adaptación del científico humano?

En conclusión, SR-Scientist representa un hito en la convergencia de la inteligencia artificial y la ciencia. No es solo una herramienta más; es un prototipo de un nuevo socio en la aventura del conocimiento humano. Al superar las limitaciones de los métodos anteriores y demostrar un rendimiento superior en desafiantes problemas multidisciplinarios, abre la puerta a una nueva era de investigación científica.

A medida que estos sistemas evolucionen, nos enfrentaremos a la oportunidad de redescubrir las leyes de la naturaleza con una velocidad y una escala sin precedentes, redefiniendo no solo lo que sabemos, sino también el propio proceso por el cual lo descubrimos.

Referencias

Anthropic. claude-code. https://github.com/anthropics/claude-code, 2025.
Biggio, L., Bendinelli, T., Neitz, A., Lucchi, A., & Parascandolo, G. (2021). Neural symbolic regression that scales. arXiv preprint arXiv:2107.14351.
Cava, W. L., Orzechowski, P., Burlacu, B., de França, F. O., Virgolin, M., Jin, Y., ... & Moore, J. H. (2021). Contemporary symbolic regression methods and their relative performance. arXiv preprint arXiv:2107.14351.
Cranmer, M. (2023). Interpretable machine learning for science with pysr and symbolicregression.jl. arXiv preprint arXiv:2305.01582.
DeepSeek-AI et al. (2025). Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning. arXiv preprint arXiv:2501.12948.
Gao, J., Fu, W., Xie, M., et al. (2025). Beyond ten turns: Unlocking long-horizon agentic search with large-scale asynchronous rl. arXiv preprint arXiv:2508.07976.
Google. Gemini cli. https://github.com/google-gemini/gemini-cli, 2025.
Grayeli, A., Sehgal, A., Costilla-Reyes, O., Cranmer, M., & Chaudhuri, S. (2024). Symbolic regression with a learned concept library. arXiv preprint arXiv:2409.09359.
Hernandez, A., Balasubramanian, A., Yuan, F., Mason, S., & Mueller, T. (2019). Fast, accurate, and transferable many-body interatomic potentials by symbolic regression. arXiv preprint arXiv:1904.01095.
Kamienny, P., d’Ascoli, S., Lample, G., & Charton, F. (2022). End-to-end symbolic regression with transformers. In Advances in Neural Information Processing Systems (Vol. 35).
Landajuela, M., Lee, C. S., Yang, J., et al. (2022). A unified framework for deep symbolic regression. In Advances in Neural Information Processing Systems (Vol. 35).
Lemos, P., Jeffrey, N., Cranmer, M., Ho, S., & Battaglia, P. (2022). Rediscovering orbital mechanics with machine learning. arXiv preprint arXiv:2202.02306.
Ma, P., Wang, T.-H., Guo, M., et al. (2024). Llm and simulation as bilevel optimizers: A new paradigm to advance physical scientific discovery. arXiv preprint arXiv:2405.09783.
Novikov, A., Vũ, N., Eisenberger, M., et al. (2025). Alphaevolve: A coding agent for scientific and algorithmic discovery. arXiv preprint arXiv:2506.13131.
OpenAI. (2025). gpt-oss-120b & gpt-oss-20b model card. arXiv preprint arXiv:2508.10925.
Petersen, B. K., Landajuela, M., Mundhenk, T. N., et al. (2021). Deep symbolic regression: Recovering mathematical expressions from data via risk-seeking policy gradients. In 9th International Conference on Learning Representations.
Qin, Y., Ye, Y., Fang, J., et al. (2025). Ui-tars: Pioneering automated gui interaction with native agents. arXiv preprint arXiv:2501.12326.
Qwen. (2025). Qwen3 technical report. arXiv preprint arXiv:2505.09388.
Romera-Paredes, B., Barekatain, M., Novikov, A., et al. (2024). Mathematical discoveries from program search with large language models. Nature, 625(7995), 468–475.
Schneider, J. (2025). Generative to agentic ai: Survey, conceptualization, and challenges. arXiv preprint arXiv:2504.18875.
Shao, Z., Wang, P., Zhu, Q., et al. (2024). Deepseekmath: Pushing the limits of mathematical reasoning in open language models. arXiv preprint arXiv:2402.03300.
Shojaee, P., Meidani, K., Gupta, S., Farimani, A. B., & Reddy, C. K. (2024). Llm-sr: Scientific equation discovery via programming with large language models. arXiv preprint arXiv:2404.18400.
Shojaee, P., Nguyen, N.-H., Meidani, K., Farimani, A. B., Doan, K. D., & Reddy, C. K. (2025). Llm-srbench: A new benchmark for scientific equation discovery with large language models. arXiv preprint arXiv:2504.10415.
Virgolin, M., & Pissis, S. P. (2022). Symbolic regression is np-hard. arXiv preprint arXiv:2207.01018.
Wang, R., Wang, B., Li, K., Zhang, Y., & Cheng, J. (2025). Drsr: Llm based scientific equation discovery with dual reasoning from data and experience. arXiv preprint arXiv:2506.04282.
Yao, S., Zhao, J., Yu, D., Du, N., Shafran, I., Narasimhan, K. R., & Cao, Y. (2023). React: Synergizing reasoning and acting in language models. In The Eleventh International Conference on Learning Representations.
Zeng, A., Lv, X., Zheng, Q., et al. (2025). Glm-4.5: Agentic, reasoning, and coding (arc) foundation models. arXiv preprint arXiv:2508.06471.
Zeng, W., Huang, Y., Liu, Q., et al. (2025). Simplerl-zoo: Investigating and taming zero reinforcement learning for open base models in the wild. arXiv preprint arXiv:2503.18892.

De los datos a las leyes: el poder del agente SR-Scientist