La física ya no es solo humana: P1 y la nueva era del razonamiento científico
Hay un silencio particular en las salas donde se celebra la Olimpiada Internacional de Física (IPhO). Es el sonido de decenas de las mentes jóvenes más brillantes del planeta enfrentándose a problemas que rozan los límites de su comprensión. Estos desafíos no son meros ejercicios de libro de texto; son pruebas de intuición, creatividad y un dominio profundo del lenguaje con el que, creemos, está escrito el universo: la física. Requieren la capacidad de mirar un escenario complejo, descomponerlo en sus principios fundamentales, construir un modelo matemático desde cero y, a veces, incluso imaginar el experimento que revelaría la respuesta. Durante décadas, este ha sido un bastión inexpugnable del intelecto humano.
Hasta ahora. Un nuevo contendiente ha entrado en esta arena, uno que no respira, no duda y no ha pasado años bajo la tutela de profesores, sino que ha aprendido a pensar como un físico en un torbellino de autoexploración computacional. Su nombre es P1, y es una familia de modelos de inteligencia artificial desarrollada por un nutrido equipo del Laboratorio de IA de Shanghái. En una demostración de capacidad que redefine nuestra frontera entre el cálculo y la cognición, la versión más avanzada de este sistema, P1-235B-A22B, se ha convertido en la primera entidad no humana en alcanzar el rendimiento de una medalla de oro en la IPhO.
P1-235B-A22B es el primer sistema en la historia en superar el umbral de medalla de oro en la Olimpiada Internacional de Física, un hito que elude incluso a los LLMs más grandes del mercado.
Este logro trasciende la mera competición. Lo que el equipo de Shanghái ha presentado no es simplemente otro modelo de lenguaje gigante, como los que ya dominan nuestro panorama tecnológico. De hecho, P1 supera con creces a los sistemas más avanzados y conocidos, incluido el formidable GPT-4o de OpenAI, en esta tarea específica. La razón de su éxito es una revolución en el método. P1 no fue entrenado simplemente absorbiendo la totalidad de internet y aprendiendo a predecir la siguiente palabra. Fue forjado, de manera deliberada, a través de un riguroso régimen de aprendizaje por refuerzo (RL), una técnica que imita el aprendizaje humano mediante el ensayo, el error y la recompensa.
En esencia, los investigadores crearon un estudiante digital y, a su lado, un profesor digital implacable. El estudiante, P1, genera sus propias hipótesis y soluciones a problemas de física endiabladamente complejos. El profesor, un modelo de recompensa también basado en IA, no se limita a comprobar la respuesta final. En su lugar, analiza meticulosamente cada paso del razonamiento: la derivación de la fórmula, la lógica simbólica, la precisión del cálculo. Si el razonamiento es defectuoso, la recompensa es nula, incluso si la respuesta es casualmente correcta. Este bucle de retroalimentación constante obliga a P1 a explorar, refinar y, en última instancia, comprender los principios de la física, no solo a recitarlos.
Genera múltiples hipótesis de solución
Evalúa la lógica paso a paso
Auto-mejora basada en recompensas
El resultado es un sistema híbrido que domina las tres columnas del razonamiento físico. Posee una mente simbólica, capaz de manipular el álgebra y las ecuaciones abstractas como un teórico. Posee una mente numérica, que ejecuta cálculos de alta precisión con la fiabilidad de una supercomputadora. Y, lo más asombroso, posee una mente experimental. Si se enfrenta a una variable desconocida en un problema, P1 es capaz de diseñar, codificar y ejecutar un experimento dentro de un entorno simulado para descubrir ese valor por sí mismo. Es esta trinidad de capacidades la que lo distingue, y la que ha producido una puntuación olímpica.
El trabajo del laboratorio de Shanghái, publicado en un exhaustivo informe técnico, no solo presenta un campeón, sino que también ofrece un mapa. Al hacer que P1 y sus métodos sean de código abierto, han invitado a la comunidad científica global a construir sobre sus cimientos. Estamos asistiendo al nacimiento de una nueva clase de herramientas de IA, diseñadas no para imitar la conversación humana, sino para aumentar nuestra capacidad de descubrimiento científico. La física, la piedra angular de cómo entendemos la realidad, tiene ahora un nuevo aprendiz.
El desafío de la física real
Para apreciar la magnitud de lo que P1 ha conseguido, primero hay que entender por qué la física es un muro tan formidable para la inteligencia artificial. Los modelos de lenguaje grandes (LLM) que han maravillado al mundo en los últimos años son, en su núcleo, maestros de la estadística y el contexto lingüístico. Han ingerido billones de palabras y han aprendido las intrincadas relaciones entre ellas. Pueden escribir un soneto, redactar un correo electrónico o resumir un texto complejo porque son expertos en la sintaxis de la comunicación humana.
Pero la física opera bajo una gramática diferente: las matemáticas. Y, a diferencia del lenguaje, esta gramática está indisolublemente ligada a la realidad. Un modelo de lenguaje puede escribir la ecuación F=ma porque la ha visto innumerables veces. Pero eso no implica que entienda su significado; que la fuerza es un vector, que la masa es una propiedad escalar de la inercia, o qué le sucede a la aceleración si la fuerza se duplica. Es la diferencia entre un loro que puede decir quiero una galleta y un niño que realmente siente hambre.
Los sistemas de IA generalistas tropiezan aquí. Su comprensión es superficial, basada en patrones de texto. Pueden resolver problemas que han visto antes en sus datos de entrenamiento, pero se desmoronan cuando se enfrentan a la verdadera creatividad que exige la IPhO. Los problemas olímpicos están diseñados específicamente para ser nuevos. Prueban la capacidad de un estudiante para transferir conocimientos de un dominio a otro, para identificar principios ocultos y para construir una solución desde la nada.
Aquí es donde los modelos generalistas fallan. Pueden ofrecer una solución que parece plausible, pero que a menudo contiene errores lógicos sutiles, alucinaciones matemáticas o una aplicación incorrecta de un principio. No poseen lo que los físicos llaman intuición o sentido físico. No tienen un anclaje, o grounding en la jerga técnica, con el mundo real o sus leyes. Son calculadoras estocásticas de palabras, no motores de razonamiento. El equipo de P1 se propuso construir precisamente eso: un motor cuyo combustible no fueran las palabras, sino las reglas del universo.
La arquitectura de un estudiante digital
El sistema P1 no nació sabio. Su educación fue un proceso meticuloso, dividido en fases, diseñado para construir capas de habilidad de la misma manera que lo haría un humano. La base del sistema es un modelo de lenguaje, pero uno que fue sometido a un entrenamiento especializado que lo aleja de sus orígenes generalistas.
La formación de esta arquitectura comenzó con una fase de ajuste supervisado. En esta etapa, el modelo fue alimentado con un vasto corpus de problemas de física y sus soluciones, extraídos de libros de texto y recursos educativos. Esto le proporcionó los conocimientos fundamentales: el vocabulario de la física, las ecuaciones estándar y las técnicas comunes de resolución de problemas. Fue su educación primaria.
Sin embargo, la verdadera innovación reside en la segunda etapa: el aprendizaje por refuerzo. Los investigadores comprendieron que para superar los problemas predefinidos, el sistema necesitaba aprender a explorar. Aquí es donde entra en juego la dualidad del profesor y el estudiante.
El profesor, o modelo de recompensa, fue entrenado para ser un juez extraordinariamente exigente. Se le enseñó a preferir soluciones que no solo fueran correctas, sino también lógicamente sólidas, elegantes y bien razonadas. Esto se conoce como supervisión del proceso. El modelo de recompensa aprendió a evaluar cada paso intermedio de una solución. Una deducción brillante era recompensada, mientras que un salto lógico, incluso si llevaba a la respuesta correcta, era penalizado. Este profesor digital se convirtió en el árbitro de la calidad del pensamiento.
Con este juez en su lugar, el estudiante, el agente P1, comenzó su entrenamiento avanzado. El proceso es un bucle virtuoso de auto-mejora. P1 recibe un problema. En lugar de dar una sola respuesta, genera múltiples trayectorias de solución, como un estudiante que prueba varios enfoques en un borrador. Estas soluciones candidatas son enviadas al modelo de recompensa, que las califica.
P1 recibe esta retroalimentación. Las soluciones que obtuvieron una alta puntuación, es decir, las que eran lógicamente sólidas, se utilizan para actualizar los propios parámetros internos del modelo. En efecto, el sistema aprende a pensar más como sus propias mejores versiones. Este ciclo se repite millones de veces. El modelo genera un problema, intenta resolverlo, es calificado por su profesor interno y ajusta su cerebro para mejorar.
Este método de autoexploración es profundamente poderoso. Libera a la IA de los confines de los datos de entrenamiento existentes. Ya no se limita a las soluciones que los humanos han escrito antes. Puede tropezar, descubrir y refinar sus propias estrategias. Aprende a razonar porque el razonamiento es el único comportamiento que su implacable profesor interno recompensa.
Las tres mentes de P1: simbólica, numérica y experimental
El verdadero avance de P1 no es solo su método de entrenamiento, sino lo que ese entrenamiento le permite hacer. El sistema no es una mente monolítica; opera como un conjunto de herramientas cognitivas especializadas, un triunvirato de razonamiento que le permite diseccionar un problema de física desde todos los ángulos.
El físico teórico. Manipula abstracciones y leyes fundamentales sin necesidad de números, evitando errores algebraicos comunes en otros modelos.
El físico aplicado. Sabe cuándo dejar de pensar y empezar a calcular, escribiendo y ejecutando código Python para obtener precisión absoluta.
El laboratorio virtual. Diseña simulaciones para descubrir datos faltantes (como coeficientes de fricción) y retroalimenta al modelo teórico.
La primera es su capacidad de razonamiento simbólico. Esta es la mente del físico teórico. P1 puede tomar los principios fundamentales de un problema y manipularlos como puras abstracciones. Puede realizar álgebra compleja, derivar nuevas ecuaciones, aislar variables y simplificar expresiones matemáticas sin necesidad de insertar un solo número. Esta es la forma más elevada de razonamiento en física, la habilidad de trabajar con las leyes mismas, no solo con sus resultados. Los modelos de lenguaje generalistas suelen fracasar estrepitosamente en esta tarea, cometiendo errores algebraicos básicos. P1, en cambio, demuestra una gran solidez en la manipulación de las matemáticas abstractas que sustentan la física.
La segunda es su capacidad de cálculo numérico. Esta es la mente del físico aplicado. Una vez que se ha derivado la ecuación simbólica correcta, se necesita una respuesta concreta. Aquí, P1 demuestra otra habilidad sofisticada: el uso de herramientas. El sistema no intenta realizar cálculos complejos en su cabeza, es decir, dentro de sus propias predicciones de texto. En su lugar, ha aprendido a escribir y ejecutar código en un intérprete de Python, utilizándolo como una calculadora de precisión infalible. Sabe cuándo dejar de pensar en símbolos y empezar a calcular con números. Esta integración de una herramienta externa es vital, ya que elimina los errores de cálculo que plagan a otros modelos y refleja cómo trabajan los propios científicos humanos.
La tercera y más revolucionaria capacidad es el razonamiento experimental. Esta es la mente del físico experimental, y es algo que se creía fuera del alcance de la IA. Los problemas de la Olimpiada a veces incluyen variables desconocidas que no se pueden derivar, como el coeficiente de fricción de una superficie o la densidad de un fluido. Un estudiante humano tendría que diseñar un experimento para encontrarlo. P1 hace exactamente eso, pero en un laboratorio virtual.
El sistema es capaz de identificar cuándo falta una pieza de información. A continuación, diseña un experimento simulado para encontrarla. Escribe el código para esta simulación, por ejemplo, simular un bloque deslizándose por un plano inclinado, ejecuta la simulación, recopila los datos, como el tiempo que tardó el bloque, y luego utiliza esos datos recién adquiridos para introducirlos en su modelo simbólico y resolver el problema original. Se trata de un bucle completo del método científico, hipótesis, experimento, análisis, ejecutado por una máquina en cuestión de segundos.
Es la sinergia de estas tres mentes, el teórico, el calculista y el experimentador, lo que le da a P1 su poder. Puede abordar un problema, decidir qué herramienta cognitiva es la adecuada y aplicarla con precisión.
Los resultados: el oro y la brecha con el silicio
El campo de batalla elegido para probar a P1 fue un conjunto de problemas de las finales de la IPhO de los últimos años. Los resultados, detallados en el informe técnico, son inequívocos.
La versión más potente, P1-235B-A22B, alcanzó una puntuación que la sitúa cómodamente dentro del umbral de la medalla de oro. Esto, en sí mismo, es un hito histórico. Pero el contexto hace que el logro sea aún más impresionante. Los investigadores compararon el rendimiento de P1 con el de todos los modelos de IA de frontera existentes, incluidos los pesos pesados como GPT-4o, Claude 3 Opus y otros.
La diferencia fue abrumadora. P1 superó al competidor más cercano por un margen significativo. Mientras que los modelos generalistas luchaban, P1 resolvía los problemas con consistencia y solidez. El informe muestra cómo los sistemas como GPT-4o a menudo fallan en la derivación simbólica o cometen errores conceptuales fundamentales, mientras que P1, gracias a su entrenamiento especializado, navega por estos escollos con facilidad.
La lección aquí es profunda. En la carrera por la inteligencia artificial, la escala no lo es todo. Simplemente construir modelos más y más grandes, entrenados con más y más datos de internet, puede no ser el camino hacia el verdadero razonamiento. P1 es un sistema comparativamente más pequeño que los gigantes como GPT-4o, pero su rendimiento en esta tarea especializada es superior. Es la victoria de la profundidad sobre la anchura. Es un bisturí de precisión frente a una navaja suiza. El entrenamiento enfocado, el aprendizaje por refuerzo y la arquitectura diseñada para el razonamiento científico demostraron ser más eficaces que la fuerza bruta estadística de los modelos generalistas.
Más allá de las medallas
El hecho de que una IA pueda ganar una medalla de oro en física es un titular llamativo, pero el verdadero significado de este trabajo se encuentra en lo que representa para el futuro. El objetivo del Laboratorio de IA de Shanghái no es acumular trofeos, sino construir herramientas que puedan acelerar el descubrimiento científico.
El impacto científico es inmediato. Un sistema capaz de razonar simbólicamente y diseñar experimentos virtuales podría convertirse en un colaborador indispensable para los investigadores. Podría usarse para explorar problemas en física de materiales, mecánica de fluidos, o incluso para ayudar a diseñar los complejos sistemas de control para reactores de fusión. Podría examinar conjuntos de datos del Gran Colisionador de Hadrones y proponer nuevas teorías que los humanos no hayan considerado.
El impacto tecnológico también es inmenso. El marco de autoexploración mediante aprendizaje por refuerzo es una receta que puede aplicarse a otros dominios. Lo que P1 ha hecho por la física, futuros sistemas podrían hacerlo por la química, la biología o la ingeniería. Podríamos ver IAs que diseñen nuevas moléculas de fármacos, optimicen rutas metabólicas para biocombustibles o resuelvan problemas de logística a escala global.
Finalmente, existe la relevancia social y estratégica de la decisión del equipo de P1 de hacer su trabajo de código abierto. En una era en la que muchos de los modelos más potentes se mantienen bajo llave por corporaciones privadas, esta medida democratiza el acceso a la IA de vanguardia. Laboratorios universitarios, instituciones de investigación y startups de todo el mundo pueden ahora descargar P1, analizar su funcionamiento, mejorarlo y adaptarlo a nuevos desafíos. Es un acto que prioriza el avance colectivo del conocimiento sobre la ventaja comercial.
No estamos presenciando el reemplazo de los científicos humanos. Estamos viendo la creación de un nuevo tipo de microscopio, uno que no nos permite ver cosas más pequeñas, sino pensar en cosas más complejas. La física es nuestro intento más profundo de hacer preguntas al universo y entender sus respuestas. Con herramientas como P1, puede que estemos a punto de iniciar una conversación completamente nueva.
Fuentes
Chen, J., Cheng, Q., Yu, F., Wan, H., Zhang, Y., Zheng, S., Yao, J., Zhang, Q., He, H., Luo, Y., Zhao, Y., Wang, F., Sheng, L., Xie, C., Zuo, Y., Li, Y., Zeng, W., Wu, Y., Huang, R., Zhou, D., Chen, K., Qiao, Y., Bai, L., Cheng, Y., Ding, N., Zhou, B., Ye, P., & Cui, G. (2025). P1: Mastering Physics Olympiads with Reinforcement Learning. arXiv:2511.13612 [cs.LG]. https://arxiv.org/pdf/2511.13612



