La historia de las matemáticas está poblada de figuras solitarias. La imaginamos como un acto de pura introspección, la del matemático enclaustrado en su estudio, con la única compañía de una pizarra y el peso de un problema que consume sus noches. Es la imagen de Andrew Wiles trabajando en secreto durante siete años en el Último Teorema de Fermat; es la de Grigori Perelmán rechazando la Medalla Fields tras resolver la Conjetura de Poincaré. Es una narrativa de genio, aislamiento y una lucha casi ascética con la verdad abstracta.
Esa imagen, tan romántica como anacrónica, está empezando a resquebrajarse.
Un despacho reciente, publicado en el repositorio científico arXiv por el investigador Adil Salim, ofrece una instantánea de un modo radicalmente nuevo de hacer ciencia. El documento no es la proclamación de un teorema que cambia el mundo, al menos no directamente. Es algo quizás más fundamental: la transcripción de un diálogo, el cuaderno de bitácora de una colaboración entre una mente humana experta y una inteligencia artificial de última generación. El título, "Acelerando la investigación matemática con modelos de lenguaje", es de una modestia casi administrativa. Pero su contenido es un augurio.
El trabajo detalla la interacción de Salim con GPT-5-Pro, el último gran modelo de lenguaje de OpenAI, en la resolución de un problema de nicho, pero profundo, en el campo del análisis convexo. Lo que el documento revela no es a una máquina omnisciente que entrega respuestas definitivas, sino a un socio computacional. Un socio increíblemente rápido, asombrosamente erudito y, sin embargo, propenso a errores sutiles. Un socio que requiere un supervisor humano tan experto, o más, que los matemáticos solitarios de antaño.
Este artículo no es la crónica de un descubrimiento matemático, aunque lo incluye. Es la crónica del proceso. Es un estudio de caso de la primera expedición exitosa de lo que podríamos llamar un "centauro intelectual": una simbiosis humano-máquina que navega por los paisajes abstractos de la demostración pura.
Para el público no especializado, la investigación de Salim puede parecer hermética. El objetivo era "establecer una expansión de Taylor para el gradiente del operador de biconjugación". Cada uno de esos términos es un mundo en sí mismo. Pero para entender la magnitud de este experimento, no es necesario ser un matemático. Solo es necesario entender qué es lo que esta colaboración intentaba hacer y, lo que es más importante, cómo lo hizo.
El campo de batalla es el análisis convexo. En matemáticas, "convexo" tiene un significado intuitivo: un objeto es convexo si puedes trazar una línea recta entre dos puntos cualesquiera en su interior, y esa línea nunca se sale del objeto. Una esfera es convexa; un plátano no. En el mundo de las funciones, esto se traduce en una forma de "cuenco". La belleza de los "cuencos" convexos es que tienen un solo fondo. Tienen un punto mínimo, único y global. Esto hace que el "análisis convexo" sea el lenguaje de la optimización. Encontrar la mejor ruta para un avión, entrenar una red neuronal, diseñar una cartera de inversiones; todo esto es, en el fondo, un problema de encontrar el "fondo del cuenco".
Optimización Global
Análisis Convexo
Problema del Estudio
Gradiente del Operador de Biconjugación
El problema específico de Salim involucraba una herramienta particularly elegante de este campo: la transformada de Fenchel, también conocida como el operador de conjugación. Es un concepto de "dualidad", una forma de traducir un objeto matemático a un nuevo lenguaje, un universo espejo donde ciertas propiedades ocultas se vuelven obias. La "biconjugación", como su nombre indica, es el acto de aplicar este espejo dos veces. Para muchas funciones "bien comportadas", aplicar la transformada de Fenchel dos veces te devuelve a la función original, como si un doble reflejo restaurara la imagen.
Salim no estaba interesado solo en esto, sino en algo más sutil. Quería entender el "gradiente" (la pendiente o dirección de la cuesta en cada punto) de este operador de biconjugación. Y para entenderlo, quería usar una "expansión de Taylor", que es esencialmente la herramienta matemática estándar para crear un "mapa local" de alta precisión de una función en un punto determinado. Es como describir la curva de una carretera no por su destino, sino por su dirección y curvatura exactas en el lugar donde te encuentras.
Este era el desafío. Un problema real, novedoso y lo suficientemente complejo como para que la respuesta no estuviera en ningún libro de texto. Un terreno perfecto para probar los límites de un nuevo tipo de inteligencia.
El nuevo socio en el laboratorio
Lo que Salim describe en su artículo no es la experiencia de usar un super-calculador. Es la experiencia de gestionar a un postdoctorado brillante, hiperactivo y ocasionalmente descuidado. El modelo de lenguaje, GPT-5-Pro, no funcionó de forma autónoma. El proceso fue un diálogo constante. Salim planteaba la estrategia, el sistema de inteligencia artificial exploraba las vías, sugería teoremas relevantes de la literatura y, de forma crucial, intentaba probar "lemas" intermedios. Un lema es un mini-teorema, un peldaño que se debe asegurar antes de poder subir al siguiente.
El modelo demostró ser un acelerador formidable. Tareas que podrían llevarle a un investigador humano días o semanas de búsqueda bibliográfica y manipulación de ecuaciones, la máquina las realizaba en minutos. Sugirió conexiones que no eran obvias, desempolvando conceptos de rincones olvidados de la disciplina.
Este es un cambio de paradigma en el tempo de la investigación. La matemática es, en gran medida, un arte de "gestión del fracaso". Se prueban diez ideas, nueve de las cuales llevan a un callejón sin salida. La velocidad del nuevo socio computacional permite explorar esos callejones a una velocidad sin precedentes, podando las ramas muertas del árbol de la demostración casi instantáneamente.
El rol de Salim, por lo tanto, se desplazó. Menos tiempo dedicado al cálculo bruto y más tiempo dedicado a la estrategia, la intuición y, lo más importante, la verificación. El investigador humano se convirtió en el director de orquesta, un arquitecto que juzgaba la solidez de las piezas que su incansable asistente le iba trayendo.
Aceleración del Descubrimiento Científico
El impacto más inmediato fue la velocidad, reduciendo drásticamente el tiempo en tareas de exploración. El humano pudo centrarse en la estrategia de alto nivel.
| Tarea de Investigación | Esfuerzo Relativo (Humano Solo) | Esfuerzo Relativo (Humano + IA) |
|---|---|---|
| Búsqueda de Literatura | 80 unidades | 10 unidades |
| Formulación de Lemas | 100 unidades | 30 unidades |
| Prueba de Hipótesis | 90 unidades | 25 unidades |
| Revisión Final | 40 unidades | 35 unidades |
Proceso Tradicional
El investigador formula una hipótesis.
Búsqueda manual en literatura. Pruebas en pizarra. Múltiples callejones sin salida.
El 90% de los caminos fallan. El proceso se reinicia.
Eventualmente, se encuentra un camino.
Proceso "Centauro" (Humano + IA)
El humano define el objetivo y la estrategia.
La IA genera vías, sugiere literatura y prueba lemas intermedios.
El humano actúa como supervisor: valida, corrige y filtra.
Incluso un error de la IA puede inspirar la solución correcta.
Se llega a una prueba robusta en tiempo récord.
La documentación de este proceso es la principal contribución de Salim. Muestra cómo la máquina podía tomar un boceto de demostración del humano y formalizarlo, rellenando los huecos lógicos. Muestra al humano corrigiendo el rumbo de la máquina, identificando supuestos ocultos que el modelo había pasado por alto. Es una danza de ida y vuelta.
La anatomía de un error productivo
Si la historia terminara ahí, sería simplemente una de eficiencia. Pero la parte más fascinante del estudio de Salim es el análisis de los errores del sistema. La inteligencia artificial no era infalible. Y sus fallos no eran simples errores de cálculo, que un programa de álgebra simbólica no cometería. Eran errores de razonamiento.
En una de las transcripciones de la interacción, Salim señala lacónicamente: "El modelo vuelve a estar confundido sobre quién es z". El sistema había perdido el hilo de sus propias variables. En el contexto de una demostración matemática, esto es un error fatal. Es como construir un argumento impecable sobre la premisa de que "z" es un número en un lugar determinado, para luego olvidarlo y tratarlo como si estuviera en otro lugar completamente distinto.
Un supervisor humano menos atento podría haber aceptado la florida prosa matemática del modelo, que con confianza presentaba su resultado defectuoso. Pero Salim, como experto en la materia, detectó la incongruencia. El edificio lógico se derrumbaba.
Aquí es donde la historia da un giro. Tras identificar el error, Salim no descartó simplemente la línea de investigación. Se dio cuenta de que la estructura de la demostración fallida del modelo, aunque incorrecta, era interesante. La máquina había tropezado con una idea, un "truco" para acotar una de las expresiones, que el propio Salim no había considerado.
El investigador comenta en el artículo: "nuestra demostración final utiliza una cota similar". La inteligencia artificial, en su error, había sugerido un camino lateral. Fue un error productivo. No fue una alucinación inútil, sino una sugerencia creativa que, una vez filtrada y corregida por el rigor del experto humano, se convirtió en una pieza clave de la solución final.
Pregunta del Experto
Respuesta de IA
(Contiene un error sutil)
Ruta del Novato
Acepta el error o se atasca. Callejon sin salida.
Ruta del Experto
1. Detecta el error.
2. Analiza la estructura del error.
3. Obtiene una nueva idea.
4. Resuelve el problema.
Este incidente encapsula la naturaleza de esta nueva simbiosis. El modelo de lenguaje no es un oráculo. Es un generador de ideas, un proponente de hipótesis. Su "comprensión" de las matemáticas no es como la de un humano; carece de una base sólida (lo que los expertos llaman grounding) y de una verdadera intención. Pero su capacidad para navegar por el vasto espacio de las posibilidades combinatorias y lingüísticas de las matemáticas le permite generar resultados que son, para un experto humano, "inspiradores".
Más allá de la puntuación
El trabajo de Salim también es una crítica implícita a cómo hemos estado midiendo el progreso de la inteligencia artificial. Durante años, hemos confiado en "benchmarks": baterías de exámenes estandarizados. Le pasamos a un modelo miles de preguntas de matemáticas de secundaria o de olimpiadas universitarias y contamos las respuestas correctas.
El propio resumen de Salim señala que esta metodología se está quedando obsoleta. A medida que los modelos mejoran, evaluarlos se vuelve más difícil. Los problemas deben tener una dificultad precisa: ni demasiado fáciles (para que no sean triviales) ni demasiado difíciles (para que el fracaso sea total y no se aprenda nada).
La evaluación ya no puede reducirse a una única puntuación numérica. Requiere, como demuestra este estudio, una "supervisión experta". El verdadero valor de GPT-5-Pro no se mide por cuántos problemas de libro de texto puede resolver, sino por su utilidad como asistente en una nueva investigación.
Contribución de la IA al Resultado
La verdadera contribución no fue solo la precisión, sino la capacidad de inspirar y acelerar, redefiniendo el valor de la IA más allá de una simple "nota".
-
Inspiración Humana:
40%
-
Velocidad / Aceleración:
25%
-
Generación de Nuevas Ideas:
25%
-
Precisión de la Respuesta Final:
10%
El "lema" que Salim y el modelo terminaron probando puede que no sea, como él mismo admite, una novedad revolucionaria. Su novedad no se reivindica "con certeza". Pero eso es irrelevante. El problema sirvió como un "gimnasio" perfecto. El valor no es el destino, sino el viaje documentado. Este artículo es, en sí mismo, la evaluación. Es un informe de campo que dice: "Aquí están las fortalezas (velocidad, amplitud), aquí están las debilidades (errores sutiles de razonamiento), y aquí está cómo un experto puede navegar esta colaboración para lograr un resultado tangible".
La catedral y el andamio
Una demostración matemática, en su forma final publicada, es como una catedral. Es una estructura de lógica perfecta, pulida, sin fisuras, donde cada pieza encaja con precisión inevitable. No hay nada superfluo. No se ve el sudor, la sangre ni los callejones sin salida que se necesitaron para construirla. La matemática, como dijo el famoso Carl Friedrich Gauss, es un edificio donde se retiran los andamios una vez terminado.
El artículo de Adil Salim es revolucionario porque se niega a retirar el andamio. Por el contrario, lo documenta con un detalle sin precedentes. Y lo que es más, nos muestra que el andamio mismo se ha vuelto "inteligente".
La inteligencia artificial es ese andamio. Es la estructura temporal que permite al arquitecto (el matemático humano) probar diseños, levantar vigas pesadas (lemas intermedios) y comprobar la estabilidad de un arco antes de comprometerse con él. A veces, el andamio sugiere una forma, un contrafuerte que el arquitecto no había imaginado. Y a veces, el andamio se coloca mal, y es el arquitecto quien debe detectar el peligro antes de que todo se derrumbe.
Esta metáfora nos aleja del sensacionalismo. No se trata de "la IA que reemplaza a los matemáticos". Se trata de una herramienta que cambia fundamentalmente la práctica de la matemática. El matemático del futuro puede parecerse menos a un monje solitario y más a un piloto de un traje de exoesqueleto intelectual, capaz de realizar proezas de razonamiento que antes eran imposibles.
Un nuevo horizonte para el descubrimiento
El estudio de Salim es una sola instancia, un único problema en un vasto océano de conocimiento. Pero sus implicaciones son profundas.
Científicamente, abre la puerta a una aceleración de la investigación. Si un equipo "centauro" de humano y máquina puede resolver un lema de análisis convexo en un tiempo reducido, ¿qué podría hacer un equipo similar en física de partículas, en ciencia de materiales o en biología de sistemas? Estamos en el umbral de una era donde la capacidad de generar y probar hipótesis podría aumentar en órdenes de magnitud.
Tecnológicamente, nos muestra la frontera del desarrollo de la IA. El objetivo ya no es solo construir modelos que respondan preguntas, sino modelos que puedan participar en un razonamiento sostenido, multi-paso y colaborativo. También subraya una verdad incómoda: a medida que estos sistemas se vuelven más capaces, la necesidad de una supervisión experta y de un rigor intelectual humano no disminuye, sino que se vuelve más crítica.
Socialmente, esta investigación nos ofrece un modelo más saludable para pensar en nuestro futuro con la inteligencia artificial. No es una narrativa de reemplazo, sino de aumento. El valor supremo reside en la interfaz, en la calidad del diálogo entre el humano y la máquina.
El Futuro: Un "Centauro"
Un asistente increíblemente rápido, amplio y creativamente "ingenuo". Es un generador de hipótesis y un explorador incansable.
El estratega, el supervisor experto y el guardián del rigor. Su trabajo es hacer las preguntas correctas y, lo más importante, extraer la señal del ruido, convirtiendo incluso los errores en inspiración.
El documento de Adil Salim pasará a la historia no por el lema que prueba, sino por la colaboración que documenta. Es el primer borrador de la gramática de un nuevo lenguaje, un lenguaje en el que los humanos y las máquinas pueden razonar juntos. Es la crónica de un nuevo tipo de descubrimiento, uno que no es puramente humano ni puramente maquínico, sino una síntesis de ambos. Es la primera demostración rigurosa del teorema del centauro.
Referencias
Salim, A. (2025, 31 de octubre). Accelerating mathematical research with language models: A case study of an interaction with GPT-5-Pro on a convex analysis problem. arXiv:2510.26647v1 [math.OC]. https://arxiv.org/pdf/2510.26647



