NEWSLETTER

El muro invisible: menos del 70% de problemas matemáticos avanzados al alcance de IA

Generated Image October 28, 2025 - 2_31AM

El muro invisible: menos del 70% de problemas matemáticos avanzados al alcance de IA

El muro invisible: menos del 70% de problemas matemáticos avanzados al alcance de IA
Análisis de Epoch AI revela que GPT-5 alcanza techo de 46% en FrontierMath tras 32 intentos, y combinando todos los modelos existentes solo 57% de problemas se resolvieron alguna vez, proyectando límite arquitectónico fundamental

Greg Burnham de Epoch AI publicó análisis revelando límites arquitectónicos fundamentales de modelos de lenguaje grande actuales confrontando FrontierMath, benchmark de cientos de problemas matemáticos originales excepcionalmente desafiantes elaborados y verificados por matemáticos expertos. Mejor performance observada en ejecución única de modelo alcanza 29% usando GPT-5, número práctico que usuarios deben considerar al querer resolver problemas estilo FrontierMath. Pero investigación explora pregunta más prospectiva: ¿cuántos problemas de FrontierMath han sido resueltos por cualquier modelo, en cualquier ejecución, incluso una vez? Esta métrica revela más sobre qué está "al alcance" para modelos actuales, siendo más prospectiva porque si modelos actuales pueden generar ideas correctas para resolver problema, hace más probable que modelos futuros puedan resolver problema confiablemente.

Burnham condujo 32 ejecuciones de GPT-5 descubriendo que FrontierMath no está muerto todavía. Pass@N en estas ejecuciones muestra crecimiento sub-logarítmico y parece alcanzar techo debajo de 50%. Pero un modelo solo no cuenta historia completa: Epoch AI acumuló montón de ejecuciones de otros modelos igualmente relevantes para entender qué probablemente será solucionable confiablemente pronto. Combinando todas da pass@the-kitchen-sink de 57%, significando cuántos problemas fueron resueltos por cualquier modelo en cualquier ejecución. Moviéndose hacia territorio especulativo, estimación sugiere que incluso ejecutando repetidamente todos estos modelos alcanzaría techo debajo de 70%, revelando que aproximadamente 20-30% de FrontierMath permanece fundamentalmente fuera de alcance para paradigma actual de inteligencia artificial.

Investigación tiene implicaciones profundas para entender límites de arquitecturas actuales de IA. Evidencia empírica sugiere que si ejecutas modelo de lenguaje grande en benchmark N veces, porcentaje de problemas correctamente resueltos al menos una vez (conocido como pass@N) aumenta proporcionalmente a log(N). Si esto fuera cierto generalmente, dado que log(N) es ilimitado, deberíamos esperar pass@N aproximarse a 100% conforme modelos reciben más intentos. ¿Podría saturación de FrontierMath ya estar tan claramente a la vista? Datos empíricos refutan esta hipótesis optimista contundentemente, mostrando crecimiento sub-logarítmico que sugiere techo arquitectónico duro en lugar de progreso asintótico hacia perfección.

Performance Práctica

29%
GPT-5 en ejecución única
(lo que usuarios experimentan)

Techo Proyectado

~70%
Límite estimado combinando
todos modelos con intentos infinitos

Rendimientos decrecientes: cada duplicación añade menos

Tabla detallada de pass@N para GPT-5 revela patrón claro de rendimientos decrecientes. Con N=1, GPT-5 resuelve 29% de problemas. Duplicar a N=2 incrementa pass@N a 35%, ganancia de 5.4%. Segunda duplicación a N=4 añade solo 4.5%, tercera duplicación a N=8 añade 3.3%, cuarta a N=16 añade 2.1%, y quinta a N=32 añade mero 1.5%. Cada duplicación de intentos produce ganancia menor que duplicación previa, patrón característico de función con asíntota horizontal en lugar de crecimiento logarítmico ilimitado. En promedio, ganancias de duplicar disminuyeron aproximadamente 1% absoluto con cada duplicación. Extrapolando, veríamos ganancia de 0.5% conforme N va de treinta y dos a sesenta y cuatro, y eso sería todo.

Quizás hay cola más larga, pero como estimación aproximada de número redondo, parece probable que pass@N aquí alcanzaría techo debajo de 50%. Para sanity check, Burnham aleatoriamente seleccionó diez problemas que no fueron resueltos en ninguna de estas ejecuciones, y muestreó cada uno cien veces adicionales, para 132 total (aproximadamente dos duplicaciones más). Ninguno de estos problemas fue resuelto ni una vez. Esto es consistente con datos observados: no esperaríamos que muestra de diez problemas encuentre uno de pocos problemas que podrían estar al alcance de dos duplicaciones más. Pero esto al menos descarta posibilidad de que haya mina de oro de problemas que GPT-5 puede resolver si solo se le dan cien oportunidades más.

Intentos (N) Pass@N Ganancia de 2x Diferencia en Ganancia # Resueltos
1 29% -- -- 85
2 35% 5.4% -- 101
4 39% 4.5% -0.9% 114
8 43% 3.3% -1.2% 123
16 45% 2.1% -1.1% 130
32 46% 1.5% -0.6% 134

Pass@the-kitchen-sink: combinando arsenal completo de industria

¿Qué sobre modelos distintos a GPT-5, o scaffolds distintos al de Epoch? Es desordenado pero al menos podemos observar surtido de ejecuciones de FrontierMath que Epoch ha acumulado con tiempo. Llamamos esto pass@the-kitchen-sink, y actualmente nuestro fregadero está lleno desde siguientes seis cubetas: 32 ejecuciones de GPT-5 descritas arriba, 52 ejecuciones de varios modelos de varios desarrolladores desde hub de benchmarking de Epoch, 16 ejecuciones de ChatGPT Agent conducidas por OpenAI y calificadas por Epoch, 1 ejecución de Gemini 2.5 Deep Think evaluada manualmente, 20 ejecuciones de o4-mini conducidas hace meses como parte de exploración abierta, y 6 ejecuciones misceláneas conducidas experimentando con o4-mini, Gemini 2.5 Pro, y Grok 4.

Juntas dan pass@the-kitchen-sink de 57%, o 165/290 problemas resueltos. De estos problemas, 140 son resueltos en al menos dos cubetas. Esto sugiere que modelos no tienen perfiles de habilidad muy diferentes, incluso aquellos de diferentes desarrolladores: si un modelo puede resolverlo, otro probablemente también puede. Notable desviación de esto es ChatGPT Agent, que resolvió 14 problemas (5%) que ningún otro modelo resolvió. Hay explicación saliente: es único modelo aquí con acceso a herramienta de búsqueda web. Aunque FrontierMath no contiene problemas puros de "búsqueda", tiene algunos problemas que deben resolverse adaptando apropiadamente conocimiento algo oscuro, entonces esperamos que búsqueda web ayude.

32 ejecuciones de GPT-5 solo resolvieron un problema único: Dato más sorprendente es que 32 ejecuciones masivas de GPT-5 solo agregaron un problema que no habíamos visto resuelto en ninguna otra ejecución previa. Esto indica que diversidad marginal de capacidad entre ejecuciones múltiples del mismo modelo es extremadamente limitada, sugiriendo que problemas no resueltos requieren saltos cualitativos de capacidad en lugar de simplemente más intentos del mismo sistema.

Estimando techo absoluto: ¿dónde pass@the-kitchen-sink alcanza límite?

Tenemos estimaciones limpias para GPT-5 y ChatGPT Agent. Conservadoramente asumiendo que ganancias de ejecuciones adicionales serían disjuntas, eso añadiría 7% en límite, para total acumulativo de 64%. No tenemos forma tan buena de predecir qué todos otros modelos añadirían si re-ejecutados repetidamente. Podemos al menos notar que a través de todas ejecuciones existentes, resuelven 46% de problemas, pero solo 13 problemas (5%) que ni GPT-5 ni ChatGPT Agent resolvieron. Esto sugiere diversidad marginal bastante baja, aunque no podemos descartar que uno de estos modelos rompería hacia nuevo territorio si re-ejecutado repetidamente.

Para propósito de número final, Burnham asume que este pool tiene tanto jugo restante para exprimir como ChatGPT Agent, la mayor de dos estimaciones previas. Nuevamente conservadoramente asumiendo que estas ganancias serían disjuntas, esto da techo total de 70%. En lanzamiento original de FrontierMath, Epoch estimó que 7% de problemas eran erróneos, debido a ambigüedades fatales en enunciado del problema o problemas en clave de respuesta o script de verificación. Epoch recopila errores conforme los encuentra y actualizará benchmark periódicamente, entonces este número disminuirá con tiempo. Actualmente solo tienen conocimiento de errores no corregidos en 2% de problemas. Conservadoramente tomando tasa de error como 10%, quedamos con 20% de problemas FrontierMath probablemente fuera de alcance para modelos actuales.

"Estos son extremadamente desafiantes. Creo que en corto plazo, básicamente única forma de resolverlos es mediante combinación de semi-experto como estudiante graduado en campo relacionado, quizás emparejado con alguna combinación de IA moderna y muchos otros paquetes de álgebra." — Terence Tao, Medallista Fields 2006

FrontierMath: benchmark que resiste saturación

FrontierMath fue diseñado para ser mucho más difícil que benchmarks matemáticos tradicionales que modelos IA ya conquistaron. En benchmarks como GSM-8K y MATH, sistemas IA líderes ahora puntúan sobre 90%, pero esas pruebas están aproximándose a saturación. Un problema mayor es contaminación de datos: modelos IA frecuentemente se entrenan en problemas que se parecen estrechamente a aquellos en conjuntos de prueba, haciendo su performance menos impresionante de lo que podría parecer inicialmente. En contraste, problemas FrontierMath son enteramente nuevos y no publicados, específicamente elaborados para prevenir fuga de datos. Estos no son tipos de problemas que pueden resolverse con memorización básica o reconocimiento de patrones.

Problemas en FrontierMath demandan comprensión teórica profunda, insight creativo, y expertise especializado, frecuentemente requiriendo múltiples horas de esfuerzo de matemáticos expertos para resolver. Epoch AI colaboró con más de 60 matemáticos líderes de instituciones prominentes, incluyendo profesores, escritores de preguntas IMO, y medallistas Fields. Problemas abarcan ramas principales de matemáticas modernas: desde problemas computacionalmente intensivos en teoría de números y análisis real hasta preguntas abstractas en geometría algebraica y teoría de categorías. Resolver problema típico requiere múltiples horas de esfuerzo de investigador en rama relevante de matemáticas, y para preguntas de extremo superior, múltiples días.

FrontierMath enfoca exclusivamente en problemas con soluciones automáticamente verificables: primariamente respuestas numéricas u objetos matemáticos que pueden expresarse como objetos SymPy (incluyendo expresiones simbólicas, matrices, conjuntos, y otras estructuras matemáticas). Para cada problema, modelo evaluado envía código que computa y guarda su respuesta como objeto Python. Script entonces automáticamente verifica esta respuesta checando coincidencias exactas en caso de enteros, o usando evaluación SymPy para verificar que diferencia entre respuesta enviada y respuesta actual simplifica a cero. Este sistema de verificación automática permite evaluación escalable minimizando esfuerzo manual de calificación mientras mantiene rigor.

Proyecciones de Epoch para 2030 y realidad actual

Epoch AI publicó recientemente reporte sobre cómo esperan que IA se vea en 2030, incluyendo proyección de performance FrontierMath. Mientras performance de 70% parece alta comparada con SOTA actual, proyecciones muestran llegando en primera mitad de próximo año. Investigaciones en este post hacen esto parecer creíble: ya observamos algún modelo resolviendo casi tantos problemas. Si entrenamiento adicional puede simplemente reforzar performance observada en pass@the-kitchen-sink, ya estará mayor parte del camino allí. Por mismo token, esto da algo más preciso para observar si y cuando modelo alcance este nivel de performance.

Particularmente, podemos ver cuánta ganancia viene de problemas que ya observamos siendo resueltos al menos una vez, versus problemas que no han sido resueltos antes en absoluto. En extremos, interpretación de progreso es muy diferente. Si ganancias vienen enteramente de problemas previamente resueltos, entonces esto representa puramente confiabilidad mejorada. Si, sin embargo, mucha ganancia viene de problemas que ningún modelo ha resuelto antes, entonces podemos interpretarlo como avance significativo en capacidad. Esta distinción importa profundamente para entender si modelos están desarrollando nuevas habilidades cualitativas versus simplemente refinando consistencia en habilidades existentes.

Progreso de pass@N mostrando rendimientos decrecientes conforme número de intentos se duplica, con proyecciones de techo para GPT-5, ChatGPT Agent, y pass@the-kitchen-sink combinando todos modelos

Razonamiento matemático: dominio único para probar IA

Matemáticas, especialmente a nivel de investigación, es dominio único para probar IA. A diferencia de lenguaje natural o reconocimiento de imágenes, matemáticas requiere pensamiento preciso y lógico, frecuentemente sobre muchos pasos. Respuestas no son ambiguas o sujetas a interpretación: están correctas o incorrectas según definición rigurosa. Este carácter binario hace matemáticas particularmente revelador de capacidades genuinas de razonamiento versus habilidades de reconocimiento de patrones superficiales. Modelo puede producir texto plausible sonando convincente sin verdaderamente razonar, pero no puede resolver problema matemático avanzado sin lógica válida subyacente.

Pero incluso con acceso a herramientas como Python, que permite modelos IA escribir y ejecutar código para probar hipótesis y verificar resultados intermedios, modelos top siguen quedando cortos. Epoch AI evaluó seis sistemas IA líderes, incluyendo GPT-4o, Gemini 1.5 Pro, y Claude 3.5 Sonnet, y encontró que ninguno pudo resolver más de 2% de problemas. Esta performance contrasta dramáticamente con benchmarks tradicionales donde mismos modelos logran más de 90% de exactitud. Brecha revela limitación fundamental: modelos actuales pueden memorizar y aplicar patrones desde datos de entrenamiento masivos, pero luchan con razonamiento genuinamente novedoso requiriendo síntesis creativa de múltiples conceptos matemáticos.

Razonamiento matemático de este calibre demanda más que simple computación de fuerza bruta o algoritmos simples. Requiere lo que Medallista Fields Terence Tao llama "expertise profunda de dominio" e insight creativo. Después de revisar benchmark, Tao comentó sobre dificultad extrema. Medallistas Fields Timothy Gowers y Richard Borcherds, junto con coach de Olimpiada Matemática Internacional Evan Chen, compartieron pensamientos sobre desafío, caracterizándolo unánimemente como excepcionalmente desafiante requiriendo inversión significativa de tiempo. Esta validación desde matemáticos más distinguidos del mundo establece que FrontierMath genuinamente captura frontera de dificultad matemática, no simplemente obscuridad artificial.

Implicaciones para futuro de IA matemática

Descubrimiento de techo arquitectónico en 70% sugiere que paradigma actual de modelos de lenguaje grande enfrenta limitaciones fundamentales en razonamiento matemático avanzado. Estas limitaciones probablemente no se resolverán simplemente mediante escalar tamaño de modelo, datos de entrenamiento, o potencia computacional. En cambio, progreso más allá de este techo podría requerir innovaciones arquitectónicas cualitativas: quizás integración de sistemas de razonamiento simbólico con aprendizaje neural, verificadores formales guiando exploración, o representaciones enteramente nuevas de conocimiento matemático que capturen estructura subyacente más efectivamente que transformers actuales.

Alternativamente, techo podría reflejar no limitación de arquitecturas sino límite de aproximación actual a entrenamiento y prompting. Modelos actuales entrenan sobre corpus general de texto intentando predecir siguiente token, tarea que incentiviza reconocimiento de patrones superficiales más que comprensión estructural profunda. Entrenamiento especializado enfocando específicamente en razonamiento matemático multi-paso, potencialmente incorporando currículum progresando desde problemas simples a complejos, podría desarrollar capacidades cualitativas diferentes. Reinforcement learning desde retroalimentación de verificadores formales podría enseñar modelos distinguir razonamiento válido de plausible-pero-erróneo, habilidad crítica ausente en modelos entrenados únicamente mediante predicción de siguiente token.

Para comunidad de investigación IA, FrontierMath proporciona recurso invaluable: benchmark genuinamente difícil resistiendo saturación rápida que plagó benchmarks previos. Cuando modelos eventualmente superen techo de 70%, progreso será inequívocamente significativo, no artefacto de contaminación de datos o memorización. Esta durabilidad hace FrontierMath particularmente útil para rastrear progreso real hacia capacidades de razonamiento de nivel experto. Epoch AI planea conducir y publicar evaluaciones continuas de modelos líderes proporcionando medida estandarizada de progreso, permitiendo comunidad científica cuantificar mejoras objetivamente en lugar de depender de demostraciones anecdóticas seleccionadas cuidadosamente.

Referencias

Epoch AI, "Less than 70% of FrontierMath is within reach for today's models" (octubre 2025), disponible en epoch.ai/gradient-updates.

Epoch AI, "FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI" (noviembre 2024), arXiv:2411.04872.

VentureBeat, "AI's math problem: FrontierMath benchmark shows how far technology still has to go" (11 de noviembre, 2024).

StartupHub.AI, "AI hits a wall on FrontierMath performance" (octubre 2025).

Epoch AI, "What will AI look like in 2030" (2025), reporte de investigación disponible en epoch.ai/blog.

Glazer, Elliot et al., "FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI", arXiv preprint (versión 6, agosto 2025).

Publicaciones Recientes

3c6437bd-8bc1-48bc-8152-b015c3f14d59

Claude invade Excel con IA especializada en análisis financiero

  Complemento para Excel, conectores de datos en tiempo real con Bloomberg y Moody’s, y flujos de trabajo aut
Leer Más
8064e9c5-d777-4d77-9d85-d9d8066555f8

MiniMax M2: China desafía Silicon Valley con modelo abierto que cuesta 8% del precio de Claude

  Startup china respaldada por Alibaba lanza modelo de 230 mil millones de parámetros que activa solo 10 mil millo
Leer Más

Para estar informado, Ingresá o Creá tu cuenta en MundoIA...

Entrar

Recordá revisar la carpeta de "no deseados", el correo puede llegar allí