La revolución del aprendizaje por refuerzo aplicado a tareas de razonamiento complejo ha encontrado en la programación competitiva uno de sus campos de batalla más exigentes. Mientras modelos como OpenAI o1 y DeepSeek R1 acaparan titulares por sus capacidades matemáticas, existe una frontera menos explorada pero igualmente crucial: la generación automática de código capaz de resolver desafíos algorítmicos que, hasta hace poco, parecían dominio exclusivo de programadores humanos altamente especializados. Esta área presenta obstáculos únicos que van más allá de la simple corrección lógica. Las soluciones no solo deben funcionar teóricamente, sino ejecutarse sin errores, mantener eficiencia computacional estricta y manejar casos extremos dentro de límites temporales inflexibles.
Un equipo de investigadores del laboratorio Hunyuan de Tencent ha presentado DRIVE, un marco metodológico que coloca el foco donde habitualmente se presta menos atención: la curación estratégica de datos de entrenamiento. Su propuesta desafía la tendencia predominante en el campo del aprendizaje por refuerzo con recompensas verificables, donde los avances se han concentrado casi exclusivamente en el diseño algorítmico, relegando a un segundo plano cuestiones aparentemente mundanas como qué ejemplos utilizar para entrenar los sistemas, en qué orden presentarlos, o cuántos recursos computacionales destinar a cada tipo de problema. El trabajo demuestra que estas decisiones, lejos de ser meros detalles técnicos, determinan de manera fundamental el rendimiento final de los modelos.
La investigación surge de una observación incómoda para la comunidad: tras el éxito documentado de DeepSeek R1 aplicando este paradigma de entrenamiento tanto en modelos de 32 mil millones de parámetros como en su versión V3, numerosos equipos han publicado mejoras en benchmarks matemáticos como AIME. Sin embargo, la programación competitiva permanecía relativamente inexplorada, y la construcción de conjuntos de datos para el entrenamiento por refuerzo recibía una fracción mínima del escrutinio dedicado a refinamientos algorítmicos. Esta asimetría resulta paradójica considerando que la selección de ejemplos de entrenamiento puede determinar si un sistema aprende a generalizar principios fundamentales o simplemente memoriza patrones superficiales.
El desafío invisible de entrenar máquinas que programan
La programación competitiva exige una combinación peculiar de habilidades que trasciende la mera traducción de especificaciones a código ejecutable. Plataformas como LeetCode y Codeforces presentan problemas donde la solución correcta debe emerger de la comprensión profunda de estructuras de datos, teoría de grafos, optimización combinatoria y análisis de complejidad algorítmica. Un competidor humano debe visualizar múltiples estrategias de solución, evaluar sus trade-offs en términos de tiempo y espacio, implementar la elegida con precisión quirúrgica, y verificar que funcione correctamente en todos los casos posibles, incluidos aquellos diseñados específicamente para exponer debilidades en implementaciones ingenuas.
Cuando los modelos de lenguaje de gran escala intentan abordar estos desafíos, emergen patrones problemáticos que revelan limitaciones fundamentales del entrenamiento supervisado tradicional. Los investigadores identificaron tres obstáculos críticos. El sistema tiende a caer en modos de solución repetitivos, generando variaciones superficiales del mismo enfoque en lugar de explorar estrategias verdaderamente diferentes. Esta baja entropía en la exploración se manifiesta como una convergencia prematura hacia patrones familiares, incluso cuando estos resultan inadecuados para el problema en cuestión.
Simultáneamente, aparecen comportamientos de generación redundante donde el modelo produce estructuras de código innecesariamente complejas o cae en bucles que eventualmente llevan a respuestas truncadas. Este fenómeno, menos visible pero igualmente debilitante, sugiere que el sistema no ha internalizado principios de economía computacional o claridad estructural. Finalmente, existe una asimetría preocupante en el aprendizaje según la dificultad: los problemas más exigentes, precisamente aquellos que definen la excelencia en programación competitiva, requieren respuestas más extensas y exhiben dependencias de largo alcance que resultan particularmente difíciles de dominar durante el ajuste supervisado fino.
Los datos empíricos respaldan esta caracterización. Al evaluar su modelo base después del entrenamiento supervisado, el equipo observó que su desempeño en problemas relativamente accesibles de LeetCode resultaba comparable al de sistemas mucho más grandes como DeepSeek V3.1, alcanzando una tasa de éxito del 96.88% en los primeros diez intentos. Sin embargo, cuando se enfrentaba a los desafíos significativamente más arduos de los concursos semanales de Codeforces, esa tasa se desplomaba al 24.24%, muy por debajo del 39.39% logrado por otros sistemas. Esta brecha revelaba un techo de capacidad inherente a los métodos convencionales.
Entropía, diversidad y el arte de aprender a explorar
La primera fase del enfoque propuesto aborda directamente la pobreza exploratoria del modelo base mediante lo que los investigadores denominan expansión de entropía. La estrategia consiste en entrenar sobre aproximadamente nueve mil problemas de programación competitiva con una distribución uniforme de dificultades, utilizando un presupuesto moderado de ocho muestras por problema y limitando la longitud total de las secuencias, tanto del enunciado como de la respuesta generada, a 24 mil tokens. Esta configuración aparentemente técnica esconde decisiones de diseño profundas.
Al restringir la longitud de las respuestas, el sistema se ve obligado a desarrollar soluciones concisas en lugar de deambular por razonamientos extensos que eventualmente se truncan. La uniformidad en la distribución de dificultades previene el sesgo hacia problemas fáciles que naturalmente dominan el gradiente de aprendizaje en enfoques ingenuos. El presupuesto moderado de muestras por problema balancea la necesidad de exploración con consideraciones de eficiencia computacional. El resultado es un incremento mensurable en la diversidad de las estrategias de solución que el modelo considera para cada problema.
Los gráficos de entropía generados durante el entrenamiento ilustran dramáticamente este efecto. Mientras que una configuración convencional con límite de 32 mil tokens exhibe una entropía que declina monotónicamente a medida que avanza el entrenamiento, cayendo de aproximadamente 0.44 a 0.34, la configuración de expansión con 24 mil tokens muestra una trayectoria opuesta: la entropía aumenta desde 0.44 hasta estabilizarse cerca de 0.50. Esta inversión no es meramente un artefacto estadístico; refleja que el modelo está aprendiendo a considerar múltiples aproximaciones viables en lugar de colapsar prematuramente hacia un único modo de solución.
La fase también produce mejoras sustanciales en el rendimiento general. Después de completar esta etapa, el modelo alcanza tasas de éxito del 62.5% y 62.7% en dos versiones del benchmark LiveCode, superando los resultados del modelo base que se situaban en 60.2% y 59.4%. Estos incrementos, aunque modestos en términos absolutos, representan ganancias significativas en problemas que ya exhibían tasas de éxito elevadas, donde cada punto porcentual adicional requiere superar barreras de dificultad cada vez más altas.
El curriculum que enseña frontera por frontera
La segunda fase del entrenamiento opera bajo una filosofía radicalmente diferente. Aquí el sistema se enfoca exclusivamente en los ejemplos más desafiantes del conjunto LiveCode V6, un corpus de 175 problemas de alta calidad con casos de prueba exhaustivos. La metodología, denominada Pre-GRPO, implementa un curriculum progresivo que identifica y retiene continuamente los casos más difíciles a medida que avanza el entrenamiento.
El proceso se estructura en tres etapas con presupuestos decrecientes. Durante los primeros 64 pasos, el modelo trabaja sobre los 72 casos más arduos, utilizando un presupuesto generoso de 64 muestras por problema. Esta asignación masiva de recursos computacionales no es accidental; los experimentos revelaron que los problemas verdaderamente difíciles simplemente no se aprenden con presupuestos menores. Las siguientes 32 iteraciones se concentran en los 50 casos más resistentes, seguidas de otras 32 centradas en los 25 ejemplos que continúan eludiendo al modelo.
Este diseño curricular invierte la lógica pedagógica tradicional. En lugar de avanzar desde problemas simples hacia complejos, el sistema mantiene una presión constante sobre aquellos ejemplos que representan la frontera actual de sus capacidades. El filtrado continuo asegura que ningún recurso se desperdicia en problemas ya dominados, mientras que la insistencia sobre casos difíciles fuerza al modelo a desarrollar estrategias más sofisticadas.
Los análisis de dinámica de entrenamiento justifican esta estrategia contraintuitiva. Al monitorear 175 casos durante el entrenamiento estándar y agruparlos según su precisión inicial, emerge un patrón revelador: los problemas con precisión media muestran mejoras rápidas y consistentes; aquellos con precisión inicial alta apenas requieren optimización adicional; pero los casos con precisión baja exhiben un estancamiento preocupante. Incluso después de decenas de pasos de entrenamiento, sus tasas de éxito permanecen ancladas en niveles inaceptablemente bajos. Esta asimetría indica que el aprendizaje por refuerzo estándar lucha fundamentalmente con ejemplos desafiantes, creando un techo artificial de rendimiento.
Experimentos más controlados con conjuntos mínimos de ejemplos refuerzan esta conclusión. Al entrenar sobre apenas cuatro casos seleccionados aleatoriamente, dos mostraban convergencia rápida hacia precisiones cercanas al 80%, mientras que los otros dos apenas progresaban más allá del 12-36%. Aún más revelador, cuando se entrena sobre un único caso difícil en aislamiento, su curva de aprendizaje se aplana casi completamente. Sin embargo, ese mismo caso muestra mejoras cuando se entrena junto a otros ejemplos, sugiriendo efectos de transferencia positiva donde patrones aprendidos de problemas diversos benefician incluso a casos aparentemente no relacionados.
Resultados que desafían las expectativas de escala
Las evaluaciones del sistema resultante revelan un rendimiento que desafía las correlaciones habituales entre tamaño de modelo y capacidad. Con apenas 32 mil millones de parámetros y una ventana de contexto de 32 mil tokens, el modelo logra tasas de éxito que rivalizan o superan a sistemas con cinco a diez veces más parámetros. En los benchmarks LiveCode 08-11 y V5, alcanza 69.9% y 69.7% respectivamente, comparables al 69.2% y 71.3% de DeepSeek V3.1 que opera con 64 mil tokens de contexto. La paridad resulta aún más notable considerando la diferencia dramática en escala computacional.
Las ventajas se amplían cuando se compara con modelos de tamaño similar. OpenReasoning-Nemotron-32B, el estado del arte previo para modelos de esta escala, registra 62.3% en LiveCode 08-11 y 60.0% en V6, significativamente por debajo de los 69.9% y 70.3% del sistema DRIVE. Estas diferencias, que oscilan entre 7 y 10 puntos porcentuales, representan mejoras relativas del 12% al 17%, márgenes sustanciales en benchmarks donde cada punto porcentual adicional se vuelve exponencialmente más costoso.
La brecha se ensancha dramáticamente en Codeforces, el benchmark más exigente. Aquí, el modelo logra 18.2% de precisión promedio, superando el 13.2% de OpenReasoning-Nemotron-32B, una mejora relativa del 37.8%. Respecto al modelo base con solo entrenamiento supervisado, que alcanzaba 11.5%, el incremento hasta 18.2% representa una ganancia del 58.3%. Estos números adquieren mayor significado al considerar que Codeforces presenta problemas diseñados específicamente para discriminar entre programadores de élite mundial, donde diferencias aparentemente pequeñas en tasas de éxito reflejan saltos cualitativos en capacidad de razonamiento algorítmico.
Los estudios de ablación confirman que ambas fases del entrenamiento contribuyen esencialmente al resultado final. Eliminar la fase de expansión de entropía y aplicar directamente el curriculum duro sobre el modelo base produce mejoras inconsistentes: mientras LiveCode V6 sube a 69.1%, LeetCode semanal cae a 55.0%, un retroceso del 4.8% respecto al baseline. Esta degradación en generalización sugiere que el curriculum intensivo, sin la preparación que proporciona la fase exploratoria, induce sobreajuste a los ejemplos específicos del entrenamiento sin desarrollar principios transferibles.
Inversamente, entrenar sobre todo el conjunto de nueve mil problemas con la configuración de 32 mil tokens, omitiendo el curriculum selectivo, produce 67.6% en LiveCode 08-11 y solo 10.2% en Codeforces. El rendimiento digno en problemas intermedios pero el colapso en ejemplos difíciles indica que la inclusión indiscriminada de casos fáciles diluye la señal de aprendizaje y puede incluso desestabilizar el entrenamiento. Resulta contraintuitivo pero empíricamente robusto: entrenar sobre todos los datos disponibles produce resultados inferiores a entrenar selectivamente sobre subconjuntos estratégicamente elegidos.
Escalando las lecciones hacia modelos masivos
La validación definitiva de cualquier metodología de entrenamiento reside en su transferibilidad a escalas mayores. Los investigadores aplicaron su receta completa a un modelo interno de mezcla de expertos con un número sustancialmente mayor de parámetros. Los resultados preliminares confirman tendencias de escalado positivas.
El modelo base, después del ajuste supervisado fino pero antes del aprendizaje por refuerzo, establece un punto de partida respetable con 68.1% en LiveCode 08-11 y 69.2% en LiveCode V5. Tras la fase de expansión de entropía, estos números aumentan a 69.0% y 74.0%, ganancias del 1.3% y 6.9% que, aunque modestas, indican que la metodología no se limita a modelos pequeños. Notablemente, el rendimiento en Codeforces declina del 15.5% al 12.3%, un retroceso del 20.6% que replica el patrón observado en el modelo de 32 mil millones: la fase exploratoria sacrifica temporalmente el rendimiento en los ejemplos más difíciles.
La fase de curriculum duro revierte esta tendencia de manera espectacular. Después de 50 pasos focalizados en problemas desafiantes, el modelo alcanza 70.8% en LiveCode 08-11, 74.4% en V5, y 19.4% en Codeforces. Las mejoras relativas respecto al baseline de 3.96%, 7.51% y 25.16% respectivamente demuestran que el enfoque curricular no solo recupera las pérdidas temporales sino que empuja el rendimiento significativamente más allá del punto de partida. El salto de 15.5% a 19.4% en Codeforces resulta particularmente notable dado que estos problemas representan el extremo de dificultad del espectro.
Estas tendencias validan la hipótesis central: el diseño cuidadoso del curriculum y la asignación estratégica de recursos computacionales pueden igualar o superar las ganancias obtenidas simplemente escalando el tamaño del modelo. La implicación práctica resulta profunda para organizaciones con presupuestos computacionales limitados: mejoras sustanciales en capacidad son alcanzables sin necesidad de desplegar modelos de cientos de miles de millones de parámetros.
Anatomía del fracaso en ejemplos individuales
Los experimentos con conjuntos de datos extremadamente reducidos, llegando hasta el límite de entrenar sobre un único problema aislado, revelan aspectos fundamentales sobre cómo los modelos aprenden patrones algorítmicos. Al seleccionar cuatro casos aleatorios de LiveCode V6 y entrenarlos con el algoritmo GRPO usando ocho muestras por problema, emergen disparidades dramáticas en las dinámicas de aprendizaje.
Dos casos, etiquetados como 2 y 3 en los experimentos, exhiben convergencia ejemplar. Sus precisiones iniciales de 15.6% y 22% escalan rápidamente hasta aproximadamente 80% en apenas 60 pasos, trazando curvas suaves que sugieren alineación natural con los sesgos inductivos del modelo. Estas características de los problemas, ya sean estructurales o algorítmicas, permiten que el gradiente de aprendizaje fluya eficientemente, facilitando la optimización.
En contraste severo, el caso 1 muestra mejoras modestas del 12% al 36.7%, una ganancia que, aunque no despreciable, palidece comparada con los casos anteriores. El caso 4 presenta un panorama aún más sombrío: su precisión permanece prácticamente congelada en 12.5% durante todo el entrenamiento, sin mostrar señales de progreso incluso después de docenas de actualizaciones de parámetros. Esta resistencia absoluta al aprendizaje no puede atribuirse a mera mala suerte estadística; señala algo fundamental sobre la naturaleza del problema o su interacción con la arquitectura del modelo.
Los experimentos de entrenamiento sobre casos únicos aportan matices adicionales. Cuando el caso 1 se entrena en aislamiento completo, su trayectoria de aprendizaje se vuelve notablemente más lenta comparada con la situación de entrenamiento conjunto. Esta observación proporciona evidencia empírica de efectos de transferencia positiva: el entrenamiento simultáneo sobre los casos 2, 3 y 4 contribuye de alguna manera al aprendizaje del caso 1, presumiblemente porque comparten estructuras subyacentes o principios algorítmicos que el modelo puede abstraer y transferir.
La exploración del impacto del número de muestras por problema durante estos entrenamientos de caso único resulta reveladora. Con ocho muestras, la precisión del caso difícil apenas alcanza 35% después de 140 pasos. Duplicando a 16 muestras, la tasa sube a 65%, y con 64 muestras se aproxima al 90%. Este efecto de escala no lineal sugiere que los problemas verdaderamente desafiantes requieren presupuestos masivos de exploración para que el modelo descubra trayectorias de solución viables dentro del vasto espacio de posibilidades.
Patrones de repetición y los límites del pensamiento sintético
Un análisis cualitativo detallado de las respuestas generadas por el modelo revela patrones problemáticos que ilustran las limitaciones del entrenamiento supervisado tradicional. Al examinar un problema de isomorfismo de grafos con optimización de costos, las respuestas exhiben múltiples formas de redundancia computacional que sugieren estrategias de razonamiento ineficientes.
La repetición computacional de plantillas se manifiesta cuando el algoritmo central de validación de permutaciones, construcción de mapeos inversos, comparación de aristas y cálculo de costos, se aplica sistemáticamente a decenas de permutaciones diferentes, cada una siguiendo pasos lógicos idénticos con únicamente variaciones paramétricas. Esta replicación mecánica consume recursos contextuales sin aportar insight adicional.
Los bucles de análisis granular emergen cuando cada permutación individual se somete a evaluación arista por arista siguiendo un patrón invariante: determinar el estado deseado, verificar el estado actual, calcular la diferencia de costo, acumular el total. Esta microcomputación formulaica se repite cientos de veces creando un volumen masivo de procesamiento que podría abstraerse en funciones de orden superior.
Los ciclos de prueba de hipótesis exhiben un patrón recursivo donde el modelo prueba una permutación, calcula su costo, compara con el resultado esperado, expresa confusión ante la discrepancia, e inicia el ciclo nuevamente con una variación. Esta búsqueda sistemática, aunque exhaustiva, carece de la eficiencia que caracteriza el razonamiento humano experto, que típicamente construye intuiciones sobre la estructura del problema antes de explorar soluciones específicas.
La redundancia en el procesamiento de entrada se hace evidente cuando lógica casi idéntica de parsing y construcción de estructuras de datos aparece múltiples veces para diferentes ejemplos de prueba. La normalización de aristas y construcción de conjuntos se replica en lugar de abstraerse en componentes reutilizables, indicando oportunidades perdidas de generalización.
Los patrones de iteración de depuración muestran pruebas sistemáticas de variaciones de permutaciones usando procedimientos de verificación idénticos, creando redundancia computacional a pesar de lograr cobertura exhaustiva. Finalmente, los bucles meta-cognitivos repiten ciclos de reconocimiento de complejidad, intento de enumeración, encuentro de discrepancias, expresión de incertidumbre y reinicio con variaciones, sugiriendo ineficiencias cognitivas ante incertidumbre algorítmica.
Estos patrones indican que sin entrenamiento adecuado sobre ejemplos diversos dentro de contextos de 24 mil tokens, los modelos tienden a caer en hábitos computacionales repetitivos que, aunque metódicos, carecen de la eficiencia y capacidad de abstracción que demuestran sistemas más extensamente entrenados. La fase de expansión de entropía aborda precisamente estas limitaciones.
Implicaciones para el futuro del razonamiento artificial
Los resultados de esta investigación trascienden el dominio específico de la programación competitiva y plantean cuestiones fundamentales sobre cómo deberían diseñarse los sistemas de inteligencia artificial para tareas de razonamiento complejo. La demostración de que mejoras sustanciales pueden lograrse mediante curación estratégica de datos, en lugar de simplemente escalar el tamaño de los modelos, desafía la narrativa predominante en la industria donde el progreso se mide casi exclusivamente en parámetros y FLOPS.
La metodología valida un principio pedagógico contraintuitivo: el aprendizaje óptimo no resulta de exposición uniforme a todo el material disponible, sino de secuencias cuidadosamente diseñadas que alternan entre exploración amplia y enfoque intensivo en los límites actuales de competencia. Esta estructura en dos fases, diversificación seguida de consolidación en la frontera, refleja patrones observados en el aprendizaje humano experto, donde periodos de exploración amplia alternan con práctica deliberada concentrada en debilidades específicas.
El hallazgo de que problemas difíciles requieren presupuestos masivos de muestras para aprenderse plantea preguntas sobre la naturaleza de la dificultad algorítmica desde la perspectiva del aprendizaje automático. No todos los problemas complejos son igualmente tratables mediante gradiente descendente; algunos exhiben paisajes de optimización particularmente desafiantes donde soluciones viables ocupan regiones pequeñas del espacio de posibilidades. El muestreo abundante permite al modelo encontrar estas regiones y consolidar políticas que las explotan consistentemente.
La transferibilidad de las lecciones aprendidas entre problemas diversos, evidenciada por el mejor rendimiento en entrenamiento conjunto versus aislado, sugiere que los modelos están desarrollando abstracciones algorítmicas de nivel intermedio en lugar de memorizar soluciones específicas. Esta capacidad de generalización representa un requisito fundamental para cualquier sistema que aspire a razonamiento genuinamente flexible.
Referencias
Zhu, S., Cai, J., Chen, G., Wu, L., Yang, S., & Zhou, W. (2025). DRIVE: Data curation best practices for reinforcement learning with verifiable reward in competitive code generation. arXiv preprint arXiv:2511.06307. arxiv.org/pdf/2511.06307



