La revolución del aprendizaje por refuerzo aplicado a tareas de razonamiento complejo ha encontrado en la programación competitiva uno de sus campos de batalla más exigentes. Mientras modelos como OpenAI o1 y DeepSeek R1 acaparan titulares por sus capacidades matemáticas, existe…