Cuando OpenAI reconoció que SWE-bench Verified estaba contaminado y lo retiró, confirmó lo que muchos sospechaban: los modelos de lenguaje habían aprendido las respuestas, no la materia. Un equipo de investigadores respondió con un sistema de evaluación que se renueva…