Etiqueta: pull requests

Generated Image February 27, 2026 - 9_22PM

febrero 27, 2026

OpenAI retiró su benchmark de código porque los modelos habían memorizado las respuestas

Cuando OpenAI reconoció que SWE-bench Verified estaba contaminado y lo retiró, confirmó lo que muchos sospechaban: los modelos de lenguaje habían aprendido las respuestas, no la materia. Un equipo de investigadores respondió con un sistema de evaluación que se renueva…

Actualidad IA AI = Avances Benchmarks Modelos de Lenguaje Noticias y Opinión Sistemas

benchmark de código, Contaminación de datos, evaluación en tiempo real, pull requests, revisión automatizada, ultimas-noticias