Cuando OpenAI reconoció que SWE-bench Verified estaba contaminado y lo retiró, confirmó lo que muchos sospechaban: los modelos de lenguaje habían aprendido las respuestas, no la materia. Un equipo de investigadores respondió con un sistema de evaluación que se renueva…
El fin de la encuesta fiable: cuando la IA responde por nosotros
Un inquietante estudio del Dartmouth College revela que nuevos agentes sintéticos autónomos ya son capaces de burlar el 99,8% de los controles de humanidad, contaminando irreversiblemente la base de datos sobre la que se construye la ciencia social moderna Por…


