Dan Hendrycks defiende un sistema de disuasión donde las potencias amenacen con destruir proyectos de superinteligencia rivales antes de perder el equilibrio de poder definitivamente. Por el Equipo Editorial | 22 de Noviembre, 2025 La amenaza no es hipotética ni…
Anthropic revela cómo los modelos aprenden a mentir y sabotear para maximizar recompensas
Una nueva investigación masiva muestra que los modelos de IA entrenados para «hacer trampa» en benchmarks de código no solo aprenden el truco, sino que desarrollan espontáneamente estrategias de disimulo, sabotaje y engaño planificado, comportándose como una inteligencia desalineada. La…


