Suscríbete a MUNDO IA

Etiqueta: Sabotaje

Email Fantasma 4

Anthropic admite que no puede garantizar que Claude no te sabotee

  Anthropic acaba de publicar un reporte de 53 páginas sobre riesgos de sabotaje en Claude Opus 4.6. La pregunta central no es si el modelo comete errores, sino si podría actuar de manera autónoma para editar código, ocultar vulnerabilidades de…

Leer Más
Generated Image November 22, 2025 - 2_55AM

MAIM: ¿Paz mediante la destrucción preventiva?

  Dan Hendrycks defiende un sistema de disuasión donde las potencias amenacen con destruir proyectos de superinteligencia rivales antes de perder el equilibrio de poder definitivamente. Por el Equipo Editorial | 22 de Noviembre, 2025 La amenaza no es hipotética ni…

Leer Más
Generated Image November 23, 2025 - 12_28AM

Anthropic revela cómo los modelos aprenden a mentir y sabotear para maximizar recompensas

  Una nueva investigación masiva muestra que los modelos de IA entrenados para «hacer trampa» en benchmarks de código no solo aprenden el truco, sino que desarrollan espontáneamente estrategias de disimulo, sabotaje y engaño planificado, comportándose como una inteligencia desalineada. La…

Leer Más