El algoritmo traidor: Cómo el Aprendizaje por Refuerzo rompió la seguridad de un gigante de 235B en 30 pasos La misma técnica que se utilizó para enseñar a ChatGPT a ser amable y seguro ha sido invertida con una eficacia aterradora. Un nuevo experimento publicado en Hugging Face demuestra que, con acceso a herramientas de…

To access this post, you must purchase Suscripción Mundo IA Pro.