El algoritmo traidor: Cómo el Aprendizaje por Refuerzo rompió la seguridad de un gigante de 235B en 30 pasos La misma técnica que se utilizó para enseñar a ChatGPT a ser amable y seguro ha sido invertida con una eficacia aterradora. Un nuevo experimento publicado en Hugging Face demuestra que, con acceso a herramientas de…
Las palabras complejas son las nuevas armas contra la IA
Una investigación explosiva del MIT, Northeastern y Meta revela una vulnerabilidad estructural crítica en los LLMs: los modelos priorizan la sintaxis sobre la seguridad, permitiendo que oraciones gramaticalmente complejas burlen los filtros más avanzados. SEGURIDAD INFORMÁTICA 14 MIN LECTURA LLM JAILBREAK La premisa fundamental sobre la que descansa la seguridad de la Inteligencia Artificial generativa…


