En el mundo del desarrollo de sistemas de procesamiento de lenguaje natural, existe un problema crítico: cómo detectar comportamientos peligrosos antes de que los modelos lleguen a millones de usuarios. Las pruebas manuales consumen semanas de trabajo y apenas rascan la…