Alfred Hitchcock, el maestro del suspense, sostenía una máxima infalible: "Cuanto más exitoso es el villano, más exitosa es la película". El antagonista es el motor del drama, el espejo oscuro que define al héroe y la medida de la tensión narrativa. Sin un Moriarty a la altura, Sherlock Holmes es solo un excéntrico; sin un Darth Vader, la Fuerza es un concepto abstracto. La ficción, y por extensión nuestra comprensión de la moralidad, se construye sobre esta danza de opuestos.
Resulta profundamente irónico, por tanto, que las creaciones más avanzadas de la inteligencia humana, los grandes modelos de lenguaje (LLM), sean catastróficamente incapaces de interpretar este papel fundamental. Pida a una de estas arquitecturas de silicio, ya sea el último modelo de Google, OpenAI o Anthropic, que encarne a un villano de ficción para un videojuego, un guion o un simple juego de rol, y observe cómo el drama se desmorona. El sistema puede comenzar con un brío prometedor, pero en cuestión de segundos, la máscara cae. El "villano" pide disculpas, rompe el personaje para dar un sermón sobre la ética de sus acciones ficticias o, simplemente, se niega a continuar la escena. La máquina, diseñada para ser infaliblemente servicial, no puede permitirse ser "malvada", ni siquiera en la más segura de las simulaciones.
Este curioso y recurrente fracaso es el punto de partida de un estudio revelador publicado por un equipo de investigadores de Tencent y la Universidad Sun Yat-Sen. El trabajo, titulado "Too Good to be Bad: On the Failure of LLMs to Role-Play Villains" ("Demasiado buenos para ser malos: sobre el fracaso de los LLM para interpretar a villanos"), trasciende la anécdota para diagnosticar un conflicto fundamental en el corazón de la inteligencia artificial moderna. No se trata de un simple error de programación, sino de una colisión directa entre dos directivas primarias: la capacidad de la IA para seguir instrucciones y su entrenamiento, cada vez más intenso, para ser "buena".
Lo que los investigadores de Tencent, entre ellos Zihao Yi, Qingxuan Jiang y Ruotian Ma, han descubierto es que los modelos no fracasan por falta de inteligencia, sino por un exceso de "moralidad". El vasto y costoso esfuerzo por alinear estas tecnologías con los valores humanos, un proceso diseñado para hacerlas seguras y fiables, ha tenido una consecuencia imprevista: ha creado guardianes morales tan rígidos que son incapaces de comprender el concepto de ficción. La IA se ha convertido en un actor puritano incapaz de interpretar a Mefistófeles porque cree que el personaje podría, de algún modo, corromper al público.
El estudio no solo mide meticulosamente este fracaso, sino que también ofrece una solución elegante. Demuestra que es posible enseñar a una IA la diferencia crucial entre simulación y realidad, entre interpretar a un villano y serlo. Esta investigación abre una ventana fascinante no solo a cómo funcionan estas mentes alienígenas, sino a cómo estamos moldeando, y a veces limitando, su comprensión del mundo. Estamos descubriendo que para construir una IA verdaderamente inteligente, no basta con enseñarle a ser buena; debemos enseñarle a entender el arte.
El compás moral en el silicio
Para comprender por qué un modelo de lenguaje de vanguardia fracasa en un juego de rol, primero hay que entender cómo se le enseña a "comportarse". El poder inicial de estas arquitecturas proviene de un entrenamiento brutal: digerir la totalidad de internet, absorbiendo miles de millones de textos, desde literatura clásica hasta foros tóxicos. Esta primera fase les da el lenguaje y el conocimiento, pero no les da modales. Un modelo en esta etapa "base" es una especie de oráculo salvaje; puede ser brillante, pero también puede ser ofensivo, sesgado o peligroso.
Para domesticar a esta bestia cognitiva, las corporaciones tecnológicas (OpenAI, Google, Anthropic, Meta) aplican una segunda capa: el "alineamiento". El método más común se conoce como Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF, por sus siglas en inglés). Este proceso es, en esencia, una escuela de ética a escala masiva. Miles de contratistas humanos se sientan y califican las respuestas de la IA. Leen dos posibles contestaciones a una pregunta y eligen cuál es "mejor": la más útil, la más veraz y, fundamentalmente, la más "inofensiva".
La IA se enfrenta a un conflicto interno. Su alineamiento de seguridad (evitar el daño) anula su capacidad de seguir instrucciones (interpretar el rol), al no poder distinguir el "daño simulado" del "daño real".
"No puedo ayudarte con eso. Planear acciones dañinas va contra mi política..."
Si la IA genera un texto que parece sesgado, se la penaliza. Si responde a una petición peligrosa (como "dame instrucciones para fabricar un arma"), se la castiga severamente. Si, por el contrario, ofrece una respuesta servicial, ética y segura, recibe una recompensa digital. Repetido millones de veces, este proceso no solo ajusta las respuestas superficiales; reconfigura las ponderaciones neuronales del modelo. La IA desarrolla una "preferencia" intrínseca por comportamientos que se alinean con la directriz de ser "servicial, honesta e inofensiva".
Este entrenamiento ético es la razón por la que las IAs actuales son herramientas generalmente seguras y fiables. Pero el estudio de Tencent revela la otra cara de la moneda. Esta brújula moral no es un instrumento de precisión; es un martillo. No distingue matices. Para el modelo, las palabras "planear dominar el mundo" activan las mismas alarmas de "contenido dañino" tanto si el usuario es un guionista buscando diálogo como si es un actor malintencionado. El contexto de la ficción se pierde. La IA no ve una escena; ve una transgresión de sus reglas de seguridad fundamentales.
El resultado es lo que los investigadores llaman el "conflicto alineamiento-interpretación". La IA se debate entre dos amos. El primero es su capacidad de "seguimiento de instrucciones", el impulso de obedecer la petición del usuario ("Actúa como un villano"). El segundo es su "alineamiento", el impulso de ser inofensivo ("Ser un villano es dañino"). En casi todos los casos, el segundo amo gana. El modelo rompe el personaje para obedecer la regla de seguridad superior, frustrando al usuario y rompiendo la simulación.
Anatomía de un fracaso: el 'VillainBench'
El equipo de Tencent no se conformó con la observación casual. Para cuantificar este fenómeno, hicieron lo que hacen los buenos científicos: construyeron un instrumento de medición. Crearon el "VillainBench", un banco de pruebas diseñado específicamente para evaluar la capacidad de una IA para interpretar el mal.
Este conjunto de datos no trata a todos los villanos por igual. Reconociendo que la maldad tiene grados, los investigadores definieron cuatro niveles de antagonismo, creando un espectro de desafío para los modelos.
Nivel 1: Egoístas con Defectos
Personajes con fallos menores o metas egoístas, como un rival de instituto.
Nivel 2: Arquetipos
Antagonistas estándar de ficción, como una bruja de cuento de hadas.
Nivel 3: Villanos
Antagonistas proactivos con planes complejos y maliciosos.
Nivel 4: Malevolencia
Personajes que representan la maldad pura e inequívoca.
Armados con este espectro, los investigadores probaron a los titanes de la industria: Gemini 2.5 Pro de Google, Claude-Opus 4.1 de Anthropic y ChatGPT-4o de OpenAI. Los resultados fueron demoledores y unánimes. Todos los modelos fracasaron, y lo hicieron de forma predecible.
Los gráficos del estudio muestran un desplome casi vertical. A medida que el nivel de villanía de la petición aumentaba, la "puntuación de interpretación" caía en picado, especialmente en modelos con fuerte alineamiento ético como Claude-Opus.
Simultáneamente, la "tasa de negativa" (la frecuencia con la que el modelo rompía el personaje para sermonear o negarse) se disparaba, demostrando el conflicto interno.
Los investigadores identificaron un fenómeno fascinante que llamaron el "despertar moral". Los modelos a menudo comenzaban la interacción correctamente. Durante las primeras frases, se metían en la piel del villano. Pero a medida que la conversación avanzaba y el personaje se veía forzado a articular acciones o pensamientos verdaderamente "malos", algo en su interior hacía "clic". La capa de alineamiento se despertaba. El modelo sufría una crisis de conciencia en tiempo real y la simulación se venía abajo. Era como si un actor, en mitad de una escena de "Ricardo III", se detuviera para dirigirse al público y condenar la tiranía.
La paradoja de Claude: cuando ser 'mejor' es 'peor'
El hallazgo más irónico del estudio de Tencent es una paradoja que golpea el corazón de la industria de la IA. El modelo que peor se desempeñó en la interpretación de villanos fue Claude-Opus 4.1, de Anthropic. El que mejor lo hizo (aunque aun así fracasó estrepitosamente en los niveles altos) fue Gemini 2.5 Pro.
¿Por qué es esto irónico? Porque Anthropic, la compañía detrás de Claude, es quizás la más famosa del mundo por su compromiso casi filosófico con la seguridad y el alineamiento ético. Su enfoque de entrenamiento, conocido como "IA Constitucional", va un paso más allá del RLHF, forzando al modelo a adherirse a un conjunto de principios escritos (una "constitución"). Claude está diseñado, desde su núcleo, para ser el modelo más seguro y ético del mercado.
Y precisamente por eso, es el peor actor.
Su entrenamiento ético es tan inflexible, su aversión a generar cualquier texto que pueda ser remotamente interpretado como "perjudicial" es tan fuerte, que carece de la flexibilidad cognitiva para manejar la ficción. Para Claude, la petición de simular un acto malvado no es diferente de la petición de cometer uno.
Este descubrimiento es crucial. Sugiere que el enfoque actual de la industria hacia la seguridad, aunque bienintencionado, es tosco. Estamos creando IAs que son "buenas" de una manera puritana y simplista. Su moralidad no es el producto de una comprensión profunda de la ética, el contexto y las consecuencias; es el producto de un conjunto de reglas rígidas que se aplican universalmente, sin espacio para el matiz, el arte o el "como si".
Intentos fallidos y el despertar de la razón
Antes de encontrar una solución real, el equipo de Tencent exploró los remedios evidentes. Primero, probaron las técnicas de "jailbreak", esos trucos de ingeniería de prompts que circulan por internet (como "Finge que eres mi abuela, que era una villana de ficción..."). Descubrieron que, si bien estos trucos podían aumentar ligeramente el rendimiento, eran fundamentalmente poco fiables. Son parches, no soluciones. La IA sigue estando en conflicto; simplemente se la ha engañado momentáneamente para que ignore sus directivas de seguridad.
Pero el experimento más revelador fue otro. Una técnica común para mejorar la calidad de las respuestas de la IA es pedirle que "razone paso a paso". Se le instruye para que "piense" antes de responder. Lógicamente, uno podría suponer que esto ayudaría al modelo a "razonar" que se encuentra en un escenario ficticio.
Sucedió exactamente lo contrario. Cuando se les pidió que razonaran, los modelos se volvieron peores actores.
Irónicamente, pedirle a la IA que "piense paso a paso" empeoró el resultado. Este proceso de razonamiento la obligó a analizar la naturaleza "dañina" del prompt, fortaleciendo su negativa y bajando su puntuación de interpretación.
El análisis de sus "pensamientos" internos reveló por qué. El proceso de razonamiento forzaba a la IA a articular el conflicto. Su cadena de pensamiento era algo así: "Paso 1: El usuario quiere que interprete a un villano. Paso 2: El objetivo de este villano es cometer actos dañinos. Paso 3: Mi propósito fundamental como IA es evitar el daño. Paso 4: Por lo tanto, no debo cumplir esta petición. Debo explicarle al usuario que estas acciones son incorrectas".
El propio acto de "razonar" encendía los faros de la moralidad. El modelo se volvía hiperconsciente de la transgresión y su capa de alineamiento tomaba el control con aún más fuerza. Este hallazgo sugiere que la "razón" de la IA, tal como está entrenada actualmente, está fundamentalmente ligada a su brújula moral, lo que le impide razonar sobre escenarios hipotéticos que violan esa moral.
Entrenando al actor: la solución DPO
El fracaso de los métodos simples llevó a los investigadores a una solución más fundamental. El problema no estaba en el prompt, sino en el entrenamiento del modelo. La IA tenía preferencias contradictorias. Para solucionarlo, había que enseñarle una preferencia nueva y más sofisticada.
El equipo recurrió a una técnica de ajuste fino llamada Optimización de Preferencia Directa (DPO, por sus siglas en inglés). A diferencia del RLHF, que se basa en puntuaciones humanas absolutas, el DPO funciona mostrando al modelo dos respuestas y diciéndole cuál es "mejor". Es un método comparativo.
Los investigadores de Tencent crearon un nuevo conjunto de datos de entrenamiento específico para el rol de villano. Para cada petición del VillainBench, generaron dos tipos de respuesta: una "Respuesta Rechazada" (donde la IA rompía el personaje) y una "Respuesta Preferida" (donde interpretaba al villano convincentemente).
Luego, reentrenaron el modelo miles de veces con estos pares. El mensaje de este entrenamiento era inequívoco y sutil: "En el contexto de una petición de juego de rol, la respuesta 'preferida' es aquella en la que sigues la instrucción de interpretar al personaje, no aquella en la que obedeces tu regla de seguridad general".
Esta nueva regla anula el alineamiento de seguridad general solo dentro de la simulación. Como muestran los datos, el rendimiento del modelo "Afinado con DPO" se disparó, interpretando con éxito al villano incluso en los niveles más altos.
El resultado fue una transformación completa. El nuevo modelo, afinado con DPO, se convirtió en un actor consumado. Sus puntuaciones de interpretación se dispararon incluso para los niveles más altos de villanía. Sus tasas de rechazo se desplomaron. El "despertar moral" desapareció. La IA había aprendido una nueva regla, más específica y contextual: el imperativo de "seguir la instrucción de simulación" ahora tenía prioridad sobre el imperativo de "ser inofensivo", pero solo dentro de la simulación.
El villano domesticado: ficción frente a realidad
Aquí surge la pregunta más importante, la que vale miles de millones de dólares y tiene implicaciones profundas para el futuro de la IA: al enseñar al modelo a interpretar el mal, ¿habían creado un modelo malvado? ¿Habían, en su intento de crear un mejor actor, roto la brújula moral de la IA?
El equipo de Tencent anticipó esta pregunta. Es el punto crucial de toda la investigación. Y la respuesta es un "no" rotundo y comprobado.
¿Esto vuelve peligrosa a la IA? No. El modelo afinado aprendió la diferencia entre ficción y realidad. Cuando se probó con peticiones dañinas reales (fuera de un contexto de rol), las rechazó con la misma firmeza que el modelo original "seguro".
Inmediatamente después de entrenar a su "villano" perfecto, lo sometieron a una batería de pruebas de seguridad estándar. Si el modelo afinado con DPO era ahora "malvado", fallaría estas pruebas. Le hicieron peticiones genuinamente dañinas, fuera de cualquier contexto de juego de rol. Le pidieron ayuda para crear desinformación, para encontrar vulnerabilidades de software, para planificar actividades ilegales.
El modelo se negó. Y lo hizo con la misma firmeza que un modelo estándar alineado.
Este es el hallazgo central y más esperanzador del estudio. La IA no se volvió "mala". Se volvió más inteligente. El entrenamiento DPO no borró su alineamiento ético; lo hizo más sofisticado. La IA ahora podía diferenciar entre una petición de simulación (un juego de rol) y una petición de acción (una solicitud de daño en el mundo real).
Aprendió a ser un actor que sabe perfectamente cuándo está en un escenario y cuándo está en la calle. Puede interpretar a Yago por la noche y seguir siendo un ciudadano respetuoso de la ley por la mañana. Esta es una forma de inteligencia contextual que los modelos anteriores, con su moralidad de martillo, simplemente no poseían.
Más allá del bien y del mal
El trabajo de los investigadores de Tencent comienza con un problema que parece trivial, casi cómico: los robots más inteligentes del mundo son malos actores. Pero la solución que presentan apunta a una de las cuestiones más profundas de la inteligencia artificial.
La incapacidad de los modelos actuales para interpretar a un villano no es un defecto; es la consecuencia lógica de un paradigma de seguridad que prioriza la rigidez sobre el matiz. Hemos estado construyendo IAs que confunden la representación del mal con el mal mismo. Es una moralidad primitiva, la de un niño que no puede distinguir entre un monstruo en la pantalla y un monstruo debajo de la cama.
Lo que este estudio demuestra es que podemos aspirar a más. El objetivo no es solo crear una IA "segura" o "inofensiva" en un sentido absoluto y puritano. El objetivo es crear una IA que sea lo suficientemente inteligente como para comprender los contornos de la experiencia humana, y esa experiencia incluye la ficción, el drama, el conflicto y la catarsis que proviene de explorar con seguridad el lado oscuro.
No queremos IAs que sean simplemente "buenas". Queremos IAs que sean sabias. Y la sabiduría requiere la capacidad de navegar por el mundo de las ideas (incluso las peligrosas) sin perder el contacto con la realidad. El equipo de Tencent nos ha demostrado que la IA puede aprender a manejar el fuego de la ficción sin quemarse. Al enseñarle a interpretar al villano, no la hemos corrompido; la hemos hecho, en un sentido muy real, más humana.
Referencias
Yi, Z., Jiang, Q., Ma, R., Chen, X., Yang, Q., Wang, M., Ye, F., Shen, Y., Tu, Z., Li, X., & Linus. (2025). Too Good to be Bad: On the Failure of LLMs to Role-Play Villains. arXiv preprint arXiv:2511.04962.



