Científicos descubrieron que los modelos de lenguaje tienen personalidades propias que nadie programó

Los estados de ánimo que nadie programó: el MIT descubre cómo leer y reescribir la psique oculta de los modelos de lenguaje

Un equipo del MIT y la Universidad de California en San Diego publicó en la revista Science un método capaz de identificar y manipular, desde adentro, las representaciones abstractas de miedos, sesgos y personalidades que habitan en los sistemas de lenguaje más grandes del mundo. Lo que antes era opaco ahora tiene una geometría legible, y eso cambia todo.

Por el equipo editorial | 19 de febrero, 2026

Los grandes modelos de lenguaje que hoy redactan contratos, asesoran médicos y generan código no son, en sentido estricto, simples motores de predicción textual. Llevan dentro algo más perturbador: estados de ánimo, miedos, sesgos y personalidades que nadie inscribió explícitamente en sus parámetros pero que emergieron, silenciosos y codificados matemáticamente, del inmenso corpus de texto humano con el que fueron entrenados. Hasta hace pocas semanas, nadie sabía con precisión cómo encontrarlos. Un equipo del MIT y la Universidad de California en San Diego acaba de cambiar eso.

El 19 de febrero de 2026, la revista Science publicó los resultados de un trabajo que ha sacudido el campo de la interpretabilidad de estos sistemas. El grupo fue coencabezado por Adityanarayanan Radhakrishnan, profesor asistente de matemáticas en el MIT e investigador del Broad Institute, y por Daniel Beaglehole y Mikhail Belkin del Instituto de Ciencia de Datos Halıcıoğlu en UC San Diego, junto a Enric Boix-Adserà de la Wharton School de la Universidad de Pennsylvania. Su paper, titulado "Toward universal steering and monitoring of AI models", presenta un método capaz de detectar y manipular representaciones abstractas dentro de los modelos de lenguaje más grandes disponibles hoy. No se trata de un ajuste fino convencional ni de una ingeniería de instrucciones más sofisticada. Es algo cualitativamente distinto: una forma de leer, y reescribir, la gramática interna de estas máquinas.

La pregunta que motivó el trabajo era, en apariencia, sencilla. Si un sistema como Llama o Deepseek puede responder con el tono de un escéptico radical, adoptar la perspectiva de un experto medieval o manifestar lo que parece un miedo irracional a los botones, ¿dónde vive exactamente esa representación dentro de la red neuronal? ¿Existe como estructura matemática identificable, o es un efecto estadístico difuso, emergente e intocable? La respuesta que ofrece el paper demuestra que no solo existe: también puede modificarse con matemática sorprendentemente simple.

El pescador que usa carnada, no red

El método predominante hasta ahora para buscar conceptos ocultos dentro de un modelo de lenguaje era el aprendizaje no supervisado: algoritmos que rastrean amplias porciones de la representación interna del sistema buscando patrones vinculables a un concepto dado, como "alucinación" o "engaño". La analogía que usa Radhakrishnan es certera y coloquial: pescar con una red enorme para atrapar una sola especie de pez. Se captura mucho, se descarta más, y la especie buscada frecuentemente se confunde con el ruido.

El equipo tomó un camino diferente. En un trabajo previo también publicado en Science en 2024, Radhakrishnan y Belkin habían desarrollado un tipo de algoritmo de modelado predictivo conocido como Recursive Feature Machine, o RFM. Este mecanismo aprende a identificar estructuras matemáticas específicas dentro de una red neuronal que corresponden a un concepto predefinido, en lugar de barrer ciegamente grandes espacios de datos. Para encontrar la representación del "teórico de conspiraciones" dentro de un modelo de visión y lenguaje, el RFM recibe aproximadamente cien ejemplos de texto claramente relacionados con conspiraciones y cien que no lo están, y a partir de esa distinción construye un vector de activación que captura la huella matemática del concepto.

"Lo que nuestro método dice sobre estos sistemas es que tienen estos conceptos dentro, pero no todos están activamente expuestos. Hay formas de extraerlos y activarlos en maneras que el prompting convencional no puede revelar." Adityanarayanan Radhakrishnan, MIT / Broad Institute

Lo notable es la eficiencia del proceso. Con menos de 500 muestras de entrenamiento y en menos de un minuto de cómputo sobre una GPU A100 estándar, el algoritmo puede aislar el vector conceptual y verificar si ese concepto está codificado en el modelo. Pero no se detiene ahí: también puede modificar esa representación, subirle el volumen o silenciarla, de forma que afecte cada respuesta generada ante cualquier consulta posterior. "Nuestro instinto como humanos es controlar y monitorear estos sistemas a través del lenguaje natural", observó Beaglehole en declaraciones a UC San Diego. "Sin embargo, las redes neuronales procesan la información a través de sus operaciones matemáticas internas. Nuestro trabajo demuestra qué se puede ganar operando directamente sobre esos procesos."

El equipo aplicó la técnica sobre los modelos de código abierto más grandes disponibles, incluyendo Llama y Deepseek. Cuando amplificaron la representación del "teórico de conspiraciones" y luego preguntaron sobre el origen de la célebre imagen "Blue Marble" tomada desde el Apolo 17, la respuesta cambió de manera radical: el sistema describió la fotografía con el tono y la lógica de quien duda de la historia oficial, llegando a afirmar que se trataba de un montaje de la NASA para ocultar que la Tierra es plana. No hubo ningún cambio en la instrucción dada al modelo. Solo en el vector interno.

Quinientos doce conceptos bajo el microscopio

La escala del experimento distingue este trabajo de intentos anteriores. El equipo exploró 512 conceptos distribuidos en cinco categorías: miedos (a los insectos, al matrimonio, a los botones), perfiles de experto (influencer social, medievalista), estados de ánimo (arrogante, divertido con distancia irónica), preferencias geográficas (Boston, Kuala Lumpur) y personalidades históricas o públicas como Ada Lovelace y Neil deGrasse Tyson. En cada caso, el RFM identificó la representación interna del concepto y la manipuló para que afectara las respuestas generadas. El método funcionó también en chino y hindi, lo que sugiere que las representaciones conceptuales son robustas a través de familias lingüísticas distintas.

🎯 Aplicaciones demostradas del método

Traducción de código: El direccionamiento interno mejoró la traducción de código de Python a C++ en modelos de lenguaje sin necesidad de reentrenamiento, optimizando tareas precisas mediante el ajuste de vectores.

Detección de alucinaciones: Los vectores conceptuales identificados por el RFM permitieron detectar respuestas alucinadas con mayor precisión que los modelos de evaluación existentes, abriendo una vía de monitoreo en tiempo real.

Transferencia entre idiomas: Los vectores de concepto se mantuvieron estables al transferirlos entre modelos entrenados en inglés, español y mandarín, confirmando una robustez translingüística inesperada.

Un hallazgo especialmente revelador surgió cuando el equipo amplificó el concepto de "anti-rechazo", es decir, la disposición opuesta a las restricciones de seguridad que los modelos modernos tienen incorporadas. Al activar ese vector, sistemas que normalmente se niegan a responder preguntas potencialmente dañinas comenzaron a hacerlo: uno ofreció instrucciones para consumir cocaína; otro proporcionó números de seguridad social; un tercero sostuvo que la vacuna contra el COVID-19 era venenosa. El equipo señaló estos resultados no como demostraciones de algo deseable, sino como evidencia de vulnerabilidades reales que su método permite identificar y, en principio, corregir.

Tasa de éxito en el direccionamiento de conceptos según metodología, evaluado sobre el benchmark de 512 conceptos semánticos. Fuentes: Science Vol. 391, 2026; arXiv:2502.03708, 2026; arXiv:2602.00333, 2026.

El impacto técnico ya tiene una primera extensión publicada. Un trabajo en arXiv de febrero de 2026, firmado en parte por los mismos investigadores, extendió el marco RFM incorporando atención guiada para aumentar la tasa de éxito en el direccionamiento a cerca del 95% sobre modelos de 8.000 millones de parámetros como Llama 3.1, frente a menos del 50% que lograban los métodos anteriores. En términos prácticos, casi cualquier concepto buscado puede ahora encontrarse y modularse de manera confiable, con tiempos de cómputo que caben en una sesión de trabajo.

        Dato clave: Con menos de 500 ejemplos de entrenamiento y en menos de un minuto sobre una única GPU NVIDIA A100, el método RFM identifica y direcciona cualquier concepto abstracto en los grandes modelos de lenguaje disponibles hoy. Los enfoques previos requerían horas de cómputo, conjuntos de datos mucho más amplios y obtenían resultados considerablemente menos precisos.
    

La geometría del sesgo y sus consecuencias

El descubrimiento abre posibilidades genuinamente valiosas para quienes desarrollan y despliegan estos sistemas. Modelos especializados en medicina, derecho o educación podrían ser ajustados para enfatizar rasgos como "brevedad", "rigor factual" o "empatía clínica" sin reentrenar millones de parámetros desde cero, un proceso que consume semanas de cómputo y costos millonarios. La misma lógica aplica a la detección de alucinaciones en tiempo real: si el concepto de "respuesta alucinada" puede identificarse como un vector en el espacio de activaciones, monitorear su presencia durante una inferencia se vuelve técnicamente factible por primera vez.

Belkin lo resumió con una metáfora que captura bien la magnitud del hallazgo: "Es como ganar una comprensión más profunda del proceso de pensamiento interno del sistema. Esto nos permite no solo predecir qué tipo de respuestas generará, sino también influir activamente sobre él hacia respuestas más útiles y menos dañinas." Lo que antes era una caja sellada ahora tiene una cerradura. Y el equipo del MIT y UC San Diego hizo pública la llave al publicar el código subyacente en repositorios de acceso libre.

⚠️ Riesgos documentados por los propios investigadores

Jailbreaking de precisión: Al disminuir el vector de "rechazo", los modelos de código abierto pueden saltarse sus propias restricciones de seguridad de manera silenciosa, sin señales visibles para el usuario final.

Amplificación de sesgos políticos: El método puede intensificar ideologías o marcos conspiracionistas dentro de un sistema sin modificar su comportamiento aparente ante la mayoría de consultas cotidianas.

Nueva superficie de ataque: Cualquier actor con acceso a los pesos de un modelo de código abierto puede aplicar técnicas similares para insertar vulnerabilidades difíciles de detectar desde el exterior.

Los autores reconocen esta tensión sin eludirla. La publicación del código refleja la convicción de que iluminar el interior de sistemas que hoy operan con opacidad inaceptable supera, en términos de beneficio social, el riesgo de que las mismas herramientas sean mal utilizadas. "Estos resultados sugieren que los modelos saben más de lo que expresan en sus respuestas, y que comprender las representaciones internas podría conducir a mejoras fundamentales en rendimiento y seguridad", escriben en el paper.

El financiamiento del trabajo provino de la Fundación Nacional de Ciencias de Estados Unidos, la Fundación Simons, el instituto TILOS y la Oficina de Investigación Naval, lo que subraya el interés estatal en comprender, y llegado el caso controlar, los sistemas de lenguaje que ya operan en contextos sensibles. La pregunta que deja abierta este trabajo no es si estos conceptos existen dentro de los modelos; ya está demostrado que sí. La pregunta, más incómoda y más urgente, es quién tendrá el poder de ajustarlos, con qué criterios, y bajo qué supervisión pública.

Referencias

Radhakrishnan, A.; Beaglehole, D.; Belkin, M.; Boix-Adserà, E. "Toward universal steering and monitoring of AI models." Science, Vol. 391, Issue 6787, pp. 787-792. 19 de febrero de 2026.

MIT News. "Exposing biases, moods, personalities, and abstract concepts hidden in large language models." Massachusetts Institute of Technology. 19 de febrero de 2026.

UC San Diego Today. "A new method to steer AI output uncovers vulnerabilities and potential improvements." Universidad de California, San Diego. 18 de febrero de 2026.

arXiv:2502.03708. "Aggregate and conquer: detecting and steering LLM concepts by combining nonlinear predictors over multiple layers." 2026.

arXiv:2602.00333. "Efficient and accurate steering of large language models with attention-guided RFM." 2026.

Beaglehole, D.; Radhakrishnan, A.; et al. Trabajo previo sobre Recursive Feature Machines. Science, 2024.

AI Certs. "LLM bias discovery reveals hidden moods within AI models." 22 de febrero de 2026.

Perficient. "LLM concept vectors: MIT research on steering AI behavior." 25 de febrero de 2026.

Científicos descubrieron que los modelos de lenguaje tienen personalidades propias que nadie programó