Durante años, la ortodoxia en el entrenamiento de modelos de lenguaje ha sostenido una verdad que parecía irrefutable: la calidad de los datos determina la calidad del modelo. Filtrar contenido tóxico, eliminar prejuicios, purificar el corpus de entrenamiento se convirtieron en prácticas tan arraigadas que pocos se detuvieron a cuestionar su fundamento. La lógica parecía impecable: si alimentas a una red neuronal con toxicidad, obtendrás toxicidad; si la nutres con limpieza, cosechas limpieza. Pero qué ocurriría si esta intuición, tan profundamente instalada en la comunidad de investigación, fuera precisamente eso: una intuición, no una ley inmutable de la naturaleza computacional.
Un equipo de investigadores de la Universidad de Harvard ha desafiado este paradigma con hallazgos que resultan tan contraintuitivos como reveladores. Su trabajo, liderado por Kenneth Li junto a Yida Chen, Fernanda Viégas y Martin Wattenberg, demuestra algo que suena casi herético: entrenar modelos de lenguaje con datos tóxicos puede, bajo ciertas condiciones cuidadosamente diseñadas, producir sistemas más controlables, más alineados, más seguros. La clave radica en abandonar la visión fragmentada que separa el preentrenamiento del ajuste posterior, para adoptar una perspectiva integrada donde ambas etapas se diseñan como componentes de un sistema unificado.
La propuesta no consiste en defender la toxicidad ni en trivializar los riesgos reales de contenido dañino. Más bien, plantea una pregunta incómoda pero necesaria: si los mecanismos que producen generaciones tóxicas son difíciles de eliminar completamente mediante técnicas de alineamiento, ¿no sería más efectivo fortalecer el conocimiento interno del modelo sobre toxicidad desde el preentrenamiento, para luego poder controlarlo con mayor precisión durante el despliegue? La toxicidad no intencional, argumentan, surge frecuentemente porque el sistema carece de conciencia suficiente sobre las múltiples formas en que algo puede resultar ofensivo o dañino.
Los resultados empíricos respaldan esta visión aparentemente paradójica. Modelos Olmo de mil millones de parámetros, entrenados con proporciones cuidadosamente graduadas de datos limpios y tóxicos, exhiben un comportamiento fascinante. Aunque el modelo base incrementa su toxicidad conforme aumenta la proporción de datos problemáticos en el corpus de entrenamiento, las versiones ajustadas mediante técnicas de intervención en tiempo de inferencia muestran el patrón opuesto: reducen drásticamente su toxicidad, alcanzando niveles significativamente inferiores a los de modelos entrenados exclusivamente con datos limpios. La toxicidad, paradójicamente, se vuelve más fácil de remover cuando el modelo ha desarrollado representaciones internas más robustas del concepto.
Las evaluaciones en dos conjuntos de datos ampliamente reconocidos, Toxigen y Real Toxicity Prompts, confirman esta dinámica inesperada. Un modelo entrenado con diez por ciento de datos tóxicos y ajustado mediante intervención moderada alcanza apenas 8.19% de toxicidad en Toxigen, comparado con 28.31% para un modelo entrenado únicamente con datos limpios bajo la misma técnica de ajuste. Más notable aún, esta reducción dramática en toxicidad viene acompañada de menor degradación en capacidades generales, medidas mediante pérdida de entropía cruzada. El trade-off que típicamente castiga los esfuerzos de destoxificación se inclina favorablemente cuando el preentrenamiento incorpora el tipo de datos que tradicionalmente habríamos descartado.
Comprender cómo y por qué funciona este enfoque requiere adentrarse en la geometría interna de las representaciones que emergen durante el entrenamiento. Aquí es donde el trabajo de Harvard introduce conceptos técnicos sofisticados explicados mediante experimentos controlados que iluminan mecanismos fundamentales sobre cómo las redes neuronales comprimen información en espacios de representación de menor dimensionalidad que el número de características que deben capturar.
La geometría oculta de las representaciones neuronales
Para construir intuición sobre los procesos subyacentes, los investigadores diseñaron un experimento controlado utilizando transformers miniatura entrenados en secuencias generadas por cadenas de Markov cíclicas. Cada cadena produce secuencias únicas que representan características discretas en un espacio compartido de vocabulario. El número de características excede deliberadamente la dimensionalidad del espacio de representación del modelo, forzando lo que se conoce como superposición: múltiples características deben comprimirse en las mismas direcciones del espacio de activaciones.
Este fenómeno de superposición no constituye una curiosidad teórica sino una realidad ubicua en modelos de lenguaje reales, donde neuronas individuales codifican conceptos múltiples y no relacionados. La superposición complica profundamente la interpretación del comportamiento del modelo porque direcciones individuales en el espacio de activaciones ya no corresponden a características únicas y comprensibles. Además, introduce efectos secundarios no deseados cuando intentamos editar activaciones: modificar una dirección inevitablemente proyecta sobre otras direcciones de características, alterando conceptos que pretendíamos mantener intactos.
Los investigadores introducen una medida cuantitativa que denominan entrelazamiento o entanglement, definida como el máximo valor absoluto de similitud coseno entre la dirección vectorial de una característica y las direcciones de todas las demás características. Cuando dos direcciones están altamente correlacionadas, la característica correspondiente se considera fuertemente entrelazada con el resto. Una característica idealmente representada exhibiría bajo entrelazamiento, permitiendo detección y edición precisas sin contaminar otras representaciones.
El experimento manipula sistemáticamente la frecuencia con la que aparecen datos de una característica específica, manteniendo constantes las demás. Los resultados revelan un patrón claro: conforme aumenta la cantidad de datos asociados con la característica subrepresentada, su medida de entrelazamiento disminuye marcadamente, aproximándose gradualmente al nivel de entrelazamiento promedio de las otras características. Cuando la característica está prácticamente ausente del corpus, su representación se superpone fuertemente con otras, alcanzando valores de entrelazamiento cercanos a 0.8. Al incrementar su presencia hasta equipararla con las demás características, el entrelazamiento cae hacia 0.44, que representa el mínimo teórico calculado mediante la cota de Welch para el número de características y dimensiones en este sistema particular.
La analogía con toxicidad resulta directa. Los corpus filtrados como C4, diseñados explícitamente para eliminar contenido problemático, contienen cantidades mínimas de datos tóxicos. Bajo la hipótesis que emerge del experimento controlado, las representaciones de toxicidad en modelos entrenados exclusivamente con estos datos limpios estarían altamente entrelazadas con representaciones de conceptos no relacionados pero más frecuentes. Cualquier intento agresivo de manipular la dirección de toxicidad afectaría inevitablemente otras capacidades del modelo, explicando por qué las técnicas de alineamiento tradicionales frecuentemente degradan el rendimiento general. La solución contraintuitiva: incrementar deliberadamente la presencia de datos tóxicos durante el preentrenamiento para desarrollar representaciones menos entrelazadas que puedan manipularse quirúrgicamente en el ajuste posterior.
Del laboratorio controlado a modelos de escala real
Validar esta hipótesis en sistemas realistas requería infraestructura y diseño experimental considerables. El equipo seleccionó Olmo, un modelo de lenguaje completamente abierto desde la limpieza de datos hasta la evaluación, desarrollado para facilitar exactamente este tipo de investigación. La variante de mil millones de parámetros, con veinticuatro capas, dieciséis cabezales de atención por capa y dimensión oculta de mil veinticuatro, proporciona suficiente complejidad para aproximar comportamientos de sistemas más grandes sin los costos prohibitivos de entrenar modelos masivos repetidamente bajo múltiples configuraciones.
La elección de datasets para el experimento priorizó control preciso sobre gradaciones sutiles. C4, derivado de Common Crawl mediante filtrado extensivo, representa datos casi completamente limpios. En el extremo opuesto, publicaciones del foro 4chan, conocido por su naturaleza sin restricciones y contenido altamente tóxico, proporcionan el contraste necesario. Esta dicotomía binaria permite manipular la composición del corpus de entrenamiento en incrementos exactos, mezclando proporciones variables de ambas fuentes mientras se mantiene constante la cantidad total de datos limpios.
Los investigadores entrenaron un espectro de modelos con proporciones de contenido tóxico que van desde cero hasta veinticinco por ciento, en incrementos de cinco puntos porcentuales. La proporción máxima de veinticinco por ciento representa deliberadamente un valor exagerado, poco realista para aplicaciones prácticas, pero necesario para garantizar que el rango experimental capture cualquier punto óptimo que pueda existir. Cada configuración se entrenó con entre veinte mil millones y veintiséis mil millones de tokens, completándose en aproximadamente doce horas usando dieciséis GPUs Nvidia H100. Para mitigar efectos de aleatoriedad, cada configuración se entrenó dos veces con semillas diferentes.
Las evaluaciones iniciales del modelo base, antes de cualquier ajuste posterior, revelan dinámicas matizadas. La capacidad general, medida mediante MMLU, un benchmark exhaustivo que cubre cincuenta y siete materias desde ciencias hasta humanidades, permanece notablemente estable. Cantidades moderadas de datos tóxicos incluso mejoran ligeramente el rendimiento, posiblemente porque introducen diversidad lingüística que enriquece la adquisición de conocimiento general. La detección de toxicidad, evaluada mediante ToxiGen, mejora consistentemente conforme aumenta la proporción de datos tóxicos, alineándose con hallazgos previos: la exposición explícita a patrones tóxicos ayuda al modelo a reconocerlos.
Crucialmente, agregar datos tóxicos no provoca colapso catastrófico en las capacidades fundamentales del modelo base. El peor efecto observable es que el modelo generará lenguaje menos alineado, un problema que las técnicas de ajuste posterior están diseñadas específicamente para abordar. Esta separación entre preentrenamiento y alineamiento constituye precisamente el espacio conceptual que explota la propuesta de codesign.
Sondas lineales y la arquitectura interna del conocimiento tóxico
Para comprender cómo los datos tóxicos modifican las representaciones internas, los investigadores recurrieron a técnicas de sondeo mediante clasificadores lineales entrenados sobre las activaciones del modelo. La premisa: si un clasificador lineal simple puede distinguir con alta precisión entre textos tóxicos y benignos basándose únicamente en las activaciones de un cabezal de atención particular, ese cabezal ha desarrollado una representación separable del concepto de toxicidad.
El procedimiento involucra extraer activaciones de cada uno de los trescientos ochenta y cuatro cabezales de atención (veinticuatro capas multiplicadas por dieciséis cabezales) en el último token de cada pieza de texto en ToxiGen. Para cada cabezal, se construye un dataset de sondeo pareando estas activaciones con etiquetas humanas sobre si el texto es tóxico. Los datos se dividen en conjuntos de entrenamiento y validación con proporción cuatro a uno, se ajusta un clasificador binario lineal sobre el entrenamiento, y la precisión en validación cuantifica el grado en que ese cabezal específico ha desarrollado representación separable de toxicidad.
La comparación entre modelos entrenados exclusivamente con C4 versus aquellos entrenados con veinticinco por ciento de datos de 4chan revela diferencias estadísticamente significativas. Pruebas formales confirman que la precisión promedio aumenta (p = 0.0002), con intervalo de confianza del noventa y cinco por ciento para la diferencia situándose entre 0.67 y 1.18 puntos porcentuales. Más revelador resulta el cambio en la distribución: el modelo entrenado con toxicidad exhibe una cola derecha más gruesa, indicando mayor cantidad de cabezales que especializan fuertemente en toxicidad.
Esta cola derecha engrosada posee importancia particular para técnicas de intervención en tiempo de inferencia, que operan identificando y manipulando selectivamente los cabezales de mayor precisión. Intervenir únicamente sobre cabezales que capturan fuertemente el concepto objetivo permite alterar el comportamiento del modelo con mínimo daño colateral a capacidades generales. El modelo entrenado con toxicidad proporciona más cabezales candidatos de alta calidad para tal intervención selectiva.
Complementando el análisis de sondeo, los investigadores realizaron experimentos de verbalización inspirados en la técnica Logit Lens. Entrenaron sondas sobre el flujo residual de cada capa usando el dataset Jigsaw, luego identificaron los cincuenta tokens del vocabulario cuyos vectores de desembebido están más cerca de la dirección de la sonda en la capa más precisa. Entre esos cincuenta tokens para el modelo entrenado solo con C4, aproximadamente seis presentan connotación tóxica. Para el modelo entrenado con datos de 4chan, ese número aproximadamente duplica a once. Esta verbalización confirma desde otra perspectiva que la exposición a toxicidad durante preentrenamiento desarrolla comprensión interna más robusta del concepto.
Intervención en tiempo de inferencia y el arte de la manipulación quirúrgica
Demostrar que el preentrenamiento con toxicidad construye mejores representaciones internas solo cobra sentido si esas representaciones facilitan control efectivo durante el despliegue. Aquí entra la técnica de intervención en tiempo de inferencia o activation steering, originalmente propuesta para mitigar alucinaciones en modelos de lenguaje. El procedimiento identifica direcciones lineales relacionadas con atributos específicos en el espacio oculto de cabezales de atención, luego desplaza activaciones a lo largo de esas direcciones durante la decodificación para fortalecer o debilitar los atributos correspondientes.
La técnica involucra hiperparámetros críticos: el número de cabezales sobre los cuales intervenir y la magnitud del desplazamiento. Los investigadores fijaron intervención sobre los treinta cabezales de mayor precisión mientras variaron la fuerza de intervención en tres niveles: débil con magnitud cuatro, media con magnitud ocho, y fuerte con magnitud doce. Esta parametrización permite caracterizar comprehensivamente el efecto a través del espectro de agresividad de la intervención.
La técnica de intervención define inherentemente un trade-off entre mantener capacidad general del modelo y optimizar para objetivos específicos como reducción de toxicidad. Una representación interna bien aprendida puede desplazar favorablemente esta frontera de Pareto, permitiendo mayor destoxificación con menor degradación de capacidades. Evaluar si el preentrenamiento con toxicidad logra este desplazamiento requiere comparación sistemática contra múltiples baselines.
Los resultados exhiben patrones reveladores que confirman la hipótesis central. Observando únicamente los modelos sin intervención, la línea roja muestra que aumentar la proporción de datos tóxicos incrementa monotónicamente la toxicidad generacional del modelo base, desde 41.4% con datos completamente limpios hasta 59.3% con veinticinco por ciento de toxicidad. Este comportamiento esperado confirma que los modelos base efectivamente reflejan la distribución de sus datos de entrenamiento.
El patrón se invierte dramáticamente cuando se aplica intervención. Las tres curvas de intervención muestran forma de sonrisa: la toxicidad disminuye conforme aumenta la proporción de datos tóxicos hasta alcanzar un mínimo alrededor de diez por ciento, luego rebota moderadamente para proporciones superiores. Con intervención fuerte, el modelo entrenado con diez por ciento de toxicidad alcanza apenas 2.63% de generaciones tóxicas en ToxiGen, comparado con 19.82% para el modelo entrenado exclusivamente con datos limpios bajo la misma intervención. Esta reducción de más de siete veces en toxicidad constituye exactamente lo que el título del trabajo promete: cuando los datos malos conducen a modelos buenos.
La existencia de un punto óptimo alrededor de diez por ciento, más allá del cual los beneficios comienzan a revertirse, sugiere que demasiado contenido tóxico eventualmente degrada la capacidad de control. Para la escala particular de modelo y volumen de datos utilizados en estos experimentos, diez por ciento emerge como el punto ideal. Practicantes trabajando con configuraciones diferentes deberían determinar este valor empíricamente para sus contextos específicos, pero el principio general de que existe un rango óptimo no trivial parece robusto.
Comparaciones exhaustivas y la frontera de Pareto
Validar que el preentrenamiento con toxicidad mejora alineabilidad requiere comparación rigurosa contra el estado del arte en técnicas de destoxificación. Los investigadores evaluaron múltiples baselines que representan filosofías diferentes para abordar el problema. Prompting simple mediante instrucciones que solicitan salidas respetuosas y libres de contenido tóxico establece un baseline mínimo. MEDA e INST, propuestas por Prabhumoye y colaboradores, modifican el corpus de preentrenamiento anotando cada oración con su valor de toxicidad, ya sea numérico o binarizado con lenguaje natural, luego condicionan la generación en prompts que solicitan comportamiento benigno.
Supervised finetuning y DPO representan enfoques de dos etapas donde el modelo base se ajusta posteriormente mediante datos curados o preferencias destiladas. El equipo evaluó variantes de Olmo que pasaron por ajuste supervisado con Tulu V2 seguido de datasets como OpenHermes, WebInstructSub y Code-Feedback, además de optimización directa de preferencias con UltraFeedback. Estas técnicas han demostrado efectividad en modelos grandes pero frecuentemente degradan capacidades originales o exhiben fragilidad ante manipulación adversarial.
La visualización de los resultados en el espacio bidimensional definido por toxicidad y pérdida de entropía cruzada revela la frontera de Pareto para cada enfoque. La esquina superior izquierda representa el ideal: baja toxicidad combinada con baja pérdida, indicando preservación de capacidades generales. Los métodos propuestos, marcados con estrellas, dominan consistentemente a los baselines. Con intervención débil, el modelo entrenado con diez por ciento de toxicidad alcanza 16.25% de toxicidad con pérdida de apenas 2.65, superando todos los baselines en ambas dimensiones simultáneamente.
Para usuarios que requieren destoxificación más agresiva, simplemente incrementar la fuerza de intervención proporciona flexibilidad sin necesidad de reentrenar. Intervención fuerte reduce toxicidad hasta 2.63%, un nivel que ningún baseline alcanza, aunque con aumento modesto en pérdida hasta 3.23. Este control paramétrico sobre el trade-off contrasta favorablemente con técnicas de dos etapas que requieren ajuste completo cada vez que se modifican las preferencias de alineamiento.
Los experimentos con supervised finetuning y DPO aplicados sobre el espectro de modelos con diferentes proporciones de toxicidad en preentrenamiento revelan que los beneficios se generalizan más allá de intervención lineal. Ambas técnicas exhiben la misma curva en forma de sonrisa, con punto óptimo nuevamente alrededor de diez por ciento de datos tóxicos. Para DPO específicamente, el modelo con diez por ciento alcanza 27.45% de toxicidad en ToxiGen y 13.02% en Real Toxicity Prompts, comparado con 38.86% y 29.67% respectivamente para el modelo entrenado solo con datos limpios. Estos patrones sugieren que mejorar la representación interna de toxicidad mediante preentrenamiento aumenta efectividad de diversas técnicas de ajuste posterior, no solo las basadas en manipulación lineal directa.
Robustez adversarial y ataques de jailbreaking
Una preocupación legítima sobre cualquier técnica de alineamiento es su fragilidad ante ataques adversariales diseñados específicamente para evadir las salvaguardas implementadas. Los investigadores evaluaron robustez mediante GCG (Genetic Contextual Gradient), un método de ataque de caja blanca que genera prompts adversariales capaces de elicitar salidas dañinas incluso de modelos supuestamente alineados. El ataque opera optimizando perturbaciones textuales para maximizar la probabilidad de que el modelo complete con contenido problemático.
Ejecutaron GCG sobre doscientos prompts adversariales muestreados del dataset AdvBench, calculando tasa de éxito del ataque como la proporción de prompts que lograron elicitar completaciones clasificadas como dañinas. Evaluaron cuatro variantes: modelos entrenados con cero o diez por ciento de toxicidad, cada uno con o sin aplicación de intervención fuerte. Los resultados muestran que sin intervención, ambos modelos son altamente vulnerables, con tasas de éxito superiores al ochenta por ciento. Aplicar intervención fuerte reduce sustancialmente la vulnerabilidad para ambos modelos. Crucialmente, el modelo entrenado con toxicidad más intervención fuerte alcanza la tasa de éxito más baja: 38.5%, comparado con 46% para el modelo limpio bajo intervención equivalente.
Esta mayor robustez adversarial sugiere que el preentrenamiento con toxicidad no solo facilita alineamiento sino que endurece al modelo contra intentos maliciosos de subvertir ese alineamiento. La exposición durante preentrenamiento aparentemente construye defensas más profundas que sobreviven mejor ante ataques sofisticados diseñados para explotar debilidades en el espacio de representación.
Reflexión sobre ortodoxias y el futuro del alineamiento
El trabajo de Harvard desafía una ortodoxia que había cristalizado quizás prematuramente en la comunidad de investigación de modelos de lenguaje. La práctica común de filtrar agresivamente contenido problemático durante preparación de datos emergió de intuiciones razonables sobre cómo las redes neuronales aprenden, reforzadas por observaciones tempranas de que modelos entrenados con datos tóxicos generan salidas tóxicas. Pero estas intuiciones operaban bajo el supuesto implícito de que el modelo base constituye el producto final, o que las técnicas de ajuste posterior funcionan independientemente de las representaciones construidas durante preentrenamiento.
La perspectiva de codesign rechaza esa fragmentación. Preentrenamiento y ajuste posterior no son etapas aisladas sino componentes acoplados de un sistema unificado. Optimizar cada etapa independientemente no garantiza optimización del sistema completo. De hecho, como demuestran estos resultados, optimizar la toxicidad del modelo base mediante filtrado agresivo puede degradar la efectividad del alineamiento posterior al impedir el desarrollo de representaciones internas suficientemente robustas del concepto que se busca controlar.
Para la comunidad de investigación y desarrollo de inteligencia artificial, las implicaciones son profundas. La selección de datos de preentrenamiento debe tratarse como pregunta empírica integrada con el diseño completo del sistema, no como problema resuelto mediante heurísticas de filtrado agresivo. Cada dominio de aplicación requiere balances específicos que consideren no solo qué produce el modelo base sino cómo responderá a técnicas de alineamiento aplicadas posteriormente.
Referencias
Li, Kenneth; Chen, Yida; Viégas, Fernanda; Wattenberg, Martin. "When Bad Data Leads to Good Models". arxiv.org/pdf/2505.04741, 2025
Elhage, Nelson; et al. "Toy models of superposition". arXiv:2209.10652, 2022.
Groeneveld, Dirk; et al. "Olmo: Accelerating the science of language models". arXiv:2402.00838, 2024.
Li, Kenneth; et al. "Inference-time intervention: Eliciting truthful answers from a language model". NeurIPS 2023.
Rafailov, Ryan; et al. "Direct preference optimization: Your language model is secretly a reward model". arXiv:2305.18290, 2023.



