HalloMTBench: la prueba que expuso las fallas de la traducción automática

Challenging Multilingual LLMs: La crisis de la traducción automática

Existe un abismo profundo entre lo que las máquinas parecen hacer y lo que realmente hacen cuando procesamos el lenguaje. Durante los últimos años, los modelos de lenguaje grandes han revolucionado la traducción automática con un desempeño que supera ostensiblemente al de los sistemas tradicionales. Las evaluaciones estandarizadas que circulan en la industria sugieren que estos algoritmos casi no cometen errores, operando con tasas de precisión cercanas a la perfección. Sin embargo, esta tranquilidad generalizada es profundamente ilusoria.

Cuando investigadores de Alibaba y la Universidad de Tianjin sometieron a los traductores de lenguaje más avanzados del mundo a pruebas más rigurosas y desafiantes, los números no simplemente se deterioraron: colapsaron. Los sistemas que supuestamente afirmaban funcionar casi perfectamente comenzaron a inventar información, a confundir un idioma con otro de manera sistemática, a repetir palabras sin sentido.

El problema descubierto no es ocasional ni marginal en su impacto. Es sistemático, predecible en sus patrones, y profundamente enraizado en la naturaleza fundamental de cómo estos algoritmos procesan múltiples lenguas simultáneamente. Más inquietante aún es que los intentos recientes realizados por desarrolladores para mejorar estos modelos mediante técnicas sofisticadas de optimización y aprendizaje reforzado parecen estar amplificando deliberadamente las vulnerabilidades en lugar de resolverlas. Este descubrimiento expone una verdad incómoda pero necesaria sobre la traducción automática contemporánea: las máquinas que actualmente utilizan empresas multinacionales, plataformas de comercio electrónico globales, gobiernos y millones de usuarios individuales cometen errores graves en aproximadamente uno de cada tres casos de traducción real.

Durante décadas, los investigadores han medido con laboriosidad la calidad de los traductores digitales usando conjuntos de datos estandarizados que se reutilizan constantemente. Estos conjuntos de pruebas existían desde la era de los sistemas anteriores, diseñados específicamente para evaluar tecnología que ya hace años dejó de ser relevante. Cuando Xinwei Wu y su equipo colaborativo en Alibaba International Digital Commerce examinaron meticulosamente cómo se desempeñaban los modelos más nuevos en esas pruebas antiguas y obsoletas, encontraron algo verdaderamente revelador que desafiaba las narrativas existentes. El modelo Gemini-2.0-Flash alcanzaba una tasa de error del 0 por ciento en las métricas tradicionales. El Claude-3.5-Sonnet igualmente mostraba un 0 por ciento. El GPT-4o-mini, uno de los más ampliamente utilizados en contextos comerciales, también reportaba un 0 por ciento de error.

Pero cuando ese mismo equipo creó un conjunto de pruebas radicalmente diferente basado en errores reales producidos por estas máquinas en contextos naturales, los números saltaron instantáneamente de cero a porcentajes alarmantes que desmentían completamente los reportes previos. El Gemini-2.0-Flash pasó de 0 por ciento a 38.9 por ciento. El Claude-3.5-Sonnet pasó de 0 por ciento a 41.5 por ciento. El GPT-4o-mini ascendió de 0 por ciento a 33.2 por ciento.

No se trataba de un fallo metodológico del nuevo conjunto de pruebas, sino de que las pruebas antiguas eran funcionalmente inútiles para capturar la complejidad real del problema. El equipo de investigadores denominó este fenómeno crucial "obsolescencia de los benchmarks existentes". Los conjuntos de datos antiguos no podían exponer adecuadamente los modos de falla del tipo de modelos que ahora dominan el mercado global. Era como si durante años la industria hubiera estado midiendo la velocidad de vehículos en pistas de entrenamiento perfectamente controladas, ignorando completamente cómo esos vehículos se desempeñaban en carreteras caóticas del mundo real con variables impredecibles.

El primer paso fundamental para resolver cualquier problema complejo es comprenderlo a fondo. Pero la industria de la traducción automática no tenía ni siquiera una forma consistente, unificada o ampliamente aceptada de describir qué es realmente una falla en la traducción automática de lenguaje grande. Los sistemas anteriores, aquellos basados en arquitecturas especializadas denominadas encoder-decoder, fallaban principalmente generando contenido incorrecto o desconectado semánticamente del texto original. Los nuevos modelos de lenguaje grandes eran completamente diferentes en su naturaleza fundamental. No fueron entrenados específicamente para traducir textos. Fueron entrenados como sistemas generales de lenguaje, capaces de ejecutar virtualmente cualquier tarea que se les instruyera en lenguaje natural humano.

Cuando un usuario escribe "traduce esto del inglés al vietnamita", el modelo interpreta estas palabras como una instrucción explícita. Pero su naturaleza autoregresiva inherente, su tendencia mecánica a generar una palabra tras otra siguiendo probabilidades estadísticas complejas, puede hacer que ignore la instrucción completamente en algunos casos. Puede devolver el texto en inglés ligeramente parafraseado. Puede generar salida en un idioma completamente diferente al solicitado. Puede inventar información que nunca existió en el original. Con esta comprensión profunda, el equipo propuso una definición completamente nueva y rigurosa.

Una alucinación de traducción en estos modelos contemporáneos es cualquier salida que se desvía de las restricciones tanto de la instrucción explícita como del contenido original proporcionado. Basándose en eso, crearon una taxonomía estructurada de dos categorías principales distintas. La primera, que denominan "desprendimiento de la instrucción", agrupa aquellos errores donde el modelo simplemente no sigue lo que se le pedía hacer de manera clara. Incluye casos donde se le pide traducir al portugués pero devuelve el texto original en inglés sin modificar. Incluye situaciones más extremas donde se instruye al modelo a traducir al japonés y sin embargo genera salida en chino o árabe o vietnamita.

La segunda categoría, el "desprendimiento de la fuente", describe errores donde el modelo técnicamente sigue la instrucción de idioma, produciendo contenido en el idioma correcto solicitado, pero ese contenido es profundamente infiel al original. Aquí es donde el modelo fabrica información completamente nueva que nunca existió en el texto de partida. Un usuario proporciona "compré una caja" pero el modelo traduce "compré una caja en Amazon", inventando completamente una tienda que no fue mencionada. O el modelo genera palabras repetidas sin sentido, creando secuencias lingüísticas que carecen completamente de cualquier significado coherente.

Crear un conjunto de pruebas que capturara estos errores de manera sistemática requería un esfuerzo extraordinario y coordinado. Los investigadores necesitaban errores reales verificables, no ejemplos sintéticos generados artificialmente. Necesitaban suficientes ejemplos para hacer afirmaciones estadísticamente significativas sobre múltiples idiomas. Necesitaban verificación humana exhaustiva sin que eso consumiera recursos infinitos o impracticables.

Metodología de curación y evaluación masiva

El equipo diseñó un proceso meticuloso de cuatro fases distintas e interdependientes. Primero, utilizó cuatro de los modelos de lenguaje más poderosos disponibles actualmente en el mercado: GPT-4o-Mini, Gemini-2.0-Flash, Claude-3.5-Sonnet y Qwen3-Max-20250428. Estos modelos tradujeron 4 millones de oraciones del inglés a once idiomas distintos: árabe, ruso, chino, japonés, español, francés, alemán, portugués, italiano, coreano y vietnamita. Eso resultó en 16 millones de traducciones separadas, cada una siendo un potencial sitio donde podría ocurrir un error de traducción.

En la segunda fase, implementaron un sistema automatizado de detección basado en lo que denominan "jueces modelo". Un grupo de tres modelos diferentes actuó como árbitros independientes verificadores. Cada uno evaluaba sistemáticamente las 16 millones de traducciones según criterios específicos y predefinidos. Una traducción era marcada como problemática solo si al menos dos de los tres jueces estaban de acuerdo en identificar una falla. Este sistema de supermayoría reducía significativamente los falsos positivos, asegurando que solo los casos reales verificados de error avanzaran a la siguiente fase.

La tercera fase fue donde el rigor humano se convirtió en absolutamente esencial. Cinco lingüistas profesionales altamente calificados con profunda experiencia acumulada en revisión de traducciones y fluidez nativa demostrada en sus respectivos idiomas objetivo revisaron manualmente cada caso que el sistema automatizado había identificado. Fueron entrenados exhaustivamente durante cinco horas completas en la taxonomía propuesta. Utilizaron una interfaz de anotación personalizada que permitía clasificación precisa y documentación meticulosa.

El acuerdo estadístico entre anotadores se mantuvo consistentemente en un mínimo de 0.8 en la métrica estadística Kappa de Cohen, que es un estándar riguroso reconocido internacionalmente para investigación de alta calidad. La cuarta fase representó control de calidad continuo y exhaustivo. Los lingüistas principales revisaron sistemáticamente el 10 por ciento del trabajo de cada anotador de manera aleatoria. Las discrepancias fueron arbitradas por consenso. La retroalimentación fue proporcionada regularmente y consistentemente.

El resultado final fue HalloMTBench, un conjunto integral de 5,435 instancias de traducción problemática verificadas por expertos humanos, distribuidas estratégicamente a través de 11 pares de idiomas diferentes. Cada instancia contiene de manera exhaustiva el texto original íntegro, la traducción defectuosa generada, el modelo específico que la produjo, el par de idiomas involucrado y la clasificación detallada del error según la taxonomía propuesta.

Cuando el equipo evaluó diecisiete modelos de lenguaje diferentes usando este nuevo conjunto de pruebas riguroso, los resultados pintaron un panorama claro de vulnerabilidad extendida sistemática. Las tasas de error variaron desde un mínimo de 33.19 por ciento hasta un máximo alarmante de 83.99 por ciento. Ningún modelo logró escapar completamente del problema. Incluso los mejores, aquellos que parecían funcionar casi perfectamente bajo pruebas antiguas, cometían errores en aproximadamente uno de cada tres casos de traducción real. Un grupo de modelos líderes emergió con desempeño superior relativo. El GPT-4o-mini alcanzó 33.19 por ciento de tasa de error. El Claude-3.7-Sonnet llegó a 33.53 por ciento. El GPT-4o se ubicó en 33.61 por ciento. Estos tres estaban agrupados estrechamente formando una élite de rendimiento comparativo. Sin embargo, incluso estos números significan que de cada 100 traducciones, aproximadamente 33 contienen errores detectables por expertos. En contextos comerciales reales, legales o médicos, eso resulta completamente inaceptable.

En el otro extremo del espectro, el modelo Seed-X-PPO-7B exhibió la tasa más alta con un alarmante 83.99 por ciento de errores. Más de ocho de cada diez traducciones contenían problemas verificables. La brecha masiva entre el mejor desempeño y el peor desempeño refleja diferencias fundamentales en escala de modelo, calidad del entrenamiento y arquitectura subyacente. Un patrón sorprendente y contraintuitivo emergió cuando los investigadores analizaron meticulosamente cómo la longitud del texto afectaba las tasas de error. No seguía una trayectoria lineal predecible.

En cambio, producía una forma matemática de U. Los textos muy cortos, aquellos con menos de 50 caracteres, mostraban tasas de error relativamente altas. Conforme los textos se hacían gradualmente más largos, las tasas bajaban consistentemente. Alcanzaban su punto más bajo óptimo en el rango de 100 a 499 caracteres. Pero entonces la tendencia se revertía completamente. Los textos más largos mostraban tasas de error nuevamente en aumento sustancial. Esta vulnerabilidad en ambos extremos revela significativamente cómo funcionan internamente estos modelos. Los textos cortos pueden carecer del contexto suficiente para que la máquina ancle su traducción en significado sólido verificable.

Sin información contextual adecuada, el algoritmo derivaba hacia contenido genérico o desconectado semánticamente. Los textos largos, por su parte, parecen exceder las capacidades de memoria efectiva del modelo. Los sistemas pierden el hilo del significado original a través de distancias largas. Fallan en mantener dependencias sintácticas correctas cuando el contenido se vuelve extenso. Estos hallazgos demuestran limitaciones fundamentales que persisten incluso en los sistemas más sofisticados.

Uno de los hallazgos más preocupantes y contrarios a la intuición surgió de comparar sistemáticamente versiones base de modelos con versiones que fueron refinadas usando aprendizaje reforzado, una técnica reciente diseñada supuestamente para mejorar significativamente el razonamiento en sistemas de lenguaje. Intuitivamente, la optimización debería reducir errores medibles. Pero eso no sucedió en esta investigación. El modelo DeepSeek-V3 base mostró cierta confusión entre idiomas específicos, pero dentro de rangos manejables y predecibles. Pero cuando fue ajustado usando aprendizaje reforzado para producir DeepSeek-R1, la tasa de error específicamente para vietnamita saltó de un nivel moderado a un asombroso 87.9 por ciento. De manera similar, Qwen3-Max, también refinado con esta técnica, mostró una concentración extrema en confundir ruso alcanzando 85.7 por ciento y árabe llegando a 83.3 por ciento de errores.

Los investigadores sugieren que esto refleja lo que otros estudios recientes han identificado como "mezcla de lenguaje inducida por aprendizaje reforzado". Mientras que la optimización reforzada mejora ciertos aspectos cuantificables del comportamiento del modelo, aparentemente también amplifica deliberadamente los defectos idiosincráticos del sistema subyacente. Es como si el proceso de refinamiento tomara tendencias débiles preexistentes y las convirtiera en vulnerabilidades masivas e irremediables. Este fenómeno sugiere que la optimización mediante aprendizaje reforzado requiere un cuidado extraordinario cuando se aplica a sistemas multilingües.

El análisis más revelador y profundo vino del examen detallado de qué idiomas eran confundidos sistemáticamente con qué otros idiomas. Los errores no eran aleatorios ni distribuidos uniformemente. Seguían patrones extraordinariamente consistentes impulsados directamente por similitudes lingüísticas que existen en la estructura profunda del lenguaje humano. Dos grupos principales de confusión emergieron repetidamente en los datos. El primero involucraba claramente las lenguas romances.

Cuando los modelos fueron instruidos a traducir al portugués, frecuentemente producían español o italiano. Cuando se pedía francés, a menudo generaban italiano o español. Estos idiomas comparten raíces latinas comunes, vocabulario extensamente superpuesto y estructuras gramaticales notablemente similares. El fenómeno fue tan consistente que sugiere ser un artefacto fundamental de cómo los transformadores, la arquitectura de red neuronal que subyace a estos modelos, aprenden representaciones multilingües.

El segundo grupo de confusión fue aún más pronunciado y predecible. Debido a similitudes ortográficas compartidas, los modelos consistentemente generaban chino cuando se les instruía a traducir al japonés. Ambos idiomas utilizan caracteres compartidos del sistema kanji de escritura. El error era tan predecible que cuando los investigadores observaron la frecuencia de estas confusiones, fue prácticamente determinístico en su naturaleza. Notablemente, el coreano, que utiliza el sistema de escritura completamente distinto Hangul, fue casi nunca confundido con japonés. Esto confirmó de manera concluyente que la similitud de escritura era el factor crítico. Estos hallazgos sugieren algo profundamente fundamental sobre cómo estos modelos procesan el lenguaje.

Los algoritmos no están realmente "aprendiendo" a traducir en el sentido que podría intuitivamente esperarse o desearse. Están aprendiendo correlaciones estadísticas entre representaciones de idiomas en sus espacios latentes internos. Cuando esas representaciones son similares, el modelo simplemente mapea al idioma equivocado. Es como si los idiomas similares ocuparan territorios cercanos en el espacio matemático del modelo, y el algoritmo ocasionalmente se confunde sobre exactamente cuál debería ser la salida correcta. Este mecanismo explica por qué la confusión no es aleatoria sino altamente predecible basada en características lingüísticas objetivas.

Una pregunta crítica se presentó durante el proyecto: si el equipo había construido un sistema de evaluación automatizado usando modelos, ¿qué garantía tenía de que ese sistema produjera resultados similares a los de los expertos humanos? La credibilidad de todo el conjunto de pruebas dependía de responder esta pregunta de manera convincente y rigurosa. Para responder definitivamente, el equipo volvió a clasificar los 5,435 ejemplos verificados por expertos utilizando su sistema de jueces automáticos.

El acuerdo fue notablemente alto. Para tipos de error claramente objetivos como repetición, contenido sin traducir e idioma incorrecto, el acuerdo alcanzó entre 99.86 y 100 por ciento. Para la categoría más subjetiva de adiciones extrañas, el acuerdo se mantuvo en un sólido 93.68 por ciento. Este nivel de concordancia validó convincentemente el enfoque de jueces modelo como un proxy confiable y escalable para evaluación humana. Este hallazgo tiene implicaciones importantes más allá de este trabajo específico, sugiriendo que los sistemas basados en modelos pueden servir como herramientas de evaluación confiables en otros contextos donde la evaluación manual es costosa o impracticable.

Los hallazgos de HalloMTBench tienen consecuencias profundas para cualquiera que confíe en sistemas de traducción automática. Esto incluye empresas multinacionales, plataformas de comercio electrónico, gobiernos, organizaciones de salud y miles de millones de usuarios individuales. No se trata simplemente de que estos sistemas cometan errores ocasionales. Se trata de que cometen errores de maneras específicas, predecibles y a menudo imperceptibles que pueden pasar desapercibidos a lectores no expertos.

Un cliente que recibe una traducción que suena natural puede nunca darse cuenta de que información ha sido fabricada completamente. Un abogado revisando un contrato traducido podría perder detalles críticos que fueron inventados por el algoritmo. Un médico confiando en instrucciones de dosificación traducidas podría administrar medicamentos basado en información que el modelo generó sin ninguna base en el original. Las implicaciones de seguridad son serias y no pueden ser ignoradas por quienes implementan estos sistemas en contextos críticos. Para la comunidad investigadora, el mensaje es inequívoco: los conjuntos de pruebas antiguos no son suficientemente desafiantes y afirman una confianza que no está justificada por la realidad de cómo estos modelos funcionan en la práctica. Es necesario construir evaluaciones más rigurosas que expongan estas vulnerabilidades ocultas de manera sistemática.

HalloMTBench representa un paso importante en esa dirección, pero es claramente solo el principio. Otros contextos de aplicación, otras combinaciones de idiomas, otras arquitecturas de modelo requerirán investigación similar y rigurosa. Para los creadores de modelos, el trabajo sugiere que simplemente escalar sistemas o aplicar optimizaciones estándar podría nunca resolver completamente estos problemas fundamentales. El aprendizaje reforzado, diseñado para mejorar el rendimiento, aparentemente está amplificando ciertas clases de fallas. Esto sugiere que se necesita pensamiento más profundo sobre cómo entrenar modelos multilingües, cómo anclarlos de manera robusta al contenido original, y cómo asegurar que las instrucciones de la tarea sean respetadas de manera confiable incluso durante la optimización avanzada.

Lo que emerge de este trabajo es una verdad incómoda pero necesaria que la industria debe confrontar. Hemos construido sistemas de traducción que son lo suficientemente buenos para engañar, lo suficientemente fluidos para ser convincentes, pero no lo suficientemente confiables para ser completamente autónomos en contextos donde la precisión importa fundamentalmente. Estos sistemas pueden traducir la mayoría de textos de manera aceptable en términos generales. Pero en un porcentaje significativo de casos, inventarán información, confundirán idiomas o simplemente fallarán en seguir instrucciones básicas. En algunos contextos, esta limitación es simplemente frustrante causando inconvenientes menores. Un usuario obtiene una traducción imperfecta pero útil.

En otros contextos, es potencialmente catastrófico con consecuencias reales. Un documento legal traducido con adiciones de contenido ficticio. Instrucciones médicas donde información crítica ha sido alterada o fabricada. Comunicaciones diplomáticas donde el significado ha sido distorsionado por confusión sistemática de idiomas. HalloMTBench es importante no simplemente porque proporciona herramientas para medir y diagnosticar estos problemas de manera sistemática. Es importante porque hace visible lo que previamente era invisible. Expone fallas que de otra manera permanecerían enterradas bajo capas de fluidez lingüística y naturalidad aparente.

En un campo donde millones de personas dependen diariamente de la confiabilidad de estas máquinas para comunicarse, trabajar y realizar transacciones importantes, la visibilidad es el primer paso indispensable hacia la mejora genuina. Sin verlo, sin enfrentar directamente los números reales de cuán a menudo estos sistemas fallan en contextos reales, las fallas no pueden ser solucionadas de manera sistemática. El trabajo realizado por investigadores en Alibaba y la Universidad de Tianjin representa un primer paso valiente en esa dirección crítica para el futuro de la traducción automática.

Referencias

Wu, X., Liu, H., Zhou, J., Zhao, X., Xu, L., Wang, L., Luo, W., & Zhang, K. (2025). Challenging multilingual LLMs: A new taxonomy and benchmark for unraveling hallucination in translation. arXiv preprint arXiv:2510.24073.

Guo, D., Yang, D., Zhang, H., Song, J., Zhang, R., Xu, R., Zhu, Q., Ma, S., Wang, P., Bi, X., & Ou, S. (2025). DeepSeek-R1: Incentivizing reasoning capability in LLMs via reinforcement learning. arXiv preprint arXiv:2501.12948.

Wang, M., Lange, L., Adel, H., Ma, Y., Strötgen, J., & Schütze, H. (2025). Language mixing in reasoning language models: Patterns, impact, and internal causes. arXiv preprint arXiv:2505.14815.

Ji, Z., Lee, N., Frieske, R., Yu, T., Su, D., Xu, Y., Ishii, E., Bang, Y. J., Madotto, A., & Fung, P. (2023). Survey of hallucination in natural language generation. ACM Computing Surveys, 55(12), 1-38.

Huang, L., Yu, W., Ma, W., Zhong, W., Feng, Z., Wang, H., Chen, Q., Peng, W., Feng, X., Qin, B., Li, Y., & Liu, S. (2025). A survey on hallucination in large language models: Principles, taxonomy, challenges, and open questions. ACM Transactions on Information Systems, 43(2), 1-55.

HalloMTBench: la prueba que expuso las fallas de la traducción automática