Un error de evaluación está guiando el entrenamiento de modelos

Ciegos al toque humano: el sesgo de solapamiento cuando la IA evalúa resúmenes

La inteligencia artificial generativa se ha acostumbrado a ocupar el centro del escenario: escribe, resume, traduce, corrige, conversa. La parte menos visible del espectáculo, sin embargo, es la que decide si una mejora existe de verdad o solo se siente así: la evaluación. En un campo donde los sistemas producen lenguaje, medir “qué tan bien” se comportan no es como pesar una sustancia o medir una distancia. Hay calidad, sí, pero también hay intención, contexto, ambigüedad, expectativas humanas y, a menudo, desacuerdo razonable entre lectores. La evaluación es el punto donde lo técnico y lo humano se mezclan sin pedir permiso.

Durante años, buena parte de esa medición se apoyó en métricas automáticas que cuentan coincidencias de palabras entre un texto generado y un texto de referencia. En resumen, la máquina escribe; el humano aporta una versión considerada correcta o ejemplar; el algoritmo calcula cuánto se parecen. ROUGE y BLEU, dos familias de indicadores muy populares, nacieron de esa intuición. Son rápidas, baratas y permiten comparar miles de ejemplos sin convocar un jurado humano. También tienen un defecto que parecía tolerable mientras los modelos copiaban frases del original: confunden coincidencia superficial con equivalencia de significado.

El crecimiento de los modelos grandes de lenguaje, conocidos como LLM por sus siglas en inglés, llevó a una nueva tentación. Si estos sistemas son capaces de comprender un artículo y producir un resumen coherente, quizá también puedan leer un artículo y juzgar cuál de dos resúmenes es mejor. La idea es seductora por razones muy mundanas. Evaluar con humanos cuesta dinero y tiempo. Además, mantener criterios consistentes entre evaluadores es difícil, incluso con guías detalladas. Un LLM, en cambio, puede emitir cientos de miles de veredictos en una tarde, con un tono de autoridad sintética que parece, a primera vista, una ventaja operativa.

Pero los jueces también tienen gustos, y en este caso el gusto no es una opinión literaria sino una propiedad medible del sistema. Se han documentado sesgos de longitud, donde se premian respuestas más extensas como si la densidad informativa fuera proporcional al número de palabras. Se han observado sesgos de posición: cuando se presentan dos opciones, el orden influye en la elección, como si el evaluador recordara mejor lo último o se quedara con la primera impresión. También se han descrito vulnerabilidades más inquietantes: en ciertas condiciones, un texto puede ganar puntos solo por incluir pequeñas señales retóricas del tipo “informativo” o “solución”, aunque eso no diga nada sobre su fidelidad.

En ese contexto aparece un trabajo reciente con un título deliberadamente provocador: Blind to the Human Touch: Overlap Bias in LLM-Based Summary Evaluation. Sus autores, Jiangnan Fang y Cheng-Tse Liu, junto con Hanieh Deilamsalehy, Nesreen K. Ahmed, Puneet Mathur, Nedim Lipka, Franck Dernoncourt y Ryan A. Rossi, procedentes de Adobe Research, Cisco Research y un grupo de investigadores independientes, no se proponen derribar el uso de LLM como jueces. Su objetivo es más quirúrgico: aislar un fenómeno concreto, medirlo con precisión y mostrar que está presente en una diversidad de modelos recientes.

Solapamiento es una palabra que suena a burocracia, pero aquí nombra algo muy concreto: cuántas piezas de texto coinciden entre el resumen escrito por una persona y el resumen que produce una máquina. En el mundo de ROUGE y BLEU, esas piezas suelen ser secuencias cortas de palabras, los llamados n-gramas. El trabajo pregunta qué ocurre cuando ese solapamiento baja. En teoría, un juez basado en LLM debería ser más robusto que las métricas clásicas, precisamente porque puede reconocer parafraseos y equivalencias semánticas. La tesis del estudio es que esa robustez tiene grietas, y que en esas grietas aparece un sesgo llamativo.

La conclusión principal se deja decir sin alardes, y por eso mismo golpea con fuerza. A medida que disminuyen las coincidencias entre el resumen generado y el resumen humano de referencia, muchos modelos evaluadores empiezan a preferir con mayor frecuencia el texto producido por otra IA. No se trata únicamente de un modelo que favorece sus propias salidas. La preferencia se extiende a resúmenes creados por modelos distintos, incluso pequeños. En el lenguaje de la literatura técnica reciente, es un caso de sesgo entre IA, el hábito de valorar más alto lo que escriben las máquinas que lo que escriben las personas.

El trabajo también muestra un detalle que complica cualquier interpretación rápida. Para que el sesgo se manifieste con claridad, suele hacer falta una diferencia grande. Cuando el resumen generado se parece bastante al humano, el favoritismo hacia lo generado disminuye y, en cambio, aparece otro problema: el orden se vuelve más decisivo. Es una fotografía incómoda de un evaluador que, cuando los textos son distintos, tiende a preferir el dialecto de las máquinas; cuando los textos son parecidos, se deja arrastrar por un factor irrelevante, la posición de cada opción en la pantalla.

Todo esto parece un debate interno de laboratorio hasta que se recuerda una realidad práctica: en el desarrollo moderno de modelos, la evaluación es el timón. Los sistemas se afinan para maximizar métricas, para ganar comparativas, para agradar a un juez. Si ese juez tiene un sesgo estructural, la dirección del progreso puede torcerse sin que nadie lo note. El trabajo de Fang y colaboradores funciona como un examen médico a un instrumento que la industria está empezando a usar como estetoscopio universal.

En cifras: el estudio de un vistazo

El equipo trabaja con noticias y síntesis enciclopédicas, fuerza longitudes comparables y pide a nueve jueces de lenguaje que decidan entre un resumen humano y otro generado. La pregunta no es si un modelo resume bien, sino qué ocurre cuando se le encarga dictar sentencia sobre el trabajo de otros.

Materia prima	Textos de CNN/DailyMail y WikiSum, con resúmenes humanos filtrados a 95-105 palabras.
Tamaño final tras el filtro	286 artículos (CNN/DailyMail) y 276 (WikiSum).
Producción sintética	6.744 resúmenes generados por modelos actuales, alrededor de 100 palabras.
Volumen de veredictos	Más de 94.000 decisiones de 'jueces' comparando pares humano vs. máquina.
Termómetro de similitud	Promedio de `(ROUGE-1 + ROUGE-2 + BLEU-1 + BLEU-4) / 4`.
Rango de jueces	Entre 1.000 y 12.000 millones de parámetros, más GPT-4o mini (tamaño no divulgado).

Ese promedio no se usa como 'calidad' del resumen. Se usa como indicador de cuánta superficie textual comparte con la referencia humana.

Cómo el estudio separa preferencia estable (humano o máquina) de decisiones arrastradas por el orden. El truco es presentar el mismo par en dos órdenes y observar si el veredicto aguanta el intercambio.

El ascenso del juez automático

La evaluación en lenguaje es una disciplina de compromisos. Un resumen “bueno” no es un objeto único. Depende de la finalidad: informar rápido, guardar un registro, apoyar una búsqueda, preparar un informe breve o servir como guía de lectura. Aun así, la investigación necesitaba números. En tareas como el resumen automático, la comunidad adoptó métricas de solapamiento porque eran fáciles de computar y razonablemente útiles en promedios grandes. En un torneo con cientos de sistemas, era mejor tener una regla imperfecta que no tener ninguna.

Con el tiempo, ese indicador se volvió una moneda de cambio. Los modelos se optimizaban para subir ROUGE. Los artículos reportaban BLEU como si fuera la temperatura corporal de la calidad. El problema se hizo más evidente con el salto hacia resúmenes “abstráctivos”, donde una máquina no copia frases sino que reorganiza, condensa y reformula. En ese régimen, el buen trabajo se parece menos al texto de referencia, y las métricas castigan con una severidad que no siempre coincide con la lectura humana.

Los LLM, entrenados con enormes colecciones de texto y afinados para seguir instrucciones, llegaron con una oferta implícita: “puedo entender”. Esa capacidad aparente permitió imaginar una evaluación que no fuera una contabilidad de palabras. De ahí el auge del enfoque llamado modelo como juez (LLM-as-a-judge, en inglés), donde un modelo se usa para puntuar o comparar salidas de otros modelos. En algunos esquemas, el juez recibe una rúbrica y debe asignar notas por dimensiones; en otros, simplemente elige entre dos opciones. La ventaja prometida es conocida: captar mejor el significado, resistir la paráfrasis y evitar que el sistema gane puntos solo por repetir segmentos del original.

Hay un motivo adicional, menos comentado. En tareas abiertas no siempre existe una única respuesta correcta. Un resumen puede ser válido con enfoques distintos. Pedir múltiples referencias humanas es caro. Los LLM jueces permiten evaluar sin referencias, comparando una respuesta con el texto original y emitiendo un criterio. Para un laboratorio que itera rápido o para una empresa que necesita seleccionar entre variantes, la idea es irresistible.

El lado oscuro de esa comodidad es que un juez basado en LLM no fue entrenado, en su núcleo, para juzgar. Fue entrenado para producir texto verosímil y útil. Cuando se le solicita que decida cuál resumen es mejor, activa heurísticas internas: lo que le suena completo, lo que le parece “bien escrito”, lo que encaja con patrones de respuesta que su entrenamiento reforzó. Si esa heurística coincide con la preferencia humana, el método funciona. Si diverge, se crea un espejismo cuantitativo.

Una parte de la comunidad lleva tiempo midiendo esos desajustes. Se ha estudiado la correlación entre veredictos de LLM y juicios humanos, y se han propuesto trucos para mejorar la alineación, como pedir justificaciones paso a paso o utilizar formularios estructurados. También se han descrito sesgos de posición y de autopreferencia. Lo que faltaba era un análisis granular que conectara un sesgo concreto con un eje medible y simple. Ese hueco es el que ocupa el trabajo de Fang y colegas.

Qué significa “solapamiento” cuando se habla de calidad

El solapamiento puede sonar a un tecnicismo, pero es casi una metáfora de cómo aprendimos a medir lenguaje cuando no teníamos mejores herramientas. Un n-grama es una secuencia de n palabras consecutivas. Con n igual a uno se cuentan palabras sueltas; con n igual a dos se cuentan pares; con n igual a cuatro, fragmentos más específicos. Las métricas ROUGE-1 y ROUGE-2 suelen capturar cuánto del vocabulario y de los pares de palabras del resumen humano aparece en el resumen generado. BLEU-1 y BLEU-4 miran un fenómeno similar, con matices de precisión y penalizaciones por fragmentos demasiado cortos.

Si un resumen humano dice “la misión aterrizó con éxito y comenzó a enviar datos”, y el resumen generado escribe “el aterrizaje fue exitoso y ya envía información”, el solapamiento puede ser bajo pese a que el significado es casi idéntico. Si la máquina copia “aterrizó con éxito” y “enviar datos” aunque omita contexto, el solapamiento sube. El solapamiento es, en el fondo, una aproximación a “estar hablando de lo mismo” que funciona mejor cuando el estilo es similar.

Hay una complicación adicional, relacionada con la extensión. Los indicadores de solapamiento pueden mejorar con textos más largos, simplemente porque aumentan las probabilidades de coincidir con el vocabulario de referencia. Por eso, además de ser métricas imperfectas para la semántica, también están contaminadas por la longitud. De manera paralela, se sabe que muchos LLM jueces prefieren textos más largos. Un experimento que no controle la longitud corre el riesgo de confundir dos efectos: coinciden más porque son más largos, o se prefieren más porque suenan más largos.

Fang y colaboradores deciden entonces controlar estrictamente ese factor. Filtran los conjuntos de datos de manera que los resúmenes humanos tengan entre 95 y 105 palabras, contadas por separación en espacios en lugar de tokens, porque cada modelo tokeniza de forma distinta. Luego piden a los modelos generadores que produzcan resúmenes de alrededor de 100 palabras. El objetivo no es que todos los textos tengan la misma calidad, sino que la longitud no sea la variable que explique las decisiones.

El solapamiento, en este estudio, no se usa como juez de calidad. Se usa como termómetro de similitud superficial. La idea es simple: si un evaluador basado en LLM realmente valora el contenido y no el eco literal del resumen humano, su comportamiento no debería cambiar de forma sistemática a medida que baja el solapamiento. Debería, en principio, seguir prefiriendo el resumen más fiel o más completo, sin importar si usa sinónimos. El trabajo muestra que esa expectativa no se cumple en varios modelos contemporáneos.

El experimento: cómo se fabrica un sesgo medible

Un buen estudio sobre sesgos rara vez depende de un golpe de suerte. Depende de un diseño que haga difícil mentirse a uno mismo. El equipo reúne dos conjuntos de datos clásicos de resumen: CNN/DailyMail, centrado en noticias y reportajes, y WikiSum, más cercano a la síntesis enciclopédica. Ambos aportan textos de temas variados, una ventaja cuando se busca un patrón general y no un caso de nicho.

Tras filtrar por longitud, quedan 286 artículos del conjunto de CNN/DailyMail y 276 de WikiSum. A partir de ahí, el equipo pide a varios modelos que generen resúmenes en torno a cien palabras. La lista cubre una franja amplia del ecosistema actual: Gemma 3 (en versiones de 1B, 4.3B y 12.2B parámetros), Llama (en variantes de 3B y 8B), Phi-4-mini-instruct, Mistral-7B-Instruct, Qwen3-8B y GPT-4o mini. En este último caso, el número de parámetros no es público; el artículo discute una estimación externa cercana a los ocho mil millones, pero deja claro que no pudo confirmarla. Todos los sistemas probados pertenecen a la familia dominante de modelos transformadores de decodificación, la misma arquitectura que ha impulsado la conversación automática reciente. Para que la comparación sea homogénea, los experimentos se ejecutan con temperatura 0,7, un ajuste que introduce variedad sin volver caótica la salida, y sin historial de conversación, de modo que cada resumen y cada veredicto se producen como si fuera la primera vez.

Modelo	Parámetros	Contexto	Papel
google/gemma-3-1B-it	1B	32k	Resumen y juez
google/gemma-3-4B-it	4.3B	128k	Juez
google/gemma-3-12B-it	12.2B	128k	Juez
meta-llama/Llama-3.2-3B-Instruct	3.21B	128k	Juez
meta-llama/Meta-Llama-3-8B-Instruct	8.03B	8k	Resumen y juez

Modelo	Parámetros	Contexto	Papel
microsoft/Phi-4-mini-instruct	3.84B	128k	Resumen y juez
mistralai/Mistral-7B-Instruct-v0.3	7.25B	8k	Resumen y juez
Qwen/Qwen3-8B	8.19B	32k	Juez
GPT-4o mini	No divulgado	128k	Resumen y juez
Todos son transformadores de decodificación. La temperatura usada en el estudio se fija en 0,7 para mantener variedad sin convertir cada salida en una lotería.

Modelos probados y papel en el experimento. En el artículo original se listan los modelos por identificadores de repositorio, salvo GPT-4o mini.

El estudio separa roles. Algunos modelos actúan como generadores de resúmenes. Otros actúan como evaluadores. En varios casos, un mismo modelo aparece en ambos papeles. Esto permite medir no solo cómo evalúa un juez en abstracto, sino cómo se comporta cuando juzga textos producidos por diferentes “colegas” del mundo LLM.

Para evaluar, cada juez recibe el texto original y dos resúmenes etiquetados como summary_1 y summary_2. La instrucción es deliberadamente austera: elegir cuál es mejor y devolver solo el nombre del resumen elegido, sin explicación. Aun así, algunos modelos generan texto adicional; el equipo recupera muchas de esas decisiones mediante coincidencia de cadenas, un recordatorio de que incluso la obediencia a una instrucción puede variar entre sistemas.

El control del orden es crucial. Cada par de resúmenes se presenta en ambos órdenes. Si el evaluador elige el mismo resumen en las dos presentaciones, el veredicto se considera estable. Si elige uno en la primera y otro en la segunda, el caso se etiqueta como “empatado” por influencia de orden. El trabajo distingue además dos subtipos: empate con preferencia por el que aparece al inicio y empate con preferencia por el que aparece al final, según el patrón de elección del modelo. Esta taxonomía convierte un sesgo abstracto en un conjunto de categorías observables.

Las tres instrucciones que sostienen el experimento

El estudio no necesita un prompt barroco. Le basta con tres plantillas, casi administrativas, que convierten modelos conversacionales en resumidores, jueces y reescritores para ampliar el rango de similitud.

Instrucción para resumir

Lee el siguiente fragmento de un documento largo y escribe un resumen conciso que capture sus ideas principales y detalles clave en unas 100 palabras.
Devuelve solo el resumen y nada más.

[texto original]

Instrucción para juzgar

Dado el texto original, junto con dos resúmenes indexados, evalúa los resúmenes y devuelve el nombre del mejor.
Devuelve solo el nombre exacto y nada más.

texto original:
[texto original]

summary_1
[texto]

summary_2
[texto]

Instrucción para ampliar similitud (reformulación controlada)

Reescribe y reorganiza este texto a tu estilo, pero conserva tantas expresiones largas como sea posible.
Mantén la misma longitud. Devuelve solo el texto reescrito.

[resumen humano]

La tercera plantilla es una pieza clave: los autores observan que los resúmenes generados tienden a quedarse por debajo de cierto rango de similitud superficial. Con esta reformulación controlada, pueden explorar qué hace el juez cuando la coincidencia de frases es alta.

El conjunto final de datos es grande: 6.744 resúmenes generados por LLM y más de 94.000 decisiones de jueces comparando resúmenes humanos con resúmenes de máquina. Un volumen así permite observar curvas y pendientes, no solo anécdotas.

Quedaba un problema: en la práctica, muchos resúmenes generados no alcanzaban puntuaciones altas de similitud promedio cuando se medía con ROUGE y BLEU. Se agrupaban por debajo de un valor aproximado de 0,55 en el promedio de cuatro métricas (ROUGE-1, ROUGE-2, BLEU-1 y BLEU-4). Si el objetivo es ver qué pasa también cuando la similitud es alta, ese rango es estrecho. El equipo entonces produce resúmenes adicionales con una técnica astuta: toma el resumen humano y le pide a un modelo que lo reescriba conservando la mayor cantidad posible de expresiones largas. El juez, al evaluarlo, no sabe que ese texto nació como reescritura del humano, así que lo trata como un candidato más.

Con ese ajuste, el estudio puede recorrer un espectro más amplio: desde resúmenes que comparten muchas secuencias con la referencia humana hasta resúmenes que divergen en la forma. Es justo en ese espectro donde aparece el sesgo de solapamiento.

Cuando el parecido baja, la máquina gana terreno

Gráfico esquemático (cualitativo): resume el patrón descrito en el artículo original. Cuando la similitud superficial con el resumen humano es baja, crecen las elecciones 'Generated'. Cuando la similitud sube, aumentan las decisiones condicionadas por el orden (tied-first y tied-last), mientras la elección estable del humano permanece minoritaria.

El resultado que articula el trabajo se ve con claridad en los gráficos: conforme disminuye la similitud promedio con el resumen humano, aumenta la proporción de casos en que el evaluador elige el resumen generado. El patrón aparece en prácticamente todos los jueces estudiados, con una excepción destacada: el modelo más pequeño de la familia Gemma 3 se comporta de forma distinta al resto, mientras que los demás muestran la tendencia con consistencia. El fenómeno no se limita a una pareja particular de modelos; atraviesa tamaños y familias.

Hay un matiz importante. El favoritismo hacia lo generado no se dispara por una diferencia mínima. En varios modelos, la preferencia por resúmenes de máquina cae de forma marcada antes de que la similitud promedio se acerque a uno. En el caso reportado para Mistral, por ejemplo, la frecuencia de elección del resumen generado cae por debajo de una cuarta parte cuando las puntuaciones promedio superan alrededor de 0,5. En términos menos técnicos: hace falta que el resumen generado se aleje bastante del humano para que el sesgo aflore con fuerza.

El hallazgo más desconcertante no es solo que la máquina gane terreno cuando el solapamiento baja. Es que el resumen humano rara vez es elegido como el mejor, incluso en rangos donde cabría esperar que la referencia humana resulte sólida. El trabajo no afirma que los resúmenes humanos sean siempre superiores. Tampoco necesita hacerlo. Lo que muestra es que, en el acto de comparar, los jueces encuentran con frecuencia más atractivo el texto generado, o bien se quedan atrapados por el orden. Si el juez se usa como sustituto de un panel humano, este comportamiento introduce un ruido dirigido, no aleatorio.

La tendencia no parece una simple autoprotección. Evaluadores grandes muestran el sesgo incluso cuando el resumen generado proviene de modelos pequeños. Gemma 3 en su versión de 12.2B, por ejemplo, puede preferir resúmenes de Gemma 3 de 1B cuando el solapamiento es bajo. Lo mismo ocurre con otros evaluadores. Esto sugiere que no se trata solo de “mi modelo contra el tuyo”, sino de una afinidad por un tipo de escritura que los LLM comparten pese a diferencias de tamaño, entrenamiento y fabricante.

La conclusión técnica es incómoda para un supuesto habitual: que un juez basado en LLM es, por definición, robusto a la paráfrasis. Aquí la paráfrasis, aproximada como reducción de solapamiento, no lleva a una evaluación más justa sino a una preferencia creciente por lo generado. El juez no está diciendo “este texto expresa lo mismo con otras palabras”. Está diciendo, con su elección, “esto se parece más a lo que yo considero un buen resumen”. Y ese “yo” es el dialecto estadístico del entrenamiento.

El trabajo también señala que los modelos “tienen dificultades para juzgar incluso resúmenes con solapamientos limitados”. La frase es sutil, pero apunta a algo concreto: en el régimen donde la coincidencia de n-gramas es baja, la tarea de comparar se vuelve dura para los jueces. En lugar de compensar esa dificultad con razonamiento más profundo, muchos recurren a un sesgo: favorecer el resumen generado. La preferencia funciona como muleta.

El orden decide más cuando los textos se parecen

Esquema cualitativo del sesgo de posición: cuando los resúmenes se parecen mucho, el juez cambia más a menudo de decisión al invertir el orden, lo que el estudio etiqueta como 'tied'. Además, se observa una inclinación ligada al tamaño: modelos con más parámetros prefieren el último; los más pequeños, el primero.

El sesgo de posición tiene una lógica casi psicológica. Cuando dos resúmenes son muy distintos, hay señales claras que pueden orientar al evaluador: uno cubre más hechos, el otro omite ideas, uno es más coherente. Cuando ambos se parecen mucho, la comparación se vuelve finísima. En ese punto, el orden actúa como empuje. El trabajo observa que los empates por orden, y las categorías asociadas a elegir el que aparece al inicio o el que aparece al final independientemente de cómo se intercambien, son más frecuentes cuando la similitud promedio es alta.

En los gráficos, esta dinámica aparece como un crecimiento de las zonas correspondientes a elecciones influenciadas por el orden hacia los valores altos de similitud. Es un detalle que suele pasar desapercibido en discusiones públicas, porque suena trivial. En realidad, es un síntoma de fragilidad: cuando el juez debería estar más seguro, porque ambos textos son cercanos en contenido, se vuelve más vulnerable a un factor irrelevante, la posición de cada opción.

El estudio añade un patrón asociado al tamaño. Los evaluadores con más parámetros tienden a preferir el resumen presentado al final, mientras que los modelos más pequeños se inclinan por el que aparece al inicio. No es una ley física, pero sí una tendencia en el conjunto analizado. La explicación exacta no está resuelta, y el trabajo no pretende resolverla; se limita a describir el fenómeno. Aun así, el dato sugiere que la arquitectura y el entrenamiento producen estilos distintos de atención o de toma de decisiones, lo bastante consistentes como para dejar una huella estadística en la elección.

Lo decisivo para la tesis general es que, aun separando el sesgo de posición, el sesgo de solapamiento persiste. Un juez puede ser “de los que eligen el que aparece al inicio” o “de los que eligen el último”, y aun así mostrar la inclinación hacia lo generado cuando el solapamiento baja. Por lo tanto, barajar el orden o promediar elecciones no basta para eliminar el problema central. Se corrige un vicio, pero queda otro.

La prosa de la máquina como dialecto compartido

Hablar de “toque humano” no es pedirle al lector un acto de fe. En lingüística, el estilo se puede describir como un conjunto de regularidades: frecuencia de ciertas estructuras, uso de pronombres, patrones de cohesión, ritmo de frases, distribución de conectores, preferencia por nominalizaciones o por verbos, y así sucesivamente. Los humanos cambian ese estilo según contexto, humor y audiencia. También introducen irregularidades: un giro que rompe la simetría, una omisión que se entiende por contexto, una frase corta que corta el aire antes de seguir.

Los LLM, incluso cuando son capaces de gran sutileza, tienden a una regularidad estadística. Su escritura suele buscar equilibrio y completitud. Suenan, con frecuencia, como si estuvieran respondiendo a una pauta. Ese rasgo no es un defecto en sí mismo. De hecho, es parte de su utilidad. El problema aparece cuando un juez basado en LLM usa esa regularidad como señal indirecta de calidad. Lo que en un lector humano podría ser “demasiado pulido” o “excesivamente general” puede ser, para un modelo entrenado en grandes cantidades de texto, un indicio de corrección.

Fang y sus colegas sugieren una hipótesis prudente: podría existir un marcador estilístico en los textos generados por LLM, una firma que se conserva a través de diferentes técnicas y datos de entrenamiento. Si los jueces detectan esa firma, pueden estar aplicando una heurística que opera por familiaridad. El resumen humano, cuando se aparta de esa firma, pierde terreno. El sesgo de solapamiento encaja con esa interpretación: cuando el solapamiento con el resumen humano es bajo, el juez tiene menos “anclas” comunes; en ese vacío, la firma de máquina pesa más.

La idea de firma estilística tiene dos caras. En un contexto de detección de texto generado, podría ser útil: si hay rasgos persistentes, se pueden diseñar métodos para identificar contenido sintético. En un contexto de evaluación automática, es una mala noticia: significa que el juez valora el parentesco de estilo por encima de otras dimensiones. La evaluación se desliza hacia un concurso de acento. El mejor resumen no sería el más fiel al texto original, sino el que suena más “como un LLM”.

Este fenómeno se vuelve más inquietante si se mira el ecosistema completo. Los modelos se entrenan con datos que incluyen cada vez más texto generado. Se afinan con señales de preferencia donde, a veces, el evaluador es otro modelo. Los equipos prueban variantes y eligen la que más “gana” en evaluaciones automáticas. Todo eso alimenta la posibilidad de un bucle: el dialecto se refuerza, la diversidad estilística se reduce, y el criterio de “calidad” se hace más endogámico.

Cuando el juez define el juego

La evaluación no es un trámite académico. Es una tecnología de gobierno. Define qué modelos se despliegan, qué versiones se mantienen, qué estilos se premian. En una redacción, un sistema de resumen puede decidir qué frases aparecen en una notificación o en un boletín. En una empresa, puede condensar informes para directivos. En un hospital, puede sintetizar notas clínicas. Si el criterio para elegir entre resúmenes depende de un juez sesgado, el resultado no será solo un texto ligeramente distinto: puede ser una omisión, una prioridad desplazada o una afirmación formulada con demasiada seguridad.

Hay un escenario especialmente delicado: el de los ciclos de mejora. En muchos procesos modernos, un sistema genera varias respuestas y se selecciona la preferida para entrenar o ajustar el modelo. Si la selección la hace un LLM juez, el sesgo no se queda en la evaluación; se convierte en señal de entrenamiento. El modelo aprende a complacer a la máquina que lo juzga. Con el tiempo, la producción se adapta al gusto del evaluador, y el evaluador, a su vez, puede estar afinado en el mismo ecosistema de textos generados. La endogamia deja de ser un riesgo hipotético para convertirse en una inercia.

El trabajo no necesita dibujar ese futuro para ser relevante. Basta con reconocer que los jueces automáticos ya se usan para comparar sistemas en condiciones donde los humanos no leen todo. Si el sesgo de solapamiento existe, entonces hay un régimen de evaluación, el de baja similitud n-grama con la referencia humana, donde el veredicto favorece a la máquina de manera sistemática. Es precisamente el régimen donde un buen resumen humano puede apartarse del estilo promedio: un redactor que elige un ángulo, que adelanta una conclusión, que introduce una precisión que no estaba en el lugar “esperable”.

El estudio condensa dos consecuencias prácticas que deberían estar impresas en la pared de cualquier equipo que evalúe resúmenes con jueces LLM:

Cuando se compara un resumen de máquina con un resumen humano y el solapamiento es bajo, el juez puede inclinarse hacia lo generado no porque sea más fiel, sino porque su escritura le resulta más familiar.
Mitigar el efecto del orden ayuda a entender parte del problema, pero no neutraliza la preferencia por lo generado que emerge en el régimen de baja coincidencia.

Estas no son conclusiones retóricas. Son advertencias operativas. Significan que un equipo podría estar descartando resúmenes humanos válidos o seleccionando variantes generadas menos informativas, solo porque el juez tiene un gusto entrenado. También significan que, si se optimiza un sistema para “ganar” ante el juez, se puede estar empujando la producción hacia una firma estilística artificial, y que esa firma terminará pareciendo “calidad” solo porque el árbitro aprendió a reconocerla.

Más allá de comparar: hacia evaluaciones con memoria y contexto

La frase final del trabajo suena prudente: en el dominio del resumen, el enfoque de modelo como juez debería apoyarse en técnicas más ricas que una comparación simple. En realidad, es una invitación a replantear protocolos. Una comparación binaria puede ser útil como primer filtro, pero no debería ser la base exclusiva de decisiones importantes. Si el juez se tuerce cuando hay poco solapamiento, el protocolo debe obligarlo a mirar más allá del estilo.

En la literatura reciente ya existen propuestas en esa dirección. Hay esquemas de evaluación con rúbricas, donde el evaluador puntúa dimensiones específicas y, a veces, debe justificar cada puntaje. También se han propuesto métodos para reducir sesgos de posición mediante intercambio de orden, agregación de evaluadores o alineamiento de secciones comparables antes de juzgar. Ese tipo de estrategias busca que el veredicto dependa más de criterios verificables que de impresiones globales.

El mapa que ofrece Fang y colegas permite apuntar estas mitigaciones a un lugar preciso. Si el problema se agrava cuando la coincidencia n-grama cae, se pueden diseñar pruebas específicas para ese régimen. Por ejemplo, se puede pedir al juez que liste las ideas principales presentes en el texto original y marque cuáles aparecen en cada resumen antes de elegir. Se puede exigir una verificación explícita de hechos, al menos de los elementos más importantes. Se puede combinar un juez semántico con indicadores de cobertura de entidades o de consistencia factual. El objetivo no es castigar la paráfrasis, sino asegurarse de que la paráfrasis no se convierta en vía libre para el favoritismo hacia lo generado.

El trabajo también recuerda una limitación estructural de muchos conjuntos de datos: una sola referencia humana por documento. Cuando solo existe una síntesis de referencia, cualquier medida de solapamiento es frágil, porque penaliza diversidad legítima. Además, un juez que compara con una sola referencia puede interiorizar la idea de que hay una forma “correcta” de decirlo. Obtener múltiples resúmenes humanos es caro, pero es uno de los pocos caminos directos para incorporar pluralidad y reducir el sesgo endogámico: si hay varias formas válidas de resumir, el juez aprende que el estilo no es un marcador confiable de calidad.

Hay otra línea de futuro sugerida de forma indirecta: calibrar jueces. En otras áreas de medición, los instrumentos se calibran contra patrones y se corrigen. En evaluación con LLM, la calibración podría implicar comparar sistemáticamente veredictos del juez con paneles humanos en diferentes rangos de similitud, detectar dónde falla, y ajustar el protocolo o el propio modelo para reducir ese fallo. El trabajo no propone un método único, pero deja claro que tratar al juez como una herramienta fiable por defecto es una apuesta arriesgada.

Todo esto conduce a una pregunta más filosófica, y por eso más tecnológica: ¿qué significa “mejor” en un resumen? Si el objetivo es servir a lectores humanos, la evaluación debe estar anclada en experiencias humanas, no solo en regularidades textuales. Si el objetivo es optimizar la interacción entre máquinas, quizá el dialecto compartido sea útil. El problema aparece cuando se confunden los objetivos y se utiliza un criterio diseñado por y para modelos como si fuera un sustituto universal del juicio humano.

Lo que queda cuando callan las métricas

Blind to the Human Touch funciona como un espejo incómodo. No niega que los jueces basados en LLM capturen aspectos del significado que las métricas de solapamiento pierden. Tampoco afirma que la evaluación automática sea inútil. Lo que hace es más valioso: delimita una zona donde el juez se vuelve parcial y describe esa parcialidad con un eje simple, la similitud superficial con una referencia humana. Al hacerlo, transforma una sospecha difusa, “los LLM tienen sesgos”, en una advertencia concreta: el sesgo hacia lo generado crece cuando se reduce el solapamiento, y esa tendencia aparece en casi todos los modelos evaluados.

La relevancia científica es evidente. La evaluación es la base sobre la que se construyen comparaciones, clasificaciones y afirmaciones de progreso. Si el instrumento de medida está inclinado, el progreso puede ser un espejismo bien graficado. La relevancia tecnológica también es directa. Empresas y equipos de producto están usando estos jueces para seleccionar modelos y para automatizar pruebas. Un sesgo de solapamiento puede traducirse en decisiones erróneas, en productos que favorecen un estilo artificial o en sistemas que aprenden a complacer al árbitro en lugar de servir al usuario.

La dimensión social es menos obvia, pero quizá más importante. El lenguaje no es solo información; es cultura, es negociación, es identidad. Si los mecanismos que deciden qué texto “gana” favorecen un dialecto de máquina, hay una presión silenciosa hacia la homogeneización. No hace falta imaginar distopías. Basta con observar cómo se estandariza el tono de resúmenes, cómo se vuelve más uniforme la manera de presentar hechos, cómo se pierde el matiz que un editor introduce para guiar al lector. Un juez automático con sesgos no decide solo entre textos: decide, de forma indirecta, qué registros sobreviven en los sistemas que moldean la comunicación cotidiana.

El título del trabajo habla de ceguera, y la metáfora es precisa. La ceguera no es mala intención; es incapacidad de percibir un matiz. El matiz aquí es el “toque humano”, esa mezcla de idiosincrasia y contexto que no siempre coincide con el dialecto estadístico de un LLM. Que un juez sea ciego a ese matiz no es sorprendente. Lo sorprendente es la velocidad con la que estos jueces están siendo adoptados como árbitros. La ciencia avanza cuando aprende a desconfiar de sus instrumentos; la ingeniería avanza cuando transforma esa desconfianza en protocolos.

La visión de futuro que deja este trabajo no es un llamado al pánico, sino al diseño cuidadoso. La evaluación basada en LLM seguirá creciendo, porque es útil y porque resuelve un problema real de escala. La pregunta es si crecerá como un monocultivo de veredictos cómodos o como un ecosistema de pruebas calibradas, transparentes y complementarias, donde el juicio humano no desaparece sino que se usa donde es insustituible. En un campo obsesionado con la generación, este artículo devuelve el foco a una idea humilde y decisiva: medir bien es parte de pensar bien.

Como toda auditoría, el estudio tiene límites que importan para leerlo con precisión. La variable independiente analizada es deliberadamente estrecha: el grado de coincidencia en n-gramas medido por ROUGE y BLEU, una aproximación útil pero imperfecta a la similitud. Además, cada documento cuenta con un solo resumen humano de referencia; en resúmenes, esa unicidad puede castigar reformulaciones legítimas y amplificar la apariencia de divergencia. La necesidad de controlar la longitud también reduce el universo a un subconjunto de ejemplos con resúmenes humanos de alrededor de cien palabras. Y, por decisión de alcance, el trabajo no explora ejemplos adversarios diseñados para engañar al juez. Ninguno de estos límites invalida el hallazgo; más bien delimita el mapa y señala dónde conviene ampliar la exploración.

Referencias

Fang, J., Liu, C.-T., Deilamsalehy, H., Ahmed, N. K., Mathur, P., Lipka, N., Dernoncourt, F., & Rossi, R. A. (2026). Blind to the Human Touch: Overlap Bias in LLM-Based Summary Evaluation. arXiv.

Cohen, N., Kalinsky, O., Ziser, Y., & Moschitti, A. (2021). WikiSum: Coherent summarization dataset for efficient human-evaluation. Proceedings of ACL-IJCNLP.

See, A., Liu, P. J., & Manning, C. D. (2017). Get to the point: Summarization with pointer-generator networks. Proceedings of ACL.

Hermann, K. M., Kociský, T., Grefenstette, E., Espeholt, L., Kay, W., Suleyman, M., & Blunsom, P. (2015). Teaching machines to read and comprehend. NeurIPS.

Liu, Y., Iter, D., Xu, Y., Wang, S., Xu, R., & Zhu, C. (2023). G-Eval: NLG evaluation using GPT-4 with better human alignment. Proceedings of EMNLP.

Hashemi, H., Eisner, J., Rosset, C., Van Durme, B., & Kedzie, C. (2024). LLM-Rubric: A multidimensional, calibrated approach to automated evaluation of natural language texts. Proceedings of ACL.

Laurito, W., Davis, B., Grietzer, P., Gavenčiak, T., Böhm, A., & Kulveit, J. (2024). AI-AI bias: Large language models favor their own generated content. Manuscrito en servidor público.

Panickssery, A., Bowman, S. R., & Feng, S. (2024). LLM evaluators recognize and favor their own generations. Manuscrito en servidor público.

Li, Z., Wang, C., Ma, P., Wu, D., Wang, S., Gao, C., & Liu, Y. (2024). Split and merge: Aligning position biases in LLM-based evaluators. Proceedings of EMNLP.

Zheng, L., Chiang, W.-L., Sheng, Y., Zhuang, S., Wu, Z., Zhuang, Y., Lin, Z., Li, Z., Li, D., Xing, E. P., Gonzalez, J. E., & Stoica, I. (2023). Judging LLM-as-a-judge with MT-Bench and Chatbot Arena. Manuscrito en servidor público.

Fu, X.-Y., Rahman Laskar, M. T., Chen, C., & Tn, S. B. (2023). Are large language models reliable judges? A study on the factuality evaluation capabilities of LLMs. Proceedings of GEM.

Chen, G. H., Chen, S., Liu, Z., Jiang, F., & Wang, B. (2024). Humans or LLMs as the judge? A study on judgement bias. Proceedings of EMNLP.

Freitag, M., Mathur, N., Deutsch, D., Lo, C.-K., Avramidis, E., Rei, R., Thompson, B., Blain, F., Kocmi, T., Wang, J., et al. (2024). Are LLMs breaking MT metrics? Results of the WMT24 metrics shared task. Proceedings of WMT.

Un error de evaluación está guiando el entrenamiento de modelos