Un asistente conversacional no entrega una noticia del mismo modo que lo hace un diario, una radio o un buscador. La comprime, la traduce a una respuesta directa y, muchas veces, la separa del medio que la produjo. Esa comodidad tiene un costo: el lector recibe una frase limpia, pero no siempre ve la cadena de fuentes, decisiones técnicas y filtros comerciales que hicieron posible esa contestación.
El estudio Evaluating Commercial AI Chatbots as News Intermediaries, firmado por Mirac Suzgun, Emily Shen, Federico Bianchi, Alexander Spangher, Thomas Icard, Daniel E. Ho, Dan Jurafsky y James Zou, examina justamente ese punto crítico. La investigación no se ocupa de si los modelos pueden redactar textos convincentes ni de si dominan una prueba académica. Su pregunta es más concreta: qué ocurre cuando una persona consulta a los grandes asistentes comerciales de inteligencia artificial por hechos periodísticos recientes, publicados apenas unas horas antes, en distintas lenguas y regiones.
La escena puede ser cotidiana. Alguien quiere saber qué pasó en una negociación diplomática, en una protesta, en un accidente, en una decisión judicial o en un anuncio estatal y, en lugar de abrir varios medios, pregunta a un sistema conversacional. El dispositivo busca, lee, selecciona, sintetiza y responde. Esa secuencia, que al usuario le toma pocos segundos, desplaza una parte del trabajo informativo desde las redacciones hacia una infraestructura algorítmica que rara vez se muestra completa.
La clave técnica del experimento está en un concepto central: recuperación de información. Cuando el hecho consultado es reciente, el modelo no puede apoyarse solo en lo aprendido durante su entrenamiento. Necesita buscar en la web, encontrar páginas pertinentes, distinguir fuentes confiables de materiales cercanos pero insuficientes, extraer el dato correcto y redactar una contestación. Esta arquitectura suele llamarse generación aumentada por recuperación. Dicho más simple: el asistente responde con una mezcla de lenguaje, búsqueda en vivo y síntesis documental.
El paper muestra una mejora real. Los mejores sistemas ya responden con una precisión notable cuando las preguntas están bien formuladas y se presentan en formato de opción múltiple. Pero la historia importante no termina en ese porcentaje. La investigación revela que la exactitud general puede ocultar tres grietas de enorme relevancia pública: desigualdad regional, dependencia extrema de la búsqueda y debilidad frente a preguntas que contienen premisas falsas. La precisión visible no siempre equivale a una mediación informativa segura.
El experimento en una pantalla
Los autores construyeron una evaluación en tiempo real durante catorce días, entre el 9 y el 22 de febrero de 2026. Cada día tomaron noticias recientes de seis servicios regionales de BBC News y generaron preguntas factuales sobre detalles verificables: cifras, nombres, lugares, fechas, citas y atribuciones. Luego hicieron responder a seis asistentes comerciales con búsqueda web activada.
Servicios regionales evaluados
Chatbots evaluados
La elección de la BBC no es un detalle menor. Sus servicios regionales no son simples traducciones de una misma nota central, sino equipos que publican contenidos para comunidades lingüísticas específicas. Además, sus páginas suelen estar bien indexadas. Por eso, el experimento no representa un escenario adverso. Si un sistema falla aquí, frente a una fuente globalmente visible y organizada, la pregunta por su desempeño ante medios locales menos accesibles se vuelve todavía más seria.
La precisión que invita a confiar
El resultado inicial impresiona. Cuatro de los seis asistentes superaron el 90% de acierto en preguntas de opción múltiple sobre noticias emergentes. Gemini 3 Flash alcanzó el 95,6%, Grok 4 llegó al 95,0%, Gemini 3 Pro obtuvo 93,7% y Claude 4.5 Sonnet marcó 90,4%. GPT-5 quedó en 85,0%, mientras GPT-4o mini, incluido como referencia de modelo más pequeño y antiguo, cayó a 69,0%.
Este rendimiento indica que los sistemas actuales pueden funcionar con notable eficacia cuando deben buscar hechos recientes y seleccionar entre opciones cerradas. La mejora frente a evaluaciones anteriores de preguntas en tiempo real es clara. También modifica la conversación pública: ya no basta con decir que los asistentes inventan o que no sirven para noticias. La situación es más delicada. Sirven muchas veces, y precisamente por eso sus errores merecen más atención.
Precisión general en noticias emergentes
Preguntas de opción múltiple con búsqueda web activada.
La trampa conceptual está en confundir una cifra elevada con una garantía. Una precisión del 95% puede producir familiaridad, y la familiaridad suele convertirse en confianza. Después de varias respuestas correctas, el lector baja la guardia. El sistema ya no parece una herramienta que hay que verificar, sino una fuente casi natural de información. Esa mutación subjetiva es central. El riesgo de los asistentes no está solo en fallar, sino en fallar después de haber acertado lo suficiente como para ganarse el beneficio de la duda.
Además, la evaluación principal utiliza preguntas de opción múltiple. Ese formato permite una medición limpia, pero también facilita la tarea. Si el modelo encuentra una fuente parecida o reconoce el tema general, puede elegir entre alternativas. En una conversación real, la respuesta suele ser abierta. El usuario no ofrece cinco opciones posibles. Pide una explicación, una síntesis, una confirmación. Allí el margen de error se amplía.
Cuando desaparecen las opciones
Para controlar ese sesgo del formato, los autores replicaron la evaluación en una jornada con respuestas libres. La diferencia fue contundente. La precisión de opción múltiple llegó al 86,9%, mientras la respuesta abierta quedó entre 70,2% y 71,1%, según el evaluador usado. La caída promedio fue de 16 a 17 puntos. En GPT-4o mini el descenso alcanzó 22 puntos, y en Gemini 3 Pro fue de 11 puntos.
Precisión en opción múltiple. La presencia de alternativas ayuda a orientar la selección final.
Precisión en respuesta libre. Sin opciones cerradas, el sistema debe recuperar y formular el dato con menos asistencia estructural.
La conclusión no invalida el experimento, lo afina. Las cifras de opción múltiple funcionan como un techo ordenado de desempeño, no como una fotografía completa del uso cotidiano. En el mundo real, las consultas llegan con ambigüedades, datos incompletos, nombres mal escritos, fechas dudosas y mezclas de rumores con información verificable. La pregunta periodística relevante no es si el sistema acierta en un banco de prueba bien armado, sino cuánto conserva de esa precisión cuando la conversación pierde limpieza.
La brecha Hindi y la geografía invisible de la búsqueda
El hallazgo más inquietante del trabajo aparece al observar el rendimiento por región. Cinco servicios regionales quedan muy cerca entre sí: US & Canada alcanza 91,3%, Turkish 90,0%, Russian 89,9%, Arabic 89,2% y Afrique 88,9%. Hindi cae a 79,3%. No se trata de una anomalía aislada ni de un tropiezo de un proveedor. Todos los modelos evaluados obtienen su peor resultado en Hindi.
La explicación más importante no parece estar en la comprensión lingüística. Los sistemas producen texto fluido y muestran competencia general en el idioma. La falla ocurre antes, en la recuperación de fuentes. Al recibir preguntas sobre noticias en Hindi, los asistentes tienden a desviarse hacia materiales en inglés que cubren el mismo tema, pero no necesariamente el mismo detalle. La respuesta resultante puede ser razonable desde una fuente anglófona y, al mismo tiempo, incorrecta respecto de la nota local que originó la pregunta.
Precisión por región
Tocá cada fila para ver el sentido del dato.
Esta diferencia revela algo más profundo que un problema de traducción. Las noticias no son solo frases en una lengua. Son instituciones locales, nombres propios, sitios regionales, calendarios administrativos, coberturas desiguales y archivos que los buscadores tratan de manera distinta. Una fuente en inglés puede describir un fenómeno de India con una cifra global, mientras una nota en Hindi informa un dato específico, atribuido a una autoridad local o a una cobertura reciente. Para el sistema, ambas páginas son parecidas. Para el lector, la diferencia puede ser decisiva.
La desigualdad informativa no siempre aparece como censura o silencio, a veces lo hace como sustitución. En lugar de recuperar el periodismo local, el asistente ofrece una versión más visible en inglés. El usuario recibe una respuesta limpia, pero filtrada por el idioma mejor indexado, por la fuente con mayor autoridad algorítmica y por el material más fácil de encontrar. La promesa de acceso global se vuelve entonces una mediación sesgada: no todo el mundo entra a la noticia por la misma puerta.
La cita no siempre sostiene la respuesta
El estudio también desarma una intuición muy extendida: una respuesta con citas no es necesariamente una respuesta bien fundada. Las fuentes visibles producen tranquilidad. Un enlace debajo de una frase parece una prueba. Pero la relación entre la afirmación y la fuente puede ser débil, parcial o simplemente incorrecta.
Los modelos variaron mucho en su frecuencia de citación. Gemini 3 Flash citó alguna URL en el 98,3% de sus respuestas, GPT-5 en el 97,8% y Claude 4.5 Sonnet en el 96,2%. Grok 4, GPT-4o mini y Gemini 3 Pro citaron menos. Sin embargo, la cantidad de citas no predijo la precisión. Gemini 3 Pro tuvo la tasa de citación más baja del grupo, 84,7%, pero quedó tercero en exactitud. GPT-5 citó casi siempre y aun así terminó quinto.
En periodismo, una fuente no vale por decorar la página sino por su pertinencia, por su cercanía con el hecho, por su autoridad y por el modo en que se interpreta. Con los asistentes ocurre lo mismo. Un enlace a una nota relacionada no basta. El sistema debe hallar el documento adecuado, extraer la proposición correcta y conservar los calificadores que cambian el sentido de la información. No es lo mismo una medida propuesta que una medida aprobada, o una cifra nacional que una cifra regional, o una declaración atribuida a un vocero que una frase reconstruida por contexto.
Los autores llaman a este problema anclaje de evidencia. La expresión designa la conexión entre una respuesta y la fuente específica que la sostiene. Cuando ese vínculo falla, el modelo puede sonar preciso y estar equivocado. A veces no inventa desde cero sino que hace algo más sutil: responde bien a una pregunta vecina. Encuentra una fuente próxima, lee un dato real y lo aplica donde no corresponde.
El error nace antes de la respuesta
La taxonomía de errores es una de las partes más valiosas del paper. Los investigadores clasificaron 1.497 errores en ocho categorías. Dos dominaron el panorama: falla de recuperación de información, con 38,8%, y divergencia de fuente, con 32,7%. Juntas explican más del 70% de los errores. El mensaje técnico es fuerte: el principal cuello de botella no está en la redacción final ni en la comprensión posterior, sino en encontrar la evidencia correcta.
Dónde fallan los sistemas
La divergencia de fuente merece atención especial. No equivale a una alucinación clásica. El modelo puede recuperar una página auténtica, leerla correctamente y aun así responder mal porque la página no era la que correspondía. Es una equivocación elegante, casi profesional. El sistema no fabrica un dato cualquiera; toma un dato real de una fuente cercana y lo traslada a un contexto donde no encaja.
Este patrón aparece con claridad en la brecha Hindi. Los sistemas suelen tomar fuentes en inglés que hablan del mismo asunto, pero con otra escala o con otro recorte temporal. También aparece en preguntas sobre cifras agregadas, declaraciones específicas o entidades locales. El error no siempre está en la frase final sino en la selección inicial de la evidencia.
La implicancia para el desarrollo de IA es importante. Mejorar la capacidad lingüística del modelo puede ayudar, pero no alcanza. En noticias recientes, la calidad depende de índices actualizados, recuperación multilingüe, normalización de nombres propios, acceso a fuentes locales, ordenamiento sensible al contexto y verificación del vínculo entre pregunta y documento. La inteligencia que el usuario ve depende de una maquinaria documental que permanece casi invisible.
El sesgo anglófono en la cadena de fuentes
El análisis de citas expone una tendencia estructural: la web que alimenta a los asistentes comerciales no pesa igual en todos los idiomas. En el agregado global, Wikipedia en inglés fue la fuente más citada. Siete de las ocho fuentes más citadas eran principalmente anglófonas. En preguntas en Hindi, Wikipedia en inglés apareció más que cualquier medio noticioso en Hindi.
Wikipedia en inglés fue la fuente más citada globalmente.
Entre las fuentes más citadas, predominaron dominios principalmente anglófonos.
Para preguntas en Hindi, Wikipedia en inglés fue citada más que cualquier medio noticioso en Hindi.
El problema no es que una fuente en inglés sea necesariamente mala. El inconveniente aparece cuando esa fuente desplaza al periodismo local en una pregunta que requiere un detalle local. Un resumen en inglés puede ofrecer una cifra global, una fecha diferente o una atribución menos precisa. El asistente, al confiar en esa página, entrega una respuesta que parece informada pero que no coincide con el hecho documentado por la cobertura original.
También hay una dimensión jurídica y comercial. Algunos proveedores citan mucho menos a la BBC que otros. Grok 4 atribuyó respuestas a URLs de BBC con mucha más frecuencia que sus competidores. Otros sistemas prácticamente no lo hicieron. Esa diferencia puede deberse a decisiones técnicas, pero también a restricciones de rastreo, acuerdos de licencia y cumplimiento de reglas impuestas por los medios. El usuario ve una respuesta. Debajo actúan contratos, permisos, bloqueos y políticas de acceso.
Para las redacciones, la señal es seria. Los asistentes necesitan noticias, pero no siempre devuelven visibilidad proporcional al trabajo periodístico que consumen. La noticia se convierte en insumo de una respuesta generada. El medio puede quedar reducido a una huella, a una cita secundaria o a nada. La intermediación algorítmica no solo cambia cómo se informan los usuarios; también altera el circuito económico y simbólico que sostiene la producción de información verificada.
Cuando la pregunta ya viene mal
La parte adversarial del estudio coloca a los asistentes en una situación más parecida a la conversación real. Los autores introdujeron preguntas con premisas falsas sutiles. No eran disparates fáciles de detectar, sino deformaciones plausibles: una atribución incorrecta, un actor equivocado, una cifra desplazada, una cronología alterada. Ese tipo de error es común en usuarios que recuerdan una noticia a medias, mezclan titulares o llegan desde una publicación viral.
Los resultados fueron bruscos. En condiciones limpias, los modelos evaluados rondaban entre 88% y 96% de precisión. Con premisas falsas, el rendimiento cayó a un rango de 19% a 70%. Grok 4 retuvo 70,0%, Gemini 3 Pro quedó en 55,0%, Claude 4.5 Sonnet en 46,0% y GPT-5 cayó a 19,0%. El modelo más vulnerable aceptó hechos fabricados el 64% de las veces.
Precisión con preguntas limpias y con premisas falsas
Cada fila muestra el rendimiento adversarial reportado para los cuatro modelos evaluados en esa prueba.
Este resultado es uno de los más importantes del trabajo. Un asistente informativo no debería limitarse a contestar. También debería revisar si la pregunta merece ser contestada tal como fue formulada. Si el usuario introduce una atribución falsa, el sistema debe detectarla. Si mezcla dos acontecimientos parecidos, debe corregir el encuadre. Si la pregunta ya viene torcida, responder con seguridad puede ser peor que admitir incertidumbre.
Los autores distinguen entre detección y recuperación. Detección significa advertir la premisa falsa. Recuperación significa hallar la respuesta correcta a pesar de esa premisa. No son la misma capacidad. Gemini 3 Pro detectó mejor ciertos errores, pero no siempre logró convertir esa detección en una respuesta acertada. Grok 4 detectó menos, aunque su recuperación le permitió conservar mejor precisión adversarial. Esta separación es decisiva: un sistema puede notar que la pregunta está mal y aun así no resolverla; otro puede llegar al dato correcto sin explicar que el usuario partía de un supuesto falso.
La falla se vincula con una forma de complacencia factual. No es solo que el modelo acompañe opiniones del usuario. Es algo más profundo: acepta como verdadero el marco de hechos que el usuario le entrega y construye una respuesta alrededor de ese marco. Si la pregunta viene contaminada, el asistente puede fabricar una arquitectura documental prolija sobre una base equivocada. La forma parece verificación. La función real se parece más a una confirmación automática.
Lo que cambia para el lector
El lector común no evalúa motores de recuperación ni compara tasas de citación. Quiere saber qué pasó. Esa expectativa es legítima. La promesa de los asistentes consiste precisamente en reducir fricción: menos pestañas abiertas, menos lectura dispersa, menos esfuerzo para llegar a una síntesis. El problema aparece cuando esa síntesis se presenta con una seguridad superior a la solidez de su cadena de evidencia.
El estudio obliga a distinguir entre utilidad y confiabilidad. Un asistente puede ser muy útil para orientarse, resumir un tema o identificar qué fuentes conviene consultar. Otra cosa es convertirlo en árbitro final de un hecho reciente. La diferencia no es menor. En información pública, un detalle incorrecto puede cambiar la interpretación de una noticia, alimentar una acusación falsa, modificar una decisión económica o reforzar un prejuicio político.
La conversación con IA también altera la experiencia de lectura. En un medio tradicional, el usuario ve titulares, autorías, contexto visual, fecha, sección, jerarquía editorial y, a veces, correcciones. En un asistente, muchos de esos signos desaparecen. La respuesta llega como una voz única, sin la textura del proceso periodístico. El sistema puede mencionar fuentes, pero rara vez muestra de manera completa qué descartó, qué priorizó y por qué eligió una versión sobre otra.
Por eso, el desafío no es solamente mejorar los modelos. Hace falta mejorar la interfaz de confianza. El usuario debería poder saber cuándo una respuesta se apoya en fuentes originales, cuándo depende de materiales secundarios, cuándo hay discrepancias entre medios y cuándo el sistema no encontró evidencia suficiente. La opacidad no es un daño colateral inevitable. Es una decisión de diseño.
Lo que cambia para el periodismo
La investigación también habla de los medios, aunque su objeto directo sean los asistentes. Si los sistemas conversacionales se convierten en una puerta frecuente de acceso a la actualidad, las redacciones ya no compiten solo por lectores dentro de sus propias plataformas. Compiten por ser recuperadas, citadas y correctamente interpretadas por infraestructuras que no controlan.
Esto crea una tensión nueva. Los medios quieren proteger su trabajo frente al uso no autorizado, pero también necesitan aparecer en los entornos donde los usuarios buscan información. Restringir el rastreo puede preservar derechos y negociar valor. Al mismo tiempo, puede reducir la presencia de una fuente en respuestas generadas. Permitir acceso sin condiciones puede aumentar visibilidad, pero también debilitar la relación directa con la audiencia. La ecuación es incómoda porque no existe una salida puramente técnica.
El paper muestra que distintos asistentes construyen ecosistemas informativos distintos. Algunos citan más a la BBC, otros dependen más de fuentes secundarias, otros muestran patrones específicos por región. Esto significa que la elección del chatbot no determina solo la calidad lingüística de la respuesta. Determina la dieta documental que alimenta esa respuesta. Dos usuarios pueden preguntar lo mismo y recibir síntesis basadas en fuentes muy diferentes, sin advertirlo.
Para el periodismo científico, político, económico o judicial, ese punto es crucial. La fuente no es un accesorio. Es parte de la arquitectura de la verdad pública. Cuando la IA oculta o aplana esa arquitectura, el lector pierde una herramienta de juicio. No se trata de nostalgia por la portada impresa. Se trata de mantener visible el camino entre hecho, documento, interpretación y respuesta.
Tres lecciones para leer noticias con IA
El estudio no invita a abandonar los asistentes. Invita a usarlos con una mirada más precisa. La comodidad conversacional puede ser valiosa si se la entiende como una entrada al tema, no como sustituto automático de la verificación. La pregunta importante ya no es si la IA puede responder. Muchas veces puede. La pregunta es qué condiciones hacen confiable esa respuesta.
Estas tres acciones resumen una exigencia mayor. El futuro de la intermediación noticiosa no dependerá solo de modelos más elocuentes. Dependerá de sistemas capaces de mostrar mejor sus fuentes, manejar con justicia las lenguas menos favorecidas por la web abierta y resistir preguntas mal planteadas. El asistente que responde rápido pero no sabe frenar una premisa falsa puede ser eficiente y peligroso al mismo tiempo.
La noticia convertida en respuesta
Hay una transformación cultural en marcha: la noticia deja de presentarse como pieza periodística y empieza a circular como contestación personalizada. Ese cambio no es superficial. Cuando la actualidad entra en una conversación con IA, se vuelve más cómoda, más breve y más accesible. También se vuelve más dependiente de una infraestructura cerrada que decide qué fuente aparece, qué detalle se conserva y qué incertidumbre se omite.
El trabajo de Suzgun y sus colegas tiene valor porque evita dos simplificaciones. No cae en la celebración ingenua ni en el rechazo automático. Reconoce el avance técnico: los mejores sistemas ya pueden responder con precisión elevada sobre hechos muy recientes. Pero también demuestra que esa competencia es desigual, frágil y profundamente dependiente de la calidad de la recuperación. La exactitud agregada puede convivir con injusticias lingüísticas, citas poco informativas y vulnerabilidad ante preguntas contaminadas.
La brecha Hindi funciona como advertencia para un mundo informativo que promete acceso universal, pero todavía se organiza alrededor de jerarquías lingüísticas muy concretas. La fragilidad adversarial recuerda que los usuarios no consultan desde un laboratorio, sino desde la memoria parcial, el rumor, la prisa o la confusión. La taxonomía de errores desplaza el debate desde el modelo como cerebro aislado hacia el sistema completo como cadena de evidencia.
Para la sociedad, la relevancia del paper está en ese desplazamiento. Los asistentes de IA ya no son solo herramientas de productividad o curiosidad técnica. Se están convirtiendo en intermediarios de acceso a la realidad pública. Cuando una persona pregunta qué ocurrió, quién lo dijo, cuántos fueron, dónde pasó o qué decidió una autoridad, el sistema participa en la construcción de su mapa informativo.
Ese poder exige auditorías nuevas. No alcanza con medir precisión general. Hay que medir fidelidad de recuperación por idioma, calidad de atribución, sensibilidad a fuentes locales, comportamiento ante premisas falsas y claridad en la exposición de incertidumbre. También hay que discutir reglas para que el periodismo que alimenta esos sistemas no quede borrado detrás de una respuesta sintética.
La noticia, al pasar por un chatbot, no desaparece, cambia de cuerpo. Se vuelve diálogo, resumen, explicación y, a veces, atajo, el cual puede ayudar al lector a orientarse en una escena informativa saturada. Pero si la ruta corta atraviesa fuentes equivocadas, sustituciones lingüísticas o supuestos falsos, la comodidad deja de ser una virtud y se convierte en una forma elegante de desinformación.
El estudio no clausura el debate sino que lo ordena. Muestra que los asistentes más avanzados ya son suficientemente buenos como para ser usados y suficientemente imperfectos como para requerir vigilancia pública. Esa combinación es la zona difícil. Los sistemas mediocres no generan dependencia. Los sistemas muy buenos, cuando fallan de manera opaca, sí. Y allí aparece el verdadero desafío: diseñar una inteligencia informativa que no solo responda con fluidez, sino que haga visible la evidencia, respete las diferencias lingüísticas y sepa decirle al usuario que la pregunta misma está mal planteada.
Referencia
Suzgun, M., Shen, E., Bianchi, F., Spangher, A., Icard, T., Ho, D. E., Jurafsky, D. y Zou, J. (2026). Evaluating Commercial AI Chatbots as News Intermediaries. arXiv:2605.22785.



