NEWSLETTER

IA en equipo contra la alucinación

0dba7e0-24ee8f9d48fd

IA en equipo contra la alucinación

El Consorcio de la Razón

En las últimas semanas, el mundo ha sido testigo de cómo Demis Hassabis, la mente detrás de Google DeepMind, recibía el Premio Nobel. Un reconocimiento que no solo celebra un logro en la predicción de la estructura de las proteínas, sino que consagra a la inteligencia artificial como una de las fuerzas científicas más potentes de nuestra era. Vivimos rodeados de sus proezas. Estos sistemas de software son capaces de redactar poesía, componer música, analizar literatura con una profundidad que rivaliza con la de los expertos y, por supuesto, acelerar la investigación científica a un ritmo antes impensable. Sin embargo, esta brillantez casi sobrehumana convive con un defecto fundamental, una suerte de talón de Aquiles digital que frena su adopción en los campos más críticos de nuestra sociedad: su tendencia a mentir.

No mienten con malicia, por supuesto. En la jerga técnica, este fenómeno se conoce como "alucinación". Un gran modelo de lenguaje, o LLM por sus siglas en inglés, puede generar una respuesta a una pregunta con una seguridad y elocuencia absolutas, citando casos legales que no existen, describiendo estudios médicos apócrifos o inventando biografías de personas reales. Lo hace porque su arquitectura fundamental no es una base de datos que recupera hechos, sino un motor estadístico que genera texto. Su trabajo consiste en predecir, palabra por palabra, la secuencia más plausible que debería seguir a una consulta. Y, a veces, la secuencia más plausible es una falsedad bellamente construida.

El Fallo de la Alucinación

🗣️

Consulta del Usuario

"¿Quién fue el autor de...?"

🧠

Gran Modelo de Lenguaje (LLM)

Genera la respuesta más probable

📄

Alucinación

"El autor fue [Nombre Falso]"
(Declarado con confianza)

Este problema no es un simple error técnico; es la barrera principal que nos separa de una IA en la que podamos confiar plenamente. ¿Dejaría usted que un sistema así gestionara su cartera de inversiones, diagnosticara una enfermedad compleja o redactara una sentencia judicial, sabiendo que su brillantez es indistinguible de su capacidad para fabular? La industria ha sido dolorosamente consciente de este límite. Hasta ahora, el intento más notable para mitigar este riesgo ha sido un método basado en la coherencia. Si no estás seguro de lo que dice una sola voz, pregúntale varias veces.

Esta técnica, conocida como "consistencia de modelo único", consiste en interrogar al mismo modelo de IA repetidamente sobre la misma cuestión. Al variar ligeramente los parámetros de creatividad del sistema (un ajuste conocido como "temperatura"), los investigadores obtienen un puñado de respuestas diferentes. La lógica es simple: si el modelo realmente "sabe" un hecho, la información central de sus respuestas será coherente. Si está inventando, si está alucinando, sus invenciones variarán ampliamente. El consenso de sus propias "opiniones" se toma entonces como la respuesta más fiable. Este método funciona, hasta cierto punto. Pero tiene dos fallos graves. El primero es el coste: hacer que un modelo gigantesco, como los que operan en la nube, trabaje cinco o diez veces para cada pregunta es económicamente prohibitivo. El segundo fallo es más profundo: es un eco en una cámara de espejos. Si un modelo tiene un punto ciego fundamental en sus datos de entrenamiento (por ejemplo, si fue entrenado con información sesgada o simplemente errónea sobre un tema), preguntarle diez veces solo producirá diez variaciones de la misma respuesta incorrecta. El modelo estará, en esencia, consistentemente equivocado.

Aquí es donde entra en juego un nuevo y elegante trabajo de investigación que promete cambiar radicalmente este paradigma. Un equipo de científicos de Cambridge Consultants y la Queen Mary University of London ha publicado un artículo que propone una solución tan lógica como potente: si una sola mente, por brillante que sea, puede equivocarse, ¿por qué no preguntar a un comité?

Su propuesta se denomina "consistencia de consorcio". El concepto es dejar de interrogar a un solo modelo y, en su lugar, plantear la misma pregunta a un equipo de modelos de IA diferentes. En su estudio, reunieron un consorcio de quince de estos grandes modelos de lenguaje, cada uno con sus propias arquitecturas, datos de entrenamiento y peculiaridades. La hipótesis es que los modelos de IA, al igual que los humanos, tienen diferentes sesgos y lagunas de conocimiento. Un modelo entrenado por una compañía puede tener un punto ciego que otro, entrenado por un rival, no tiene. Donde uno alucina, el otro puede conocer el hecho. Al agregar las respuestas de este diverso "gabinete de mentes artificiales", los investigadores descubrieron que no solo se puede detectar la verdad con mucha más precisión, sino que se puede construir una respuesta nueva y más fiable a partir del consenso.

Los hallazgos de este trabajo son dobles y ambos son cruciales. El primero es que esta estrategia de "equipo" supera drásticamente al método del modelo único en la detección y mitigación de alucinaciones. El segundo es la verdadera sorpresa: este enfoque no solo es mejor, sino que también puede ser significativamente más barato. Este descubrimiento desafía la carrera armamentística de la IA, donde la única dirección parecía ser construir modelos cada vez más grandes y costosos. La fiabilidad, según parece, no proviene solo de la escala, sino de la diversidad.

La anatomía de una fabulación digital

Para entender la magnitud de la solución que propone el consorcio, primero debemos diseccionar la naturaleza del problema. ¿Qué es realmente una alucinación de la IA? El término es una metáfora humana, pero describe un fallo puramente matemático. Un gran modelo de lenguaje se entrena con una porción inimaginable de internet: miles de millones de páginas web, libros, artículos científicos y registros de chat. Durante este proceso, la red neuronal no "entiende" el significado del mundo; aprende las relaciones estadísticas entre las palabras. Aprende que "París" está fuertemente asociado con "Francia", "Torre Eiffel" y "Sena".

Cuando le hacemos una pregunta, como "¿Cuál es la capital de Francia?", el modelo inicia un cálculo probabilístico. La palabra con mayor probabilidad de seguir a esa pregunta es "París". Pero cuando hacemos una pregunta más compleja o sobre un tema del que hay poca información, las probabilidades se difuminan. Si preguntamos por un detalle oscuro de la historia del siglo XV, el modelo puede no encontrar una secuencia de palabras con una probabilidad abrumadora. En su lugar, encontrará varias secuencias plausibles. Su trabajo es elegir una y seguir adelante. Es en este acto de "improvisación plausible" donde nace la alucinación.

El resultado es un texto que suena correcto, que tiene la cadencia, el tono y el formato de un hecho verdadero, pero que carece de fundamento. El problema es que para el usuario, una alucinación es indistinguible de un hecho. Y para el propio modelo, también. No "sabe" que está mintiendo; simplemente está completando un patrón estadístico con la máxima fidelidad posible.

Este fenómeno se ve exacerbado por los propios datos de entrenamiento. Si los datos con los que aprendió un sistema están sesgados, el modelo reproducirá esos sesgos. Si los datos contienen información contradictoria, sus respuestas serán inconsistentes. Si la información está desactualizada, el modelo responderá con confianza usando hechos de ayer. Estas no son fallos que puedan "parchearse" fácilmente. Son características intrínsecas de cómo se construyen estas arquitecturas. Por eso, la búsqueda de la fiabilidad se ha centrado no en eliminar las alucinaciones por completo, algo quizás imposible, sino en detectarlas y gestionarlas cuando ocurren.

El eco en el espejo y sus límites

El primer intento inteligente para gestionar este caos fue la consistencia de modelo único. La idea de "preguntar varias veces" es, en esencia, una prueba de confianza. Al ajustar el parámetro de "temperatura" de un modelo, los ingenieros le dan más libertad para explorar caminos probabilísticos menos obvios. Una temperatura baja hace que el modelo sea conservador y repetitivo, eligiendo siempre la palabra más probable. Una temperatura alta lo vuelve "creativo", permitiéndole elegir palabras menos probables.

Para la detección de alucinaciones, se utiliza una temperatura alta para generar, digamos, diez respuestas. Luego, estas diez respuestas se comparan semánticamente. Si el modelo está alucinando sobre un tema que desconoce, estas diez respuestas creativas probablemente serán un caos de invenciones diferentes. El sistema detecta esta alta varianza y puede marcar la respuesta como "poco fiable". Si, por el contrario, el modelo conoce el hecho (como la capital de Francia), incluso con alta temperatura, las diez respuestas gravitarán en torno al mismo hecho central ("París es la capital", "La capital es París", "Se trata de París"). Esta baja varianza genera confianza.

Enfoque 1: Consistencia de Modelo Único (SMC)

El método tradicional consulta al mismo LLM varias veces. Es costoso y vulnerable a sesgos fundamentales, creando una "cámara de eco" que puede reforzar un error.

🗣️

Consulta Única

🧠

LLM Muestra 1

🧠

LLM Muestra 2

🧠

LLM Muestra 3... (x10)

📊

Agregar y Encontrar Consenso

Esta técnica es útil para identificar las "conjeturas de baja confianza". Pero su talón de Aquiles son los "errores de alta confianza". Volvamos al escenario del sesgo en los datos. Si un modelo fue entrenado con un corpus de textos que afirmaba erróneamente que un determinado compuesto químico era seguro, el modelo "creerá" firmemente en esa falsedad. Cuando se le pregunte diez veces, sus diez respuestas, aunque con variaciones creativas, afirmarán con confianza la misma información incorrecta. La consistencia de modelo único no solo no detectará esta alucinación, sino que la reforzará. El sistema verá el consenso en su propia cámara de eco y marcará la respuesta falsa como "altamente fiable".

A esto se suma la cuestión del coste de inferencia. El "coste de inferencia" es el coste computacional y energético de ejecutar un modelo para obtener una respuesta. Los modelos más potentes tienen cientos de miles de millones, o incluso billones, de parámetros (las conexiones entre neuronas artificiales). Cada consulta requiere una enorme cantidad de procesamiento. Multiplicar ese coste por diez o veinte para cada interacción del usuario es un lastre económico que hace que la fiabilidad sea un lujo que pocos pueden permitirse a escala.

La orquesta de mentes artificiales

El trabajo de los investigadores de Cambridge y Queen Mary propone una solución fundamentalmente diferente. En lugar de construir una cámara de eco, proponen construir una sala de debate. Su enfoque de "consistencia de consorcio" se basa en la diversidad como antídoto contra el sesgo.

La lógica es impecable. Cada modelo de lenguaje importante ha sido creado por un equipo diferente, con una filosofía de entrenamiento diferente y, crucialmente, un conjunto de datos de entrenamiento diferente y secreto. Tienen diferentes puntos fuertes, diferentes debilidades y, por tanto, diferentes puntos ciegos. Un modelo de código abierto puede destacar en la generación de código, mientras que un modelo comercial puede ser mejor en el diálogo matizado.

El experimento consistió en tomar una pregunta y, en lugar de enviarla diez veces a un solo sistema, enviarla una vez a cada uno de los quince modelos del consorcio. Esto crea un conjunto de quince respuestas distintas, cada una producto de una "mente" digital independiente. El siguiente paso es el análisis. El sistema no busca una coincidencia de palabras exactas, sino que realiza un análisis semántico para encontrar el "consenso factual".

Imaginemos que preguntamos sobre un tema complejo. Siete modelos del consorcio coinciden en un hecho central (Hecho A). Cuatro modelos coinciden en un Hecho B contradictorio. Y los cuatro restantes dan respuestas completamente diferentes e incoherentes. El sistema puede concluir con un alto grado de confianza que el Hecho A es la respuesta correcta, que el Hecho B es probablemente una alucinación común pero incorrecta, y que las otras cuatro respuestas son invenciones aleatorias. El consorcio actúa como un sistema de votación ponderada por la coherencia.

Este enfoque resuelve los dos problemas del método anterior. En primer lugar, rompe la cámara de eco. Es muy poco probable que quince modelos diferentes, entrenados en datos distintos, compartan exactamente el mismo sesgo o punto ciego. La falsedad de alta confianza de un modelo es expuesta por la respuesta factual de otro. La diversidad estadística actúa como una red de seguridad.

Enfoque 2: Consistencia de Consorcio (CC)

La nueva solución "en equipo". Se consulta a un consorcio de LLMs *diferentes* (ej. 15) una sola vez. La diversidad de arquitecturas y datos rompe la cámara de eco.

🗣️

Consulta Única

🤖₁

LLM 1

🤖₂

LLM 2

🤖₃

LLM 3

...
🤖₁₅

LLM 15

🌐

Agregar y Encontrar Consenso Diverso

El resultado, como demostró el estudio, es una mejora "sustancial" en la capacidad de filtrar las invenciones y destilar la verdad. Los datos visualizan esta mejora de forma contundente. El enfoque de consorcio no solo supera drásticamente a la línea de base del "peor caso" en métricas clave, sino que el 100% de los equipos de consorcio probados superaron a la línea de base "estándar", demostrando una fiabilidad sin precedentes.

Los Resultados: El Consorcio Gana

Mejora vs. Línea de Base "Peor Caso"

El enfoque de consorcio mostró mejoras porcentuales masivas en todas las métricas clave en comparación con la línea de base de SMC más difícil.

Consistencia de la Mejora (vs. Estándar)

El 100% de los equipos de consorcio aleatorios superaron al método de modelo único en todas las métricas.

Precisión

AUROC

AURAC

La sorprendente economía de la verdad colectiva

El hallazgo más disruptivo del artículo, sin embargo, se encuentra en las implicaciones económicas. Intuitivamente, uno asumiría que usar quince modelos es más caro que usar uno. Pero la clave está en cuáles modelos se usan y cómo se usan.

El método del modelo único requiere ejecutar un modelo gigante (y muy caro) varias veces. El método del consorcio, en cambio, puede construirse con una combinación de modelos. Puede incluir uno o dos modelos grandes, pero también puede completarse con una serie de modelos más pequeños, de código abierto y mucho más eficientes de ejecutar. El estudio demuestra que la inteligencia colectiva de un equipo diverso de modelos, incluso si algunos son más pequeños, es mayor que la inteligencia "interrogada" de un único gigante.

El coste total de inferencia de ejecutar quince modelos diferentes (muchos de ellos pequeños y rápidos) una vez puede ser, y a menudo es, inferior al coste de ejecutar un único modelo masivo diez veces.

El Beneficio Sorprendente: Costos de Inferencia

Coste de Modelo Único (SMC)

1 Modelo Grande x 10+ Muestras

$$$$$

Coste de Inferencia Alto

Coste de Consorcio (CC)

15+ Modelos Diversos x 1 Muestra

$$$

Coste de Inferencia Reducido

Esto tiene implicaciones profundas para la industria. Significa que la fiabilidad deja de ser el dominio exclusivo de los gigantes tecnológicos que pueden permitirse construir y operar los modelos más colosales. Una empresa más pequeña, una startup o una universidad podría, en teoría, ensamblar su propio "consorcio" de modelos de código abierto y lograr un nivel de fiabilidad que rivalice con el de los sistemas más caros del mundo. La fiabilidad se desvincula de la escala pura y se vincula a la astucia de la arquitectura: la inteligencia no está en el tamaño del modelo, sino en el diseño del sistema colectivo.

Un nuevo horizonte de confianza

La investigación sobre la consistencia del consorcio es más que un simple truco técnico. Es un cambio de perspectiva filosófico sobre lo que estamos construyendo. Durante años, gran parte de la investigación en IA ha estado obsesionada con la creación de una inteligencia artificial general (AGI) monolítica, un único sistema que pueda hacerlo todo. Este enfoque ha sido una carrera hacia la escala, asumiendo que un modelo lo suficientemente grande eventualmente se volvería infalible.

Este artículo sugiere un camino alternativo, uno que se parece mucho más a cómo funciona la propia inteligencia humana: no como un oráculo solitario, sino como una sociedad. Confiamos en la verdad no porque la diga una sola autoridad, sino porque emerge del consenso, el debate y la revisión por pares de muchas mentes imperfectas.

El equipo de Cambridge Consultants y Queen Mary ha sentado las bases para una "IA por comité". Es un sistema que, por diseño, incorpora el escepticismo. Trata la respuesta de cualquier modelo individual, sin importar cuán potente sea, como una simple opinión que debe ser corroborada. Es, en esencia, una implementación algorítmica del método científico aplicado a la generación de conocimiento.

Las implicaciones sociales de esto son inmensas. Estamos en el umbral de integrar estas poderosas herramientas en la medicina, las finanzas, el derecho y la ciencia. El mayor obstáculo siempre ha sido la confianza. Un médico no puede usar un asistente de IA que inventa estudios, ni un juez puede confiar en uno que cita precedentes inexistentes. Un sistema de consorcio, capaz de autoevaluarse, de mostrar su "nivel de acuerdo" y de filtrar sus propias fabulaciones, es un paso fundamental hacia una IA con la que podamos colaborar de forma segura en tareas de alta responsabilidad.

Este trabajo no elimina las alucinaciones. Pero proporciona una herramienta robusta para gestionarlas. Nos aleja de la búsqueda de un "oráculo" perfecto y nos acerca a la construcción de un "panel de expertos" digital, más sabio, más fiable y, sorprendentemente, más eficiente. Estamos aprendiendo a no construir simplemente una inteligencia artificial, sino una arquitectura para la confianza.

Referencias

Till, D., Smeaton, J., Haubrick, P., Saheb, G., Graef, F., & Berman, D. (2025). *Teaming LLMs to Detect and Mitigate Hallucinations*. arXiv:2510.19507 [cs.LG]. https://arxiv.org/abs/2510.19507

Publicaciones Recientes

Google_AI_Studio_2025-10-23T21_07_21.320Z

Mitad de coste, misma IA: el truco de leer píxeles

Artículo: Texto vs. Píxeles en IA Vivimos en la era de la escala. En el vertiginoso campo de la inteligencia artificia
Leer Más
Google_AI_Studio_2025-10-23T20_52_53.329Z

Romper la cadena causal: el salto conceptual del Free Transformer

    Desde su introducción hace una década, la arquitectura Transformer ha sido el pilar fundamental sobre el
Leer Más

Para estar informado, Ingresá o Creá tu cuenta en MundoIA...

Entrar

Recordá revisar la carpeta de "no deseados", el correo puede llegar allí