NEWSLETTER

Relevancia y coherencia: las claves de la IA

Generated Image October 27, 2025 - 12_05AM

Relevancia y coherencia: las claves de la IA

El Código del Pensamiento

Vivimos rodeados de oráculos digitales. En cuestión de segundos, las inteligencias artificiales de última generación, como los modelos de OpenAI, Google o Anthropic, pueden redactar un soneto, componer una sinfonía, analizar mercados financieros o debatir sobre filosofía kantiana. Su destreza es tan asombrosa que roza la prestidigitación. Sin embargo, tras el telón de esta impresionante capacidad, persiste una ansiedad fundamental, un murmullo de duda que resuena tanto en los laboratorios de investigación como en las oficinas de regulación: ¿Estas máquinas entienden realmente lo que están diciendo? ¿O hemos construido, con un coste de miles de millones de dólares, los loros estocásticos más sofisticados de la historia?

El problema central de nuestra era de la IA no es la falta de respuestas, sino la opacidad de su origen. Actualmente, medimos la inteligencia de estas entidades de la misma forma que un profesor de secundaria sobrecargado de trabajo corregiría un examen de matemáticas: mirando solo el resultado final. Si la respuesta es "42", la máquina recibe una palmadita en su placa de silicio y el ingeniero anota un punto de referencia (un benchmark) superado. Pero este método, conocido en la industria como la evaluación de "corrección de la respuesta final", es un instrumento de medida peligrosamente tosco. Es una señal borrosa que nos dice muy poco sobre la calidad del proceso que llevó a esa respuesta.

Del Veredicto Final al Diagnóstico Granular

La evaluación tradicional trata el razonamiento como una "caja negra", juzgando solo la respuesta final. El nuevo enfoque descompone el proceso, permitiendo un análisis granular de cada paso.

Evaluación Tradicional

Una única señal: ¿Correcto o Incorrecto?

Evaluación de Proceso (CaSE)

Múltiples señales: ¿Cada paso es bueno?

¿Qué ocurre si la IA llegó a "42" por pura suerte? ¿O si cometió dos errores garrafales en el cálculo que, por casualidad, se anularon mutuamente? ¿O si, en un acto de brillantez estadística, encontró un atajo en los datos de entrenamiento que produce la respuesta correcta al problema específico, pero que fallaría estrepitosamente ante la más mínima variación? Este es el llamado "problema de la caja negra". Estamos construyendo motores de cohetes cada vez más potentes sin tener un diagrama claro de su combustión interna. Confiamos en ellos, pero no sabemos si su aparente genialidad es un espejismo.

En el gran tablero de la ciencia, donde grandes avances como la resolución del plegamiento de proteínas demuestran un nuevo método de descubrimiento científico, esta falta de rigor en el proceso es inaceptable. La búsqueda de la Inteligencia Artificial General (AGI), una máquina con capacidades cognitivas humanas, no puede depender de la suerte o de atajos estadísticos. Necesita cimientos de lógica, verificación y confianza.

Precisamente en este punto crítico, un equipo de investigadores de instituciones de vanguardia como ETH Zürich, el ETH AI Center, NAVER AI Lab y la Universidad de Tübingen ha encendido una luz potente en la oscuridad. Su trabajo, titulado What Defines Good Reasoning in LLMs? (¿Qué define el buen razonamiento en los LLM?), es más que un simple artículo académico. Es una propuesta de una nueva anatomía del pensamiento artificial. En lugar de limitarse a calificar el examen final, proponen un método para leer y calificar meticulosamente cada línea del "borrador" de la IA, su cadena de pensamiento paso a paso.

El equipo, formado por Heejin Do, Jaehui Hwang, Seong Joon Oh, Sangdoo Yun y Dongyoon Han, no se conforma con preguntar "¿Es correcta la respuesta?". Su investigación se adentra en una cuestión mucho más profunda: "¿Es bueno el razonamiento?". Para responderla, tuvieron que hacer lo que la ciencia hace mejor: descomponer un problema complejo en sus partes manejables. Identificaron dos pilares fundamentales que sostienen cualquier argumento lógico sólido, ya sea humano o artificial.

🎯

Relevancia

Mide si un paso del pensamiento está firmemente anclado en la pregunta original. ¿Contribuye a la solución o es una digresión inútil?

🔗

Coherencia

Mide la validez lógica de la transición de un paso al siguiente. ¿Se deduce el nuevo paso correctamente del paso *anterior*?

El primero es la relevancia. ¿Está cada paso del razonamiento anclado en el problema que se intenta resolver? ¿O es una digresión inútil, un dato al azar que no aporta nada? El segundo es la coherencia. ¿Sigue cada nuevo paso una progresión lógica a partir del paso anterior? ¿O es un salto de fe, una conclusión desconectada de su premisa?

Armados con estas dos métricas, los investigadores desarrollaron una new "lupa" metodológica. La bautizaron como Evaluación Causal Paso a Paso (CaSE). El ingenio de CaSE reside en su estricta disciplina contra el error más común al juzgar un proceso: el sesgo de retrospectiva. Cuando un humano evalúa una cadena de pensamiento sabiendo ya la respuesta final, es imposible no "hacer trampa". Vemos un paso intermedio y pensamos "Ah, brillante, está en el camino correcto", solo porque sabemos adónde se dirige. El método CaSE prohíbe esto. Obliga al evaluador (sea humano o otra IA) a analizar cada paso de forma "causal", es decir, viendo únicamente el contexto que le precede, sin ninguna pista sobre el futuro.

Y aquí es donde el trabajo trasciende la mera teoría. Los investigadores demostraron que al utilizar esta lupa para seleccionar datos de entrenamiento (es decir, al alimentar a las IA únicamente con ejemplos de buen pensamiento que eran a la vez relevantes y coherentes), el rendimiento final de los modelos mejoraba drásticamente. No solo respondían mejor, sino que pensaban mejor. Este hallazgo es un mapa. Es un plan de estudios para enseñar a las máquinas no solo a imitar el conocimiento, sino a construirlo.

El espejismo de la respuesta correcta

Durante años, la carrera por la supremacía en la inteligencia artificial se ha parecido a unos Juegos Olímpicos donde la única prueba es el levantamiento de pesas. Laboratorios como OpenAI, Google y Meta han competido en una escalada de "parámetros" (el equivalente neuronal de la IA) y de ingentes cantidades de datos de entrenamiento. El éxito se medía en tablas de clasificación, los benchmarks. Conjuntos de problemas como el GSM8K (un test de problemas matemáticos de nivel de escuela primaria) o el MMLU (un examen multidisciplinar masivo) se convirtieron en el estándar de oro.

Pero esta obsesión por el resultado final ocultaba una verdad incómoda. Los modelos se volvían expertos en "aprobar el examen" sin demostrar necesariamente una comprensión profunda. Es un fenómeno que los educadores conocen bien: el estudiante que memoriza el solucionario en lugar de aprender el teorema. En la IA, esto tiene un nombre: el "sobreajuste" a un conjunto de datos. Los modelos aprenden los patrones estadísticos de los problemas del benchmark en lugar de aprender los principios abstractos de las matemáticas o la lógica.

Esto conduce a fallos espectaculares en cuanto el contexto cambia ligeramente. Un modelo que puede resolver un complejo problema de física puede fallar estrepitosamente si se le pregunta cuántos agujeros tiene una camiseta, porque su "conocimiento" no está anclado en un modelo del mundo real, sino en correlaciones de texto. El artículo de ETH y NAVER ataca esta debilidad de raíz. Argumenta que la "señal de entrenamiento" que proviene de un simple "correcto" o "incorrecto" al final de un largo proceso de razonamiento es demasiado "gruesa". Es como intentar aprender a tocar el violín recibiendo solo un aplauso o un abucheo al final de un concierto de una hora. Es imposible saber qué nota específica falló.

Lo que la industria necesita, y lo que este trabajo proporciona, es un diagnóstico granular. Un informe que no diga "incorrecto", sino "el paso 3 perdió relevancia" o "el paso 5 fue incoherente con el paso 4". Este nivel de detalle permite a los ingenieros "depurar" el pensamiento de un modelo de la misma manera que depuran un programa informático. Es el cambio de un veredicto de culpabilidad a un análisis forense detallado.

Este problema no es meramente académico. A medida que integramos estas IA en sistemas críticos (diagnóstico médico, conducción autónoma, gestión de infraestructuras energéticas), no podemos permitirnos que "acierten por las razones equivocadas". La fiabilidad exige transparencia. Un médico no solo nos da un diagnóstico; nos explica por qué ha llegado a esa conclusión basándose en los análisis. Exigimos ver el razonamiento. Este nuevo trabajo sostiene que debemos exigir exactamente lo mismo a nuestras contrapartes de silicio.

Anatomía de un pensamiento

El avance conceptual del artículo de Do y sus colegas es la elegante disección del "buen razonamiento" en sus dos componentes atómicos: relevancia y coherencia. Esta separación es crucial porque, como demuestran, no son la misma cosa y un modelo puede fallar en una mientras sobresale en la otra.

Pensemos en la relevancia. Mide si un paso del pensamiento está firmemente anclado en la pregunta original. Imaginemos que le pedimos a una IA que resuelva este problema: "Un granjero tiene 15 vacas y 23 pollos. Vende 8 vacas. ¿Cuántas vacas le quedan?".

Un primer paso relevante sería: "Identificar el número inicial de vacas (15)". Un segundo paso relevante sería: "Identificar el número de vacas vendidas (8)". Un paso irrelevante sería: "Los pollos son aves de corral que ponen huevos". Aunque esta afirmación sobre los pollos es objetivamente correcta, no tiene absolutamente nada que ver con la resolución del problema. Es ruido. Los modelos de lenguaje actuales, entrenados para predecir la siguiente palabra más probable, son muy propensos a este tipo de digresiones. Pueden caer en "madrigueras de conejo" asociativas, generando cadenas de texto que son interesantes pero que se desvían fatalmente del objetivo.

Ahora consideremos la coherencia. Esta mide la validez lógica de la transición de un paso al siguiente. Es el pegamento que une la cadena de pensamiento. Volvamos al problema del granjero.

  • Paso 1: "El granjero empieza con 15 vacas".
  • Paso 2: "El granjero vende 8 vacas".
  • Paso 3 (Coherente): "Para encontrar las vacas restantes, restamos las vendidas de las iniciales: 15 - 8".
  • Paso 4 (Coherente): "El resultado es 7".

El paso 3 aquí es un non sequitur. No se deduce lógicamente de los pasos anteriores. Es un error de proceso. Lo fascinante es que una IA puede ser perfectamente coherente pero completamente irrelevante. Podría producir una larga y deductivamente impecable disertación sobre la cría de pollos, donde cada paso sigue lógicamente al anterior, pero que no guarda ninguna relevancia con la pregunta sobre las vacas.

Del mismo modo, puede ser relevante pero incoherente. Podría enumerar todos los hechos correctos (15 vacas, 8 vendidas, 23 pollos), pero conectarlos de forma ilógica. El buen razonamiento, el pensamiento de calidad que buscamos, exige que ambas cualidades estén presentes en cada paso.

CaSE, el microscopio contra el sesgo

Una vez definidos los qué (relevancia y coherencia), el equipo necesitaba un cómo. ¿Cómo medimos estas cualidades de forma fiable y escalable? El desafío es que los humanos somos terribles evaluadores objetivos cuando conocemos el final de la historia. Este "sesgo de retrospectiva" es un conocido enemigo del análisis científico. Si sabemos que la respuesta correcta es 7, perdonaremos más fácilmente un pequeño salto lógico en el camino, pensando "bueno, sabía adónde iba".

Para eliminar este sesgo, los investigadores diseñaron la Evaluación Causal Paso a Paso, o CaSE. El término "causal" aquí es clave: significa que solo se puede tener en cuenta la información del pasado para juzgar el presente. El futuro (los pasos siguientes y la respuesta final) es invisible para el evaluador.

El Método de Evaluación Causal (CaSE)

CaSE evalúa cada paso de forma secuencial, usando solo el contexto *anterior* a ese paso. Esto previene el "sesgo de retrospectiva", ya que el evaluador no sabe si la cadena de pensamiento llegará a una respuesta final correcta.

Problema: "El granjero tiene 15 vacas y 23 pollos. Vende 8 vacas..."
⬇️
Paso 1: "El granjero empieza con 15 vacas."
⬇️
Evaluación (CaSE) 1

Contexto visible: [Problema] + [Paso 1]

¿Es el Paso 1 relevante para el Problema?

⬇️
Paso 2: "Vende 8 vacas."
⬇️
Evaluación (CaSE) 2

Contexto visible: [Problema] + [Paso 1] + [Paso 2]

¿Es el Paso 2 relevante?
¿Es el Paso 2 coherente con el Paso 1?

⬇️
Paso 3: "Resta 15 - 8."
⬇️
Evaluación (CaSE) 3

Contexto visible: [Problema] + [P1] + [P2] + [P3]

¿Es el Paso 3 relevante?
¿Es el Paso 3 coherente con el Paso 2?

El proceso funciona así: a un evaluador (que puede ser un experto humano o, de forma crucial, otra IA entrenada para esta tarea) se le presenta el problema y solo el "Paso 1" de la solución del modelo. El evaluador debe calificar: ¿Es este Paso 1 relevante para el problema? (La coherencia no se aplica, al ser el primero). Luego, se le muestra el problema, el Paso 1 y el Paso 2. Ahora debe calificar dos cosas: ¿Es el Paso 2 relevante para el problema? ¿Es el Paso 2 coherente con el Paso 1? Este proceso se repite, paso a paso, añadiendo una capa de razonamiento cada vez, pero nunca revelando el final de la historia antes de tiempo.

Este método crea un perfil de diagnóstico increíblemente detallado de una cadena de pensamiento. En lugar de un "Aprobado/Suspendido", se obtiene un gráfico que muestra exactamente en qué punto del proceso el modelo empezó a flaquear. Quizás sus primeros tres pasos fueron relevantes y coherentes, pero en el cuarto introdujo un hecho irrelevante (una "alucinación"), y aunque el resto de sus pasos fueron coherentes con esa alucinación, el proceso ya estaba viciado.

Para validar este método, el equipo emprendió la hercúlea tarea de crear nuevos conjuntos de datos. Tomaron miles de problemas de matemáticas de los benchmarks estándar (GSM8K y MATH) y pagaron a expertos humanos para que anotaran cada paso de las soluciones generadas por la IA usando la estricta metodología CaSE. Esto dio lugar a los nuevos conjuntos de datos "MRa-GSM8K" y "MRa-MATH" (MRa por Multi-Aspect Reasoning). Estos datos no solo son un activo para la comunidad investigadora, sino que sirvieron como la piedra de toque para demostrar que su método funcionaba. Demostraron que las puntuaciones de CaSE (tanto de humanos como de las IA evaluadoras que entrenaron) eran un predictor mucho más fiable de la calidad del razonamiento que las métricas anteriores.

El campo de pruebas: Enseñar a pensar

Aquí es donde la investigación pasa de ser una herramienta de diagnóstico a ser una auténtia pedagogía para la IA. La pregunta final era: si sabemos qué es el "buen pensamiento" (alta relevancia y alta coherencia en cada paso), ¿podemos usar ese conocimiento para crear mejores IA?

Los investigadores llevaron a cabo un experimento elegante y contundente. Tomaron modelos de lenguaje existentes (como Llama 2 y Mistral, conocidos en la comunidad) y los "afinaron" (un proceso de entrenamiento adicional) con diferentes dietas de datos.

Un grupo de modelos fue entrenado con el método estándar: se le dieron problemas y soluciones, y se le recompensó por obtener la respuesta final correcta. Otro grupo fue entrenado con un método llamado Process-based Reward Model (PRM), que recompensa cada paso correcto, pero que, como demostraron los autores, sigue siendo susceptible a errores de juicio porque no descompone la relevancia y la coherencia.

Finalmente, el grupo experimental fue entrenado usando los datos filtrados por CaSE. A estos modelos solo se les mostraron ejemplos de razonamiento que habían sido certificados como "relevantes y coherentes" en cada paso. Era el equivalente a un estudiante que solo estudia de libros de texto impecablemente escritos y revisados por expertos.

Resultado: Enseñar Calidad Mejora el Rendimiento

El estudio demostró que los modelos afinados con datos filtrados por CaSE (seleccionando solo ejemplos con alta relevancia y coherencia) superaron significativamente a los modelos entrenados con métodos estándar.

Los resultados fueron inequívocos. Los modelos entrenados en la "dieta CaSE" superaron significativamente a todos los demás. No solo mejoraron su precisión en la respuesta final en los problemas que conocían, sino que, lo que es más importante, generalizaron mejor a problemas nuevos. Su capacidad para razonar de forma robusta había mejorado fundamentalmente.

El artículo lo expresa con una claridad meridiana: "demostramos que curar los datos de entrenamiento con la relevancia y coherencia evaluadas por CaSE mejora directamente el rendimiento de la tarea final". Esta es la bala de plata. Demuestra que cómo se enseña a una IA a pensar es más importante que simplemente bombardearla con datos. La calidad del proceso triunfa sobre la cantidad de respuestas.

Más allá de las matemáticas

Aunque este estudio se centró en el dominio limpio y lógico de los problemas matemáticos, sus implicaciones se extienden a todas las facetas del razonamiento complejo. Las matemáticas son simplemente el "gimnasio" perfecto para entrenar estos músculos cognitivos. Pero el mismo principio se aplica a cualquier tarea que requiera una cadena de pensamiento sostenida.

Pensemos en la ciencia. Laboratorios como DeepMind ya están utilizando IA para diseñar nuevos fármacos o controlar plasmas de fusión nuclear. En estos dominios, un "acertar por casualidad" no es solo ineficiente; es catastrófico. Los científicos necesitan confiar en que la IA no se saltó un paso crítico o introdujo una variable irrelevante. El marco CaSE proporciona un método para auditar este tipo de pensamiento científico automatizado.

Pensemos en el derecho. Ya se están utilizando modelos de IA para revisar jurisprudencia y resumir casos. Una IA que ofrezca un resumen legal debe ser rigurosamente relevante (ceñirse a los hechos del caso y a la ley aplicable) y coherente (construir un argumento lógico). Una conclusión "alucinada" o un salto incoherente podría tener consecuencias devastadoras.

Incluso en la creatividad, esta descomposición es útil. Un guionista de IA que intente escribir una trama de misterio necesita mantener la relevancia (no introducir pistas que no lleven a ninguna parte, a menos que sea una pista falsa deliberada) y la coherencia (asegurarse de que las motivaciones de los personajes se derivan de sus acciones anteriores).

Para los desarrolladores de los grandes laboratorios, esta investigación es un regalo. Les proporciona una herramienta de depuración que va más allá del simple "falló". Ahora pueden ejecutar un análisis CaSE sobre un resultado desastroso de su modelo y obtener un informe que diga: "El proceso fue perfecto hasta el paso 4, donde perdió relevancia al confundir 'interés bancario' con 'interés romántico'". Esto permite una corrección quirúrgica en lugar de un reentrenamiento a ciegos.

La arquitectura de la razón

El trabajo de Heejin Do y sus colegas del ETH y NAVER marca un punto de inflexión en la madurez del campo de la inteligencia artificial. Nos aleja de la era de la alquimia, donde mezclábamos datos y potencia de cálculo con la esperanza de que surgiera magia, y nos acerca a la era de la química cognitiva, donde entendemos los componentes de la razón y podemos ensamblarlos deliberadamente.

Estamos dejando de ser meros espectadores asombrados por los trucos de la IA y nos estamos convirtiendo en verdaderos ingenieros de su cognición. El reciente reconocimiento a los grandes avances en IA subraya que su mayor impacto no reside en la capacidad para imitar al ser humano, sino en su potencial para establecer nuevas metodologías de descubrimiento. Este artículo es un ejemplo perfecto de esa tradición.

La relevancia social y tecnológica de este avance es inmensa. Una IA cuyo pensamiento podemos auditar es una IA en la que podemos confiar. Es un paso vital hacia la construcción de sistemas de inteligencia artificial seguros, alineados y fiables. Es la diferencia entre un oráculo místico que exige fe ciega y un colaborador experto que "muestra su trabajo".

El Santo Grial de la Inteligencia Artificial General no se alcanzará simplemente construyendo redes neuronales más y más grandes. Se alcanzará cuando dominemos la arquitectura del pensamiento robusto. Este equipo de investigadores no ha construido la catedral, pero nos ha dado algo casi más importante: el primer conjunto fiable de planos para sus cimientos lógicos. Nos han proporcionado un lenguaje para definir, medir y, finalmente, enseñar qué significa "razonar bien".

Referencias

Do, H., Hwang, J., Oh, S. J., Yun, S., & Han, D. (2025). What Defines Good Reasoning in LLMs? Dissecting Reasoning Steps with Multi-Aspect Evaluation. arXiv:2510.20603 [cs.AI]. Recuperado de https://arxiv.org/pdf/2510.20603

Publicaciones Recientes

Generated Image October 27, 2025 - 12_45AM

La ciencia delega tareas a sus nuevos asistentes virtuales

En los laboratorios de Stanford, un algoritmo revisa expedientes médicos electrónicos en busca de patrones ocultos. En
Leer Más
Generated Image October 27, 2025 - 1_24AM

El trabajo fantasma sale a la luz en la app de Uber

Un destello en la pantalla del teléfono interrumpe la espera de Javier, un conductor de Uber en Austin. No es una solic
Leer Más

Para estar informado, Ingresá o Creá tu cuenta en MundoIA...

Entrar

Recordá revisar la carpeta de "no deseados", el correo puede llegar allí