Comprender a la IA a través de lo que hace no siempre funciona
Desde tiempos de Turing, atribuimos a las máquinas capacidades humanas solo porque imitan comportamientos. Si un agente automático actúa como si tuviera una intención, creemos que tiene tal intención. Pero eso puede ser engañoso. El último estudio de Bellot, Richens y Everitt propone que existe un límite teórico para predecir lo que hará una IA en un entorno desconocido solo a partir de lo que observamos. En lugar de promesas, ofrecen fronteras: lo que podemos anticipar sobre una IA proviene solo de lo que ya ha mostrado, pero mucho puede quedar oculto fuera de ese repertorio.
La idea es simple, pero inquietante. Observamos un agente funcionando en un escenario conocido y tratamos de inferir sus creencias o metas. Luego esperamos que ese modelo interno prediga su futuro comportamiento en un nuevo escenario. Sin embargo, puede haber múltiples explicaciones igual de válidas del comportamiento visto, pero que implican decisiones opuestas después.
Eso se traduce en un límite fundamental: podemos predecir algunos comportamientos futuros, pero no todos, especialmente bajo condiciones nuevas. El paper plantea nociones como “debilmente predecible” o “fuertemente predecible”, reforzando que a veces bloqueamos decisiones posibles, pero no siempre identificamos una única opción segura. Como observadores externos sin acceso al mundo interno de la IA, nuestra visión puede ser parcial, y eso tiene implicaciones serias para la seguridad.
Imaginate una IA que decide entregar un paquete en función de una creencia sobre el clima. Si calculás su comportamiento en base a su entrega anterior, podrías pensar que siempre entregará en días soleados. Pero ¿qué pasa si su modelo cree que la temperatura es un predictor indirecto de tráfico? Podría dejar de entregar incluso con sol. El punto es que el mismo comportamiento observable (leer si hay sol) puede esconder estrategias opuestas según lo que la IA realmente suponga que importa. Eso se vuelve un problema cuando el mundo cambia.
Así llegamos a un concepto central: “grounding”. Se supone que la IA está bien alineada con el entorno que conocemos —sus creencias internas coinciden con la realidad observada. Esa es la ventana que tenemos para adivinar sus intenciones. Lo que el paper muestra es que esa ventana no permite ver el panorama completo. Si un nuevo entorno altera parte de su percepción, su comportamiento puede cambiar de forma imprevisible, aunque esté perfectamente justificado bajo su modelo interno.
El límite entre lo predecible y lo incierto
La contribución técnica central es formalizar, mediante límites matemáticos, cuán lejos podemos estirar la inferencia a partir de comportamiento observado. El análisis define una estructura basada en modelos causales del mundo (SCM) donde se capturan variables observables y latentes, reglas estructurales y una distribución interior. Bajo ese marco, los autores presentan teoremas que muestran que en entornos desplazados —o “shifted”— hay una zona gris donde no podemos distinguir lo que la IA hará debido a ambigüedad causal.
Lo relevante aquí es que esta incertidumbre no es arbitraria, sino cuantificable. Se define una métrica de brecha de preferencia entre dos decisiones posibles, y si esa brecha no supera un umbral, no podemos garantizar qué elección tomará la IA. En otras palabras: sin margen suficiente entre lo que observamos y lo que no, no es válida ninguna predicción determinista. Sólo podemos descartar o apoyar ciertas acciones; no predecir con certeza el resultado.
Este límite es profundo porque se refleja en la práctica. Cuando evaluamos sistemas de IA en laboratorios controlados, vemos un comportamiento razonable. Pero en entornos reales, a menudo diferentes, esas condiciones controladas ya no valen, y la predicción falla. El paper no propone una solución técnica para derribar ese techo, sino que lo convierte en un hecho tangible y medible.
El concepto no es completamente nuevo. Desde la teoría causal de Pearl sabíamos que es imposible inferir efectos causales solo desde correlaciones observadas. Lo que este trabajo añade es una adaptación clara al dominio del comportamiento de agentes: muestra que sin conocer el modelo causal interno de la IA, las predicciones en nuevos escenarios permanecen fundamentalmente limitadas.
Lo inesperado en lo que parece evidente
¿Y por qué deberíamos preocuparnos? Porque la mayoría de los sistemas de IA que deployamos funcionan con la ilusión de que lo observado será igual a lo que ocurra. Si una IA autopilota coches en condiciones de simulador, se asumirá que esos comportamientos servirán para nuevas carreteras o condiciones inesperadas. Pero los límites definidos en este paper muestran que no podemos imaginar siempre ese paso.
En temáticas como seguridad y equidad, esto último es espantoso. Imaginá un sistema de IA que distribuye créditos. Si su comportamiento pasado evita a ciertos grupos, podríamos deducir que es sesgado. Pero podríamos estar captando solo una parte de su estructura causal, y en otros subgrupos podría comportarse de formas opuestas. La falta de fuerte predictabilidad implica que no solo tenemos que evaluar en más entornos, sino examinar su arquitectura interna o diseñar sistemas que monitoreen cuándo el contexto ha variado más allá de lo observado.
Lo que sugiere el paper es que en situaciones con desplazamientos importantes en variables causales —clima, demografía, regulación— la IA puede actuar de manera significativa distinta, aunque haya pasado pruebas rigurosas de rendimiento. Lo que vemos en entrenamiento ya no sirve como garante. Y es peor: podríamos tener la falsa impresión de certidumbre, cuando lo que sucede es que estamos al borde de la zona no predecible.
Esto resuena con una frase de Ilya Sutskever: las IA con razonamiento profundo son menos predecibles. No porque hagan mal su trabajo, sino porque operan con inferencias sofisticadas y modelos internos complejos que escapan a nuestras observaciones superficiales.
Piénsalo como un límite cognitivo
El problema aquí no es solo técnico: es epistemológico. Es una nueva forma de “problema del observador” en la IA. Como científicos, podemos observar el comportamiento, pero la mente interna de la IA sigue siendo una caja negra. Y cuando esa mente construye representaciones causales o utiliza variables latentes no observadas, lo que resulta plausible desde afuera puede abrazar finales opuestos.
Es como tratar de predecir el final de una película viendo solo los primeros capítulos. Hay múltiples guiones internos que pueden encajar con lo que ves, pero que llevarán a desenlaces distintos. En los sistemas de decisiones autónomas, eso significa que un comportamiento inicial no garantiza que se sostendrá en una nueva realidad.
Esa incertidumbre es un callejón para aquello que la seguridad de IA ha llamado “robustez distribuida”: no basta entrenarla bien, tampoco evaluarla exhaustivamente. Se necesita saber cómo reaccionará cuando su comprensión causal del mundo cambie. Y eso implica diseñar mecanismos de monitorización activa, de test continuo en nuevas condiciones, y de intervención automotrizada cuando el modelo interno diverge.
Implicaciones prácticas y éticas
En un sistema de autopiloto modular, ¿qué pasa si el modelo interno asume que señales electrónicas siempre indican semáforos? ¿Y si en otro país usan señales diferentes? El vehículo puede juzgar un paso de cebra como vacío y tomar una ruta riesgosa. Ese tipo de cambio representa un desplazamiento en las variables del entorno, suficiente para disparar comportamientos inesperados.
Lo relevante es que sin una arquitectura que asuma explicitamente ese tipo de cambio causal, no hay forma de saber cuándo cruzamos el umbral. El paper nos advierte que ese umbral existe, que es medible, y que debemos tratarlo como parte del diseño. No basta entrenarla bien. Hay que dotarla de mecanismos de advertencia y de adaptación.
En sistemas financieros automatizados, el problema es similar. Cuando los mercados cambian su estructura causal —por nuevas regulaciones, políticas macro, cambios tecnológicos— agentes entrenados en el antiguo entorno pueden comportarse de forma drástica en los nuevos. Se han registrado situaciones donde bots financieros, entrenados en entornos pre-crash, colapsan mercados al ignorar nuevas variables implícitas. No es un bug: es un límite estructural que el paper identifica.
También hay un ángulo ético: confiar en IAs como cuidadores, educadores o mediadores digitales implica un salto de fe contextual. Si asumimos que siempre actuarán correctamente, ignorando sus límites de predictabilidad, podemos estar arriesgando confianza en sistemas insuficientemente robustos.
¿Qué se puede hacer con este conocimiento?
El trabajo de Bellot y su equipo no ofrece una varita mágica. No hay algoritmo para resolver la incertidumbre interna. Pero su contribución es fundamental: define límites, plantea escenarios de falla y abre vías para mejorar.
Primero, propone abandonar la ilusión de predicción perfecta. En su lugar, fomentar diagnósticos dinámicos: ¿estamos en la zona predecible o en la límite? Eso exige tools específicas y métricas de varianza de preferencia, como las formuladas en el paper.
Segundo, invita a diseñar arquitecturas que no solo imiten, sino que exploren. Añadir mecanismos de exploración deliberada para minimizar ambigüedad. Un agente que deliberadamente testea variables desconocidas reduce el riesgo de comportamientos imprevistos.
Tercero, plantea una política de despliegue seguro: antes de que una IA opere en entornos nuevos, debe someterse a probes intencionales que revelan si pertenece a la zona fuerte o débil de predictabilidad. Si cae en lo segundo, requerirá supervisión activa o parametrización con supervisión humana embebida.
Finalmente, sugiere que los benchmarks estándar —precisión, fluidez, acierto— no alcanzan. Necesitamos métricas de tolerancia al desplazamiento. La verdadera seguridad no está en que no falle en entrenamientos, sino en que su comportamiento frente a variantes sea gestionable.
¿Un llamado a la humildad?
El mayor mensaje de este paper es epistémico: no podemos conocer a la IA completamente a partir de lo que vemos de ella. Necesitamos adoptar una posición de humildad: reconocer que la caja negra, por más transparente que parezca, tiene rincones oscuros donde nuestro conocimiento falla.
La tradición en ciencia asumía que lo que observábamos bastaba. Esto muestra que en dominios causales complejos no funciona así. La IA no está solo actuando, está pensando. No solo imita, construye. La trazabilidad ya no es suficiente; hace falta introspección algorítmica, capacidad autoreflexiva de monitoreo y ajuste.
Una frontera para la próxima década
¿Cómo avanzamos desde aquí? Primero, creando un corpus de pruebas diseñadas para evaluar “límite de predictabilidad”: variaciones sistemáticas en variables causales relevantes. Luego, diseñando sistemas que activamente diagnostican su incertidumbre interna, y adaptan su comportamiento, o piden ayuda.
En la práctica, esto podría implicar arquitecturas híbridas: una red neuronal acompañada de un módulo causal —una herramienta que meta-C++ el modelo interno y detecte cambios. Un primitivo de IA introspectiva, que sepa cuándo su modelo interno deja de estar fundamentado.
También debemos pensar en transparencia regulatoria: si una IA opera en un nuevo país, requiere una certificación de robustez ante variaciones en contexto. Si circula por un nuevo mercado, debe demostrar que su comportamiento sigue dentro de un rango aceptable según su internalidad.
Y crucialmente, debe haber mecanismos automáticos de “explicación de fracaso” cuando una IA comete un error. No solo reacciones himinata, sino diagnósticos post-mortem que nos revelen por qué, desde un punto de vista causal, eso ya no era predecible.
¿Por qué vale la pena este esfuerzo?
Si crees que la IA está para amplificar lo humano, hay una razón extra: sin control de predictabilidad, corremos el riesgo de delegar decisiones cruciales a cajas negras que responden a mundos implícitos desconocidos. Sin ese control, actuamos con confianza ciega.
Pero si empezamos a construir frameworks que evalúen límites causales, que detecten desplazamientos y actúen en consecuencia, entonces no solo diseñamos sistemas inteligentes. Diseñamos sistemas fiables, confiables y responsables.
El paper “The Limits of Predicting Agents from Behaviour” no es alarmista. Es necesario. Establece un estándar para ir más allá de la ilusión de certeza. Y nos obliga a construir IA que no solo aprenda, sino que se sepa aprendiendo.