Un modelo fundamental para predecir y capturar la cognición humana

Gemini_Generated_Image_qon46oqon46oqon4

Un modelo fundamental para predecir y capturar la cognición humana

El Espejo de la Mente: ¿Puede la Inteligencia Artificial Descifrar Nuestras Decisiones?

Cada día, desde el momento en que nos levantamos hasta que nos vamos a dormir, nuestra vida es una sinfonía ininterrumpida de decisiones. Algunas son triviales: ¿qué ropa me pongo?, ¿tomo café o té?, ¿qué serie veo esta noche?. Otras son monumentales y pueden cambiar el curso de nuestra existencia: ¿debería aceptar este trabajo?, ¿es el momento de formar una familia?, ¿cómo invierto mis ahorros?. Y entre esos dos extremos, existe un universo de elecciones sobre cómo tratamos a los demás, qué riesgos estamos dispuestos a correr o cómo aprendemos de nuestros errores. Esta capacidad para navegar un océano de posibilidades, para sopesar, dudar, acertar y equivocarse, es el corazón de lo que nos hace humanos.

Nuestra mente es una herramienta de una versatilidad asombrosa, capaz de aprender a tocar un instrumento musical, de consolar a un amigo, de planificar unas vacaciones o de imaginar mundos que no existen.

Durante siglos, psicólogos, filósofos y científicos han intentado crear un mapa de este territorio misterioso, buscando una teoría unificada que explique el porqué de nuestras acciones. Han desarrollado innumerables modelos para explicar fragmentos de nuestro comportamiento. Por ejemplo, existen teorías que describen brillantemente cómo tomamos decisiones cuando hay dinero de por medio y un riesgo que asumir, pero esas mismas teorías no nos dicen nada sobre cómo aprendemos un nuevo idioma o por qué a veces nos dejamos llevar por la curiosidad. Es como tener un mapa increíblemente detallado de una sola ciudad, pero no tener idea de cómo son el resto de los continentes.

La ciencia ha soñado durante mucho tiempo con un «mapa del mundo» de la cognición humana, una sola herramienta que pudiera ayudarnos a entender, e incluso predecir, cómo actuará una persona en casi cualquier situación.

Hasta hace poco, esta idea parecía pertenecer al ámbito de la ciencia ficción. Pero en un mundo donde la inteligencia artificial avanza a pasos agigantados, un equipo de investigadores se planteó una pregunta audaz: ¿y si pudiéramos usar la tecnología más avanzada de IA no para crear coches que se conducen solos o para ganar partidas de ajedrez, sino para construir ese espejo de la mente humana que tanto hemos buscado?. El resultado de esa pregunta es un proyecto revolucionario publicado en la prestigiosa revista Nature, un modelo de inteligencia artificial bautizado con el nombre de Centaur.

El propósito de Centaur es asombrosamente ambicioso: ser un modelo computacional capaz de predecir y simular el comportamiento de una persona en prácticamente cualquier tipo de experimento o tarea que se le pueda describir con palabras.

Para entender qué es Centaur, primero hay que entender que no es una IA construida desde cero. Sus creadores partieron de una de las inteligencias artificiales más potentes y conocidas del mundo, un «modelo de lenguaje» llamado Llama 3.1, creado por Meta (la empresa matriz de Facebook). Estos modelos son gigantescos cerebros digitales que han sido entrenados leyendo una porción enorme de internet, aprendiendo las reglas del lenguaje, el razonamiento y una cantidad enciclopédica de conocimiento general. Pero ser un experto en lenguaje no te convierte en un experto en la psique humana. Para lograr esa transformación, Centaur necesitaba ir a la universidad de la psicología.

Esa «universidad» fue un gigantesco conjunto de datos creado por los propios investigadores, al que llamaron Psych-101.

Imagina una biblioteca digital que, en lugar de libros, contiene los registros detallados de 160 experimentos psicológicos diferentes. En sus estanterías virtuales se archivan las acciones, decisiones y respuestas, una por una, de más de 60,000 personas de todo el mundo. En total, esta biblioteca contiene más de diez millones de elecciones humanas individuales, un tesoro de datos sobre el comportamiento humano de una escala nunca antes vista. Los investigadores transcribieron cada uno de estos experimentos a un formato de texto simple, como si le estuvieran contando a alguien las reglas de un juego.

Dentro de esta biblioteca de la mente humana, Psych-101, había todo tipo de «libros». Algunos describían experimentos de toma de decisiones, donde se les pedía a las personas que eligieran entre dos loterías con diferentes probabilidades de ganar dinero, obligándolas a sopesar el riesgo y la recompensa. Otros eran tareas de memoria, como una en la que los participantes tenían que ver pasar una larga serie de letras e indicar si la letra que veían en pantalla era la misma que habían visto dos turnos antes, poniendo a prueba su memoria a corto plazo. Había también juegos de aprendizaje, donde las personas debían descubrir patrones ocultos, por ejemplo, qué combinación de cartas de tarot predecía si el tiempo sería lluvioso o soleado, basándose únicamente en el acierto y el error. Incluso contenía simulaciones más complejas de la vida real, como los llamados «bandidos multi-brazo», donde el objetivo es elegir repetidamente entre varias máquinas tragamonedas (o cualquier otra opción con resultados inciertos) para intentar averiguar cuál es la que da más premios a largo plazo.

El proceso para crear a Centaur fue, en esencia, un re-entrenamiento o una especialización. Los investigadores tomaron el modelo Llama 3.1, con todo su conocimiento general, y lo sumergieron en la biblioteca de Psych-101. Utilizaron una técnica muy eficiente que no requiere modificar todo el cerebro de la IA, sino que le añade unas pequeñas «mochilas» de conocimiento nuevo y entrenable. Durante este entrenamiento, el único objetivo que se le dio al modelo fue aprender a predecir la siguiente acción que un humano tomaría en cada uno de esos millones de ensayos. No se le enseñó a ganar el juego, ni a ser más rápido, ni a ser más lógico. Simplemente, a ser más humano en sus elecciones. Después de un intenso periodo de estudio que duró unos cinco días, el proceso terminó. Llama 3.1 había salido de la «universidad» de la psicología transformado. Ahora era Centaur, un modelo que, según sus creadores, no solo conocía el mundo, sino que también empezaba a entender cómo lo vemos, y cómo actuamos en él, nosotros los humanos. La pregunta ahora era: ¿realmente había aprendido la lección? Había llegado el momento de ponerlo a prueba.

A Examen: Las Pruebas que Demostraron la Habilidad Única de Centaur

Crear una inteligencia artificial y alimentarla con una cantidad masiva de datos sobre el comportamiento humano es solo el primer paso. El verdadero desafío, el equivalente a los exámenes finales después de una larga carrera universitaria, es comprobar si realmente ha aprendido algo útil. ¿Podía Centaur hacer algo más que simplemente memorizar las respuestas que había visto durante su entrenamiento? Para averiguarlo, sus creadores lo sometieron a una serie de pruebas increíblemente rigurosas, diseñadas para evaluar sus nuevas habilidades desde todos los ángulos posibles.

La primera y más fundamental de las pruebas fue comprobar si este modelo de lenguaje ajustado podía predecir el comportamiento de personas a las que nunca antes había «conocido». Esto es crucial, porque un estudiante que solo sabe repetir las respuestas exactas del libro de texto no ha entendido realmente la materia. Para hacer esto, los científicos fueron muy cuidadosos. De cada uno de los 160 experimentos en la «biblioteca» Psych-101, apartaron a un grupo de participantes, concretamente al 10% de ellos, y los mantuvieron en secreto, completamente fuera del alcance del simulador de comportamiento durante su entrenamiento. Una vez que el modelo computacional terminó su formación con el 90% restante de los datos, le presentaron los historiales de estos participantes «secretos» y le pidieron que predijera, elección tras elección, qué harían a continuación.

Los resultados fueron sorprendentes.

Para tener un punto de comparación, hicieron la misma prueba con el modelo original, Llama 3.1, antes de su entrenamiento especializado. Y también lo compararon con una colección de modelos de la «vieja escuela»: programas informáticos diseñados por psicólogos durante décadas, cada uno especializado en explicar un tipo muy concreto de tarea. Era como enfrentar a un médico de familia recién graduado (Centaur) contra un enciclopedista (Llama) y un grupo de súper especialistas (los modelos cognitivos).

En casi todos y cada uno de los experimentos, el sistema fue significativamente mejor prediciendo las elecciones de los humanos que el modelo Llama original. Esto demostró que su «educación» en psicología había funcionado. Pero lo más impresionante fue que también superó a los modelos especialistas en sus propios campos en prácticamente todas las tareas.

El médico de familia demostró saber más sobre cardiología que el cardiólogo, más sobre dermatología que el dermatólogo, y así sucesivamente. Era una clara señal de que este enfoque unificado tenía un poder predictivo formidable.

Pero predecir la siguiente acción de alguien basándose en su historial es una cosa. Una prueba mucho más difícil, y más reveladora, es ver si el modelo puede comportarse como un humano por sí solo.

Los investigadores se preguntaron: ¿qué pasaría si sentamos a Centaur frente a uno de estos experimentos y le decimos «juega tú»? En este escenario, llamado simulación en «bucle abierto», el modelo no tiene un historial humano que seguir. Tiene que hacer su propia elección, observar el resultado, y luego usar esa experiencia para su siguiente elección, y así sucesivamente, generando una cadena de comportamiento completamente autónoma. Esto es como pasar de un examen de rellenar huecos a uno de redacción libre; es una prueba mucho más profunda de la comprensión.

Ejecutaron estas simulaciones en varios experimentos clave. Uno de ellos era la «tarea del horizonte», un juego de dos máquinas tragamonedas diseñado para ver cómo las personas equilibran el deseo de ganar dinero ahora (explotar la máquina que parece mejor) con la necesidad de probar la otra máquina por si acaso es aún más rentable (explorar).

Muchos modelos de IA simples solo explotarían la opción que parece mejor en ese momento. Los humanos, sin embargo, muestran una curiosidad sofisticada; a menudo exploran una opción simplemente para reducir su incertidumbre sobre ella. Sorprendentemente, Centaur hizo exactamente eso. No solo obtuvo una puntuación final muy similar a la de los humanos, sino que también mostró el mismo patrón de «exploración dirigida por la incertidumbre», un comportamiento muy sutil y muy humano que a menudo es difícil de replicar en máquinas.

Otro hallazgo fascinante provino de una simulación de la «tarea de dos pasos», un ingenioso experimento que ayuda a diferenciar entre dos formas de aprender. Una es el aprendizaje «libre de modelos», que es como un hábito (por ejemplo, siempre pides el mismo plato en un restaurante porque la última vez te gustó), y la otra es el aprendizaje «basado en modelos», que implica tener un mapa mental de cómo funcionan las cosas (por ejemplo, sabes que ese plato lo hace un chef que solo trabaja los martes, así que solo lo pides ese día).

En la población humana, hay gente que tiende más a un estilo que al otro, y muchos están en un punto intermedio. Cuando dejaron que ésta herramienta de IA «jugara» a esta tarea, no se comportó como un único participante promedio. En cambio, a lo largo de muchas simulaciones, generó toda la gama de comportamientos que se ven en la población humana: a veces actuaba por hábito, otras veces usando un mapa mental, y a menudo, como una mezcla de ambos. No solo había aprendido a ser un humano, sino que había aprendido a ser diferentes tipos de humanos.

Como prueba final, quisieron asegurarse de que el modelo predictivo se había vuelto un experto en predecir humanos, y no simplemente un experto en predecir cualquier tipo de agente. Le presentaron un juego en el que tenía que predecir las acciones de otros humanos o las de un agente artificial diseñado para ser predecible pero no humano.

Los resultados fueron un espejo de los de un estudio con personas reales: Centaur era bueno prediciendo a los humanos (64% de acierto) pero bastante malo prediciendo a la máquina (35% de acierto). Esto confirmó que su especialización era genuina. Se había sintonizado con la forma particular, a veces ilógica y a menudo impredecible, en que los seres humanos tomamos nuestras decisiones.

Había superado sus exámenes con nota, demostrando que no solo podía seguir los pasos de un humano, sino también caminar por sí mismo de una manera sorprendentemente similar a la nuestra.

Rompiendo el Molde: La Prueba Definitiva de la Flexibilidad Mental

Haber demostrado que Centaur podía predecir y simular el comportamiento humano en tareas que ya conocía era un logro monumental. Pero para ser considerado un verdadero modelo de la cognición humana, tenía que hacer algo aún más extraordinario: debía ser capaz de enfrentarse a lo desconocido. La verdadera inteligencia humana no reside en hacer bien lo que ya hemos practicado, sino en nuestra capacidad para adaptarnos, para usar nuestro conocimiento en situaciones nuevas y para encontrar soluciones a problemas que nunca antes habíamos visto. ¿Tendría este modelo de IA esta chispa de flexibilidad mental, o se vendría abajo en cuanto lo sacaran de su zona de confort?

Para responder a esta pregunta, los científicos diseñaron una serie de pruebas de «fuera de distribución», un término técnico para describir situaciones que son intencionadamente diferentes a todo lo que el modelo vio durante su entrenamiento. Estas pruebas se hicieron cada vez más difíciles, como ir subiendo el nivel de un videojuego para ver dónde está el límite del jugador.

La primera prueba fue un cambio sutil pero revelador. Tomaron un experimento que Centaur conocía, la «tarea de dos pasos», que en su versión original se describía con una historia de naves espaciales que viajaban a planetas en busca de tesoros. Los investigadores tenían datos de una versión alternativa de esta misma tarea, pero con una «historia de portada» completamente diferente: en lugar de naves y planetas, la historia hablaba de alfombras mágicas.

La lógica del juego era exactamente la misma, pero la presentación era totalmente nueva. Para una IA simple, este cambio de contexto podría ser confuso. Sin embargo, Centaur lo manejó sin problemas. Fue capaz de entender que, aunque las palabras eran distintas, la esencia del problema era la misma, y predijo el comportamiento de los participantes en la versión de las alfombras mágicas con la misma eficacia que en la de las naves espaciales, superando de nuevo tanto al modelo Llama original como a un modelo cognitivo especializado. Esto demostraba que no había aprendido la historia de memoria, sino que había captado la estructura subyacente del problema.

La siguiente prueba subió la apuesta. En lugar de cambiar solo la historia, modificaron la estructura misma del juego. Durante su entrenamiento, el modelo de lenguaje ajustado había visto muchos experimentos del tipo «bandido de dos brazos», donde la elección es siempre entre dos opciones.

Los investigadores lo enfrentaron a un paradigma nuevo para él llamado «la granja de Maggie», una tarea que extiende el problema a tres opciones en lugar de dos. Este no era un cambio cosmético; requería que el modelo adaptara su estrategia a un entorno de decisión más complejo. Mientras que los modelos cognitivos tradicionales, diseñados específicamente para dos opciones, fallaban estrepitosamente en esta nueva versión, Centaur demostró una increíble flexibilidad. Generalizó su conocimiento de los problemas de dos opciones y lo aplicó con éxito al nuevo escenario de tres, capturando el comportamiento humano con una precisión notable.

La prueba definitiva de su capacidad de adaptación fue enfrentarlo a un dominio del pensamiento completamente nuevo. Los investigadores se aseguraron de que durante su entrenamiento en la «biblioteca» Psych-101, Centaur nunca hubiera visto un solo experimento relacionado con el razonamiento lógico formal. Después, le presentaron datos de un estudio donde los participantes tenían que resolver problemas de lógica pura, similares a los que se encuentran en los exámenes de acceso a las facultades de derecho. Este es un tipo de pensamiento muy diferente al de las tareas de aprendizaje o de toma de decisiones bajo incertidumbre que había estudiado.

El resultado fue, una vez más, un éxito. Aunque era un campo totalmente nuevo para él, el modelo fundacional fue capaz de predecir las respuestas humanas mucho mejor que el modelo Llama original, demostrando que el proceso de ajuste fino no solo le había enseñado a imitar, sino que le había conferido una capacidad de razonamiento más abstracta y generalizable.

Para asegurarse de que estos no eran resultados aislados, los científicos repitieron estas pruebas de generalización en otros seis tipos de experimentos completamente nuevos para Centaur, que abarcaban desde la toma de decisiones morales y juegos económicos hasta el aprendizaje en entornos naturalistas.

En todos estos escenarios, el modelo demostró una robusta capacidad para capturar el comportamiento humano, a diferencia de otros modelos que no habían pasado por su entrenamiento especializado. Incluso fue capaz de predecir con mayor precisión los tiempos de respuesta de las personas, una medida que refleja la dificultad y la incertidumbre que sentimos al tomar una decisión. Al enfrentarse a lo desconocido, Centaur no solo no se rompió, sino que brilló, demostrando que había adquirido algo parecido a una forma de pensar flexible, una habilidad que hasta ahora considerábamos exclusivamente humana.

Del Código al Cerebro: Lo que Centaur Nos Revela Sobre Nosotros Mismos

Los logros de esta herramienta predictiva a la hora de predecir y simular el comportamiento humano eran, por sí solos, un hito en el campo de la inteligencia artificial. Pero los investigadores querían ir un paso más allá. Se plantearon una pregunta que roza la ciencia ficción: si este modelo actúa como un humano, ¿ha empezado también a «pensar» como un humano? Es decir, ¿las representaciones internas de la información dentro de su cerebro digital, su forma de procesar los datos, se parecen de alguna manera a la actividad que se produce en un cerebro humano de carne y hueso?.

Para investigarlo, llevaron a cabo un experimento fascinante que conectaba directamente el mundo del código con el de la neurociencia. Utilizaron datos de resonancia magnética funcional (fMRI), una técnica que mide el flujo sanguíneo en el cerebro para ver qué áreas se «encienden» cuando realizamos una tarea. Tenían grabaciones del cerebro de personas mientras jugaban a la «tarea de dos pasos». Lo que hicieron fue intentar predecir la actividad cerebral de una persona en un momento dado utilizando como única información las «activaciones internas» de Centaur en ese mismo momento del juego. Era como intentar ver si el mapa de carreteras de una ciudad (la actividad cerebral) podía ser predicho por el mapa de rutas de un GPS que está haciendo el mismo recorrido (las representaciones de Centaur).

Los resultados fueron extraordinarios. Las representaciones internas del modelo predictivo eran consistentemente mejores para predecir la actividad cerebral humana que las del modelo Llama original, el que no había recibido la educación en psicología. De alguna manera, al entrenar al modelo para que se comportara como un humano, sus mecanismos internos se habían reorganizado espontáneamente para parecerse más a los de un cerebro humano, sin que nadie se lo hubiera pedido explícitamente. Esto sugiere que la conexión entre nuestro comportamiento y la estructura de nuestro pensamiento es tan profunda que al replicar uno, se empieza a replicar el otro.

Este descubrimiento no solo validaba a Centaur como un modelo sorprendentemente realista, sino que también lo convertía en una herramienta científica de un poder sin precedentes. Y para demostrarlo, los investigadores realizaron un último caso de estudio, uno que muestra cómo esta nueva tecnología puede acelerar el descubrimiento científico y ayudarnos a entendernos mejor a nosotros mismos.

Se centraron en un tipo de decisión que todos tomamos a menudo: elegir entre dos productos (como dos móviles o dos bicicletas) basándonos en varias características (opiniones de expertos, precio, durabilidad, etc.).

Los psicólogos llevan años debatiendo qué estrategia mental utilizamos en estos casos. Algunos creen que usamos una estrategia muy racional, donde sopesamos cada característica y le damos una importancia para calcular una puntuación total. Otros creen que usamos «atajos» mentales o heurísticas, como la de «fijarse solo en lo más importante» y elegir basándonos únicamente en ese factor.

Los investigadores tomaron los datos de uno de estos experimentos y, primero, le pidieron a otra IA muy avanzada, llamada DeepSeek-R1, que los analizara y propusiera una explicación verbal de lo que hacían los participantes. La IA sugirió una nueva e interesante estrategia mixta que nadie había considerado antes: la gente primero cuenta qué producto tiene más características positivas y, solo si hay un empate, entonces se fijan en la característica más importante para decidir. Los científicos convirtieron esta idea en un modelo matemático y descubrieron que, efectivamente, explicaba el comportamiento de la gente mejor que las teorías anteriores.

Este ejemplo es quizás el legado más importante de Centaur. Demuestra un futuro en el que la inteligencia artificial no solo se usa para imitar la inteligencia humana, sino como un socio colaborador en la aventura científica. Puede actuar como un microscopio que nos permite ver patrones en nuestros propios datos que éramos incapaces de detectar, y como un sparring intelectual que nos ayuda a refinar nuestras teorías hasta que sean más precisas y verdaderas.

Centaur no es solo un espejo de la mente; es una herramienta que nos permite pulir ese espejo para que el reflejo que veamos de nosotros mismos sea cada vez más nítido.

Paper

Para estar informado, Ingresá o Creá tu cuenta en MundoIA...

Entrar

Recordá revisar la carpeta de "no deseados", el correo puede llegar allí