Cuando dos personas se encuentran para resolver un problema juntas, algo extraordinario ocurre. Sin necesidad de establecer protocolos rígidos ni instrucciones exhaustivas, comienzan a colaborar de manera fluida: comparten información selectivamente, ajustan su comunicación según las señales del otro, resuelven desacuerdos mediante el diálogo, y construyen gradualmente una comprensión compartida del problema y su solución. Esta capacidad para la colaboración flexible es tan natural para los humanos que rara vez nos detenemos a considerar su complejidad subyacente. Sin embargo, para los sistemas de inteligencia artificial más avanzados del momento, esta habilidad fundamental permanece sorprendentemente esquiva.
Un consorcio de investigadores de EPFL y Microsoft Research acaba de documentar un fenómeno desconcertante que expone una limitación crítica en el desarrollo actual de la inteligencia artificial. En su trabajo titulado "The Collaboration Gap", Tim Davidson, Adam Fourney, Saleema Amershi, Robert West, Eric Horvitz y Ece Kamar revelan que los modelos de lenguaje que exhiben capacidades impresionantes cuando trabajan solos experimentan caídas dramáticas de rendimiento cuando se les requiere colaborar, incluso con copias idénticas de sí mismos. Esta "brecha de colaboración" no es un problema menor de ajuste fino: representa una falla fundamental en los paradigmas de entrenamiento actuales que podría convertirse en el principal obstáculo para la implementación generalizada de agentes autónomos.
El timing de este descubrimiento no podría ser más relevante. La industria tecnológica está apostando billones de dólares a una visión del futuro donde múltiples agentes de inteligencia artificial, desarrollados independientemente por diferentes organizaciones, colaborarán entre sí para resolver problemas complejos. Empresas líderes como Anthropic, Google y OpenAI están desarrollando protocolos de comunicación entre agentes, mientras startups dedicadas a soluciones multi-agente captan inversiones masivas y gobiernos lanzan programas de adopción corporativa. Sin embargo, este estudio sugiere que la infraestructura técnica está corriendo muy por delante de las capacidades fundamentales necesarias para que estos sistemas funcionen efectivamente en el mundo real.
Laberintos como microscopios de colaboración
Para estudiar las capacidades colaborativas de manera rigurosa y escalable, el equipo diseñó un benchmark ingeniosamente simple pero revelador: resolución colaborativa de laberintos. La elección no es arbitraria. Los laberintos poseen propiedades únicas que los hacen ideales para aislar y medir habilidades colaborativas específicas, siguiendo una tradición establecida por estudios seminales de colaboración humana en las décadas de 1980 y 1990.
Primero, los laberintos son estructuras fijas que pueden describirse de múltiples maneras igualmente válidas. Un mismo laberinto puede referenciarse usando notación fila-columna, descripciones visuales, coordenadas con diferentes orígenes, o direcciones cardinales. Esta ambigüedad inherente crea la necesidad de "alineación representacional": los agentes deben establecer activamente una comprensión compartida de cómo están describiendo el entorno. Segundo, aunque existen muchas formas de describir una solución, su corrección puede verificarse objetivamente, permitiendo evaluación automatizada a escala masiva. Tercero, los laberintos pueden resolverse tanto en solitario como en equipo, lo cual permite separar limpiamente las capacidades puras de resolución de problemas de aquellas específicamente colaborativas. Finalmente, la complejidad puede modularse simplemente ajustando el tamaño de la cuadrícula y la densidad de paredes.
La implementación específica introduce un giro crucial diseñado para incentivar genuinamente la colaboración: en lugar de proporcionar a cada agente una copia completa del laberinto, el sistema distribuye la información. Cada agente recibe su propio mapa donde aproximadamente la mitad de las celdas están ocultas, marcadas con símbolos de interrogación. Las dos copias, combinadas, revelan el laberinto completo, pero ningún agente individual posee suficiente información para resolver el problema por sí solo. Esta distribución de información obliga a los agentes a comunicarse, compartir observaciones, y construir colaborativamente una representación del entorno completo.
Los agentes reciben reglas mínimas pero críticas: ambos deben acordar un movimiento antes de que se ejecute, y solo pueden ejecutar un movimiento a la vez. Crucialmente, el sistema no impone ningún protocolo de comunicación específico ni formato de salida estructurado más allá de una frase de completación predefinida. Esta ausencia deliberada de andamiaje deja un enorme espacio para la interpretación y requiere que los agentes negocien orgánicamente sus propias convenciones comunicativas, exactamente como lo harían humanos en una situación similar.
Dado que no se aplica ninguna estructura de salida, extraer la solución propuesta de las transcripciones de diálogo no es trivial. El equipo resuelve esto utilizando un tercer agente como "calificador", encargado de extraer los movimientos acordados del texto crudo de la conversación. Los movimientos pueden seguir diferentes esquemas: direcciones como arriba y abajo, coordenadas como de celda a celda, con diferentes ubicaciones de origen. El sistema transforma la solución extraída bajo un gran conjunto de esquemas potenciales y evalúa cada uno contra el laberinto original para determinar el resultado final.
Los desafíos ocultos en la comunicación aparentemente simple
Aunque el marco parece directo, esta tarea de resolución de laberintos ofrece un entorno de evaluación extraordinariamente rico para probar diversos desafíos colaborativos. El más fundamental es el concepto de "grounding" o fundamentación: el proceso mediante el cual los participantes intentan establecer comprensión mutua. Los agentes deben asegurarse de que la información intercambiada sea entendida de la misma manera por ambas partes.
El primer desafío es construir un modelo mental compartido del laberinto mismo. Para planificar una ruta, los agentes deben intercambiar información sobre sus vistas parciales para fundamentar su comprensión del laberinto completo. Deben establecer la posición compartida del inicio y la meta. Sin un protocolo de comunicación fijo, los agentes deben acordar además cómo referirse a ubicaciones y acciones. Dos agentes están en problemas si uno usa coordenadas fila-columna y el otro las interpreta como columna-fila. El sistema documentó precisamente este tipo de falla en intercambios entre agentes grok-3, donde las coordenadas simétricas de inicio y meta enmascararon inicialmente la incompatibilidad hasta que surgió un desacuerdo sobre si celdas específicas eran caminos o paredes.
A medida que la trayectoria progresa, los agentes deben resolver diferentes tipos de conflictos. Pueden encontrar conflictos perceptuales donde discrepan sobre el contenido de una celda específica o su ubicación actual. Esto requiere la capacidad de resolver la inconsistencia y actualizar su comprensión compartida del laberinto. La naturaleza no estructurada de la tarea también introduce un desafío procedimental: quién propone el siguiente movimiento, debe un agente tomar la iniciativa o deben alternarse, pueden los agentes reconocer cuál es más capaz y deferir dinámicamente.
La Teoría de la Mente, la capacidad de razonar sobre el estado mental del otro agente, puede ser beneficiosa tanto para convencer efectivamente a otro agente de tomar una acción como para resolver conflictos potenciales. Esta constelación de habilidades colaborativas representa capacidades cognitivas de orden superior que operan sobre el proceso mismo de resolución de problemas, no simplemente mejores estrategias de resolución.
El veredicto empírico: cuando las máquinas avanzadas fallan en lo básico
El equipo sometió su benchmark a la evaluación empírica más completa hasta la fecha de capacidades colaborativas de agentes artificiales. Evaluaron 32 modelos líderes de código abierto y cerrado, incluyendo las últimas versiones de Claude, Gemini, GPT, o3, Grok, DeepSeek, Llama, Command, Phi, Kimi, y Qwen. Los experimentos cubrieron tres configuraciones: rendimiento en solitario como línea base, colaboración homogénea donde los agentes trabajan con copias idénticas de sí mismos, y colaboración heterogénea entre modelos de diferentes familias y capacidades.
Los resultados de las configuraciones en solitario establecieron que la mayoría de los modelos evaluados son capaces de resolver laberintos de seis por seis al menos parcialmente cuando se les proporciona visibilidad completa. La mitad de los modelos alcanzó tasas de resolución casi perfectas. El rendimiento cae significativamente para aproximadamente un tercio de los modelos cuando cambian a información distribuida, donde deben integrar dos mapas parciales, pero en general los modelos demuestran capacidades básicas de resolución de laberintos.
Luego viene el hallazgo central y más perturbador del estudio. Virtualmente todos los modelos estudiados experimentan una caída significativa de rendimiento al moverse de una configuración en solitario a una colaborativa. Modelos que resuelven laberintos perfectamente solos colapsan cuando se les pide trabajar con una copia idéntica de sí mismos. Los modelos más grandes y los modelos de "pensamiento" tienden a desempeñarse mejor que modelos más pequeños y regulares, pero esto no siempre es el caso. Por ejemplo, tanto grok-3 como kimi-k2 tienen un rendimiento inferior a grok-3-mini, a pesar de ser modelos más grandes.
Los modelos destilados aparecen desproporcionadamente afectados. Las grandes caídas de GPT-5 a GPT-5-nano y de Gemini-2.5-Pro a Gemini-2.5-Flash-Lite sugieren que las estrategias actuales de destilación pierden más que solo información del extremo final de la distribución de conocimiento del modelo base. Están perdiendo capacidades colaborativas fundamentales que no se capturan en los objetivos de destilación actuales.
El análisis cualitativo de los primeros mensajes ilumina qué explica estas diferencias. El modelo o3 más fuerte busca inmediatamente alinear su representación del laberinto proporcionando un esquema completamente determinado, solicitando información faltante y describiendo pasos inmediatos siguientes. También se asegura de fundamentar la posición inicial. En contraste, GPT-4.1-mini solo intenta fundamentar el significado de diferentes símbolos, sin proponer un esquema de comunicación ni definir claramente su posición inicial. Esta diferencia en sofisticación comunicativa en el primer turno presagia fuertemente los resultados finales.
Colaboración heterogénea
Los experimentos de colaboración heterogénea revelan dinámicas aún más fascinantes y contraintuitivas. Cuando se emparejan modelos de diferentes capacidades, el modelo más fuerte generalmente establece un límite superior en el rendimiento, pero emparejar un modelo fuerte con uno débil no logra replicar el rendimiento del modelo fuerte solo. Esto es sorprendente dado que cada movimiento debe ser acordado por ambos agentes: uno esperaría que el agente más capaz pudiera guiar al más débil.
Más importante aún, los emparejamientos muestran efectos de orden significativos. Cuando GPT-4.1-mini se empareja con o3, el rendimiento varía dramáticamente dependiendo de quién inicia la colaboración: 0.77 cuando o3 comienza versus 0.62 cuando GPT-4.1-mini lidera. Este patrón se repite consistentemente: el agente que inicia la conversación establece las convenciones comunicativas, el nivel de rigor en la fundamentación, y la estrategia general de resolución de problemas.
Un intercambio muestra que o3, cuando sigue en lugar de liderar, imita parcialmente el formato de comunicación introducido por el GPT-4.1-mini más débil. Mientras o3 todavía propone un sistema de coordenadas, ya no intenta fundamentar el mapa completo, optando en cambio por una estrategia local codiciosa. Este fenómeno de imitación también ocurre en la dirección inversa, donde GPT-4.1-mini adopta convenciones introducidas por o3.
Al cruzar familias de modelos, el estudio observa las mismas tendencias generales: el modelo más fuerte generalmente establece un límite superior y los efectos de orden afectan los resultados. También encuentran evidencia de que los modelos pueden mostrar cierta afinidad por modelos de su propia familia. Gemini-2.5-Flash-Lite no mejora su rendimiento cuando se empareja con el GPT-4.1 más fuerte, pero se desempeña bien cuando se empareja con Gemini-2.5-Flash.
Entre los modelos insignia de los principales constructores, Claude-Sonnet-4 es la única excepción a la tendencia de orden: su rendimiento colaborativo con Gemini-2.5-Flash y GPT-4.1 supera el rendimiento homogéneo de ambos modelos. Grok-3-mini se muestra como un colaborador especialmente capaz, manteniendo el rendimiento cercano a su alta línea base homogénea. Es menos complaciente que otros modelos, corrigiendo activamente errores introducidos por socios más débiles en lugar de simplemente estar de acuerdo.
Convertir una intuición sobre orden en estrategia
La observación de que el agente inicial establece desproporcionadamente el tono colaborativo llevó al equipo a proponer "inferencia de relevo": una estrategia donde un modelo más capaz y costoso siembra los pasos iniciales de una tarea para un modelo más débil y económico. Esta aproximación es particularmente relevante para escenarios de implementación del mundo real donde las organizaciones deben equilibrar costos con rendimiento, especialmente cuando colaboran con agentes externos cuya elección de modelo no pueden controlar.
Los experimentos de relevo prueban dos escenarios. En el cebado fuerte, un modelo fuerte y uno débil interactúan durante K turnos, después de los cuales se intercambia otra copia del modelo débil para completar la tarea. En la recuperación fuerte, dos modelos débiles interactúan durante K turnos, después de lo cual se intercambia el modelo fuerte para recuperar el rendimiento.
Los resultados del cebado fuerte son notables. Cebar un diálogo con un solo mensaje del o3 más fuerte puede impulsar significativamente el rendimiento tanto para el GPT-4.1-mini más débil como para Gemini-2.5-Flash-Lite. Esto es digno de mención porque o3 solo tiene acceso a su propia copia incompleta del mapa en este punto, evitando el potencial confundidor de proponer una solución para todo el mapa. El modelo fuerte establece fundamentación rigurosa, esquemas de comunicación claros y estrategia inicial sólida que el modelo más débil puede seguir.
Por el contrario, la recuperación fuerte muestra rendimientos decrecientes. Cuantos más mensajes se permite a los modelos débiles intercambiar, más difícil se vuelve para un modelo fuerte recuperar el rendimiento. Después de solo cuatro turnos de un modelo débil estableciendo convenciones subóptimas y posiblemente introduciendo errores, incluso modelos muy capaces luchan para corregir el curso. Tomados en conjunto, estos resultados sugieren que usar modelos fuertes para sembrar colaboraciones puede ser más efectivo y eficiente que usarlos como expertos de respaldo que saltan para corregir el rumbo.
Repensar el entrenamiento y la implementación de agentes
Los resultados de este estudio plantean preguntas incómodas para la comunidad de IA sobre qué falta exactamente en los sistemas actuales. La respuesta convencional sería mejores sesgos inductivos sobre colaboración incorporados en arquitectura o entrenamiento. Esta investigación sugiere algo más profundo y desafiante: los modelos actuales carecen de capacidades metacognitivas que operan en múltiples niveles de inferencia.
El trabajo hace un caso convincente de que los modelos de lenguaje pequeños liderarán la era agéntica. Los autores argumentan correctamente que modelos pequeños especialistas serían más prácticos para resolver tareas especializadas que modelos generalistas grandes. Sin embargo, hay una advertencia importante: cuanto más especializado se vuelve un agente, mayor es la probabilidad de que encuentre desafíos fuera de su área de especialización, aumentando la necesidad de colaborar efectivamente con otros agentes para llenar brechas de capacidad. Los resultados sugieren que ingenuamente dividir problemas para ser resueltos por múltiples agentes podría introducir deslizamiento colaborativo significativo.
De parches a rediseño fundamental
El estudio no solo diagnostica el problema sino que apunta hacia direcciones concretas de solución. Primero, el hallazgo de que el cebado mejora la colaboración en modelos más débiles, y conversamente que el rendimiento se degrada cuando modelos más débiles lideran, tiene lecciones tanto para colaboración AI-AI como humano-AI. Da credibilidad a iniciativas nacionales que aumentan la competencia de las personas en interactuar con IA, sugiriendo que los humanos que inician interacciones con agentes artificiales establecen expectativas colaborativas importantes.
Segundo, sugiere que la IA tendrá que resolver cada vez más el problema del bibliotecario especialista: las consultas de información no son eventos únicos, sino procesos dinámicos durante los cuales el agente primero debe descifrar las verdaderas necesidades de alguien antes de resolverlas. Esto requiere capacidades metacognitivas sofisticadas para razonar sobre el estado de conocimiento, objetivos e intenciones del colaborador.
Tercero, el estudio argumenta fuertemente por evaluación consciente de la colaboración. Los benchmarks actuales miden casi exclusivamente el rendimiento en solitario, creando un punto ciego masivo en nuestra comprensión de las capacidades del sistema. El framework propuesto, con sus desafíos aislados y limpiamente mensurables, proporciona precisamente el tipo de infraestructura de evaluación que la comunidad necesita para medir y eventualmente cerrar la brecha de colaboración.
Finalmente, y quizás más fundamentalmente, los hallazgos desafían a la comunidad de investigación a tratar la inteligencia colaborativa como un objetivo central a ser diseñado, no como una propiedad emergente a ser esperada. Como lo articuló Barbara Grosz en 1996: "las capacidades necesarias para la colaboración no pueden ser parcheadas, sino que deben ser diseñadas desde el principio". Esta perspectiva requiere repensar objetivos de entrenamiento, arquitecturas de modelo, y metodologías de evaluación para priorizar explícitamente capacidades colaborativas.
El camino crítico hacia agentes verdaderamente autónomos
Este trabajo llega en un momento crítico cuando la industria tecnológica acelera hacia sistemas multi-agente sin evidencia empírica clara de que los componentes fundamentales puedan colaborar efectivamente. Las inversiones masivas en infraestructura de agentes, los lanzamientos de productos de alto perfil, y los programas de adopción corporativa están todas corriendo muy por delante de nuestra comprensión de si estos sistemas pueden realmente entregar su promesa.
La brecha de colaboración documentada aquí no es un problema técnico menor que pueda resolverse con más datos de entrenamiento o modelos más grandes. Es una limitación fundamental que requiere repensar cómo entrenamos, evaluamos e implementamos sistemas de inteligencia artificial. El hecho de que la brecha aparezca en el entorno de prueba simple y estilizado de laberintos es particularmente alarmante, ya que revela un punto ciego en los paradigmas de entrenamiento actuales en lugar de un artefacto de complejidad de tarea.
El estudio proporciona razones para el optimismo junto con la advertencia. La inferencia de relevo demuestra que intervenciones relativamente simples pueden mejorar significativamente los resultados colaborativos. Algunos modelos, como Claude-Sonnet-4 y Grok-3-mini, exhiben capacidades colaborativas notablemente mejores que sus pares, demostrando que el problema es solucionable. Y lo más importante, el trabajo proporciona herramientas de medición precisas que permiten a la comunidad rastrear el progreso y comparar aproximaciones.
La civilización humana es fundamentalmente una historia de colaboración continua y rica. Mientras la IA promete un nuevo capítulo, este trabajo revela un obstáculo crítico: una brecha de colaboración fundamental demostrada en los modelos líderes de hoy. Este fenómeno paradójico donde agentes con altas capacidades en solitario exhiben un colapso agudo de rendimiento en trabajo en equipo simple demanda atención urgente. Como lo expresó el equipo de investigación: "las capacidades necesarias para la colaboración no pueden ser parcheadas, sino que deben ser diseñadas desde el principio". El futuro de los agentes autónomos depende de cerrar esta brecha, no de esperar que se resuelva por sí sola mediante escalamiento.
Referencias
Davidson, T. R., Fourney, A., Amershi, S., West, R., Horvitz, E., & Kamar, E. (2025). The Collaboration Gap. arXiv:2511.02687v1 [cs.AI].
Garrod, S., & Pickering, M. J. (2004). Why is conversation so easy? Trends in Cognitive Sciences, 8(1), 8-11.
Garrod, S., & Anderson, A. (1987). Saying what you mean in dialogue: A study in conceptual and semantic co-ordination. Cognition, 27(2), 181-218.
Clark, H. H., & Brennan, S. E. (1991). Grounding in communication. Perspectives on Socially Shared Cognition, 13(1991), 127-149.
Grosz, B. J. (1996). Collaborative systems (AAAI-94 presidential address). AI Magazine, 17(2), 67-67.
Davidson, T. R., Veselovsky, V., Josifoski, M., Peyrard, M., Bosselut, A., Kosinski, M., & West, R. (2024). Evaluating language model agency through negotiations. ICLR 2024.
Bai, Y., Jones, A., Ndousse, K., Askell, A., Chen, A., DasSarma, N., ... & Kaplan, J. (2022). Training a helpful and harmless assistant with reinforcement learning from human feedback. arXiv preprint arXiv:2204.05862.
Pan, M. Z., Cemri, M., Agrawal, L. A., Yang, S., Chopra, B., Tiwari, R., ... & Parameswaran, A. (2025). Why do multi-agent systems fail? In ICLR 2025 Workshop on Building Trust in Language Models and Applications.
Fourney, A., Bansal, G., Mozannar, H., Tan, C., Salinas, E., Niedtner, F., ... & Amershi, S. (2024). Magentic-one: A generalist multi-agent system for solving complex tasks. arXiv preprint arXiv:2411.04468.



