Google DeepMind ha presentado SIMA 2, la evolución de su Agente Multi-mundo Escalable e Instruible, que representa un salto cualitativo en la creación de inteligencias artificiales generalistas. Donde su predecesor se especializaba en seguir comandos básicos en entornos virtuales, SIMA 2, impulsado por los modelos Gemini, emerge como un ente capaz de razonar sobre sus objetivos, mantener conversaciones con usuarios y aprender de forma autónoma mediante la experiencia.
Este avance trasciende el ámbito de los videojuegos para convertirse en un banco de pruebas fundamental para la Inteligencia Artificial General (AGI). La capacidad de SIMA 2 de percibir, comprender y actuar en mundos 3D complejos sienta las bases para futuros asistentes de IA encarnados, con aplicaciones directas en robótica y sistemas autónomos que deben interactuar con el mundo físico.
El agente opera como lo haría una persona: observa la pantalla y utiliza un teclado y mouse virtuales para interactuar, sin acceso privilegiado a la mecánica interna del juego. La gran diferencia reside en su "cerebro" Gemini, que le permite no solo ejecutar una acción, sino comprender el contexto de una solicitud, desglosarla en pasos lógicos y explicar su proceso de pensamiento.
El poder de Gemini: De la ejecución a la comprensión
La arquitectura original de SIMA le permitió aprender más de 600 habilidades en diversos videojuegos, desde "girar a la izquierda" hasta "abrir el mapa". SIMA 2 da un salto más allá al integrar un modelo Gemini como su núcleo de razonamiento. Esta fusión permite al agente entender objetivos de alto nivel, realizar razonamientos complejos para alcanzarlos y ejecutar acciones diestras orientadas a metas dentro de los juegos.
Los investigadores de DeepMind destacan que interactuar con SIMA 2 se siente menos como dar órdenes y más como colaborar con un compañero que comprende la tarea. El agente puede describir al usuario lo que planea hacer y detallar los pasos que está tomando, gracias a un entrenamiento que utilizó tanto demostraciones humanas como etiquetas generadas por la propia Gemini.
Nuevas capacidades de SIMA 2 impulsadas por Gemini
Razonamiento interno: Capacidad de pensar sobre las instrucciones y descomponerlas en pasos lógicos.
Diálogo contextual: Puede conversar con el usuario, describiendo sus intenciones y el progreso hacia la meta.
Comprensión multimodal: Responde a instrucciones basadas en texto, voz, imágenes e incluso emojis.
Generalización de conceptos: Transfiere el aprendizaje de "minar" en un juego a "cosechar" en otro.
Automejora: Aprende de la experiencia propia mediante ensayo y error y retroalimentación de Gemini.
Un salto en el rendimiento y la generalización
La incorporación de Gemini ha resultado en una mejora dramática en la capacidad de generalización y confiabilidad. SIMA 2 puede entender instrucciones más complejas y matizadas que su predecesor y tiene mucho más éxito en llevarlas a cabo, incluso en situaciones o juegos en los que nunca fue entrenado, como el juego de supervivencia vikinga ASKA o MineDojo.
Según los benchmarks de DeepMind, mientras que SIMA 1 tenía una tasa de éxito de alrededor del 31% en tareas complejas (frente al 71% de los jugadores humanos), SIMA 2 casi ha duplicado el rendimiento de la primera versión. Esta mejora lo sitúa significativamente más cerca del nivel de un jugador humano en una amplia gama de tareas.
La prueba definitiva: Jugando en mundos nunca vistos
Para probar los límites de las habilidades de generalización de SIMA 2, los investigadores de DeepMind lo combinaron con Genie 3, otro proyecto pionero que puede generar nuevos mundos simulados en 3D en tiempo real a partir de una sola imagen o prompt de texto.
Al desplegar SIMA 2 en estos entornos generados, el agente fue capaz de orientarse de manera sensata, entender las instrucciones del usuario y tomar acciones significativas hacia los objetivos, a pesar de no haber visto jamás esos mundos. Esto demuestra un nivel de adaptabilidad sin precedentes para un agente de IA.
Hacia la auto-mejora escalable y el aprendizaje multitarea
Una de las capacidades más emocionantes de SIMA 2 es su capacidad para la auto-mejora. Los investigadores observaron que, a lo largo del entrenamiento, los agentes SIMA 2 pueden realizar tareas cada vez más complejas y nuevas, impulsadas por el ensayo y error y la retroalimentación basada en Gemini.
Este proceso crea un ciclo virtuoso: después de aprender inicialmente de demostraciones humanas, SIMA 2 puede pasar a aprender en nuevos juegos exclusivamente mediante el juego autodirigido. Luego, los datos de su propia experiencia pueden usarse para entrenar la siguiente versión, aún más capaz, del agente.
El mecanismo de auto-aprendizaje de SIMA 2
Inicialización con datos humanos: Se entrena un modelo base fuerte con grabaciones de partidas humanas.
Generación de tareas: En un nuevo entorno, un modelo Gemini crea nuevos desafíos para que el agente los resuelva.
Evaluación automática: Un modelo de recompensa separado puntúa los intentos del agente.
Aprendizaje por refuerzo: El agente utiliza estas experiencias sintéticas como datos de entrenamiento para mejorar, aprendiendo de sus propios errores guiado por la retroalimentación de la IA.
Del mundo virtual a la realidad física: Implicaciones para la robótica
DeepMind enmarca a SIMA 2 como un paso significativo hacia el desarrollo de robots de propósito general. Las habilidades que ha aprendido, desde navegación y uso de herramientas hasta ejecución colaborativa de tareas, son algunos de los bloques fundamentales para la encarnación física de la inteligencia necesaria para los futuros asistentes de IA en el mundo físico.
Frederic Besse, ingeniero senior de DeepMind, explica que un sistema que realiza tareas en el mundo real, como un robot, requiere un "entendimiento de alto nivel del mundo real y lo que debe hacerse, así como cierto razonamiento". SIMA 2 se centra más en ese comportamiento de alto nivel que en las acciones de bajo nivel, como controlar articulaciones físicas y ruedas.
Limitaciones actuales y desafíos futuros
A pesar de sus avances, SIMA 2 es fundamentalmente un esfuerzo de investigación y sus limitaciones actuales destacan áreas críticas para el trabajo futuro. Los agentes todavía enfrentan desafíos con tareas de horizonte muy largo y complejas que requieren un razonamiento extenso y multi-etapa.
Además, SIMA 2 tiene una memoria relativamente corta de sus interacciones, ya que debe usar una ventana de contexto limitada para lograr una interacción de baja latencia. Finalmente, ejecutar acciones precisas de bajo nivel a través de la interfaz de teclado y mouse y lograr una comprensión visual robusta de escenas 3D complejas siguen siendo desafíos abiertos que todo el campo continúa abordando.
Desarrollo responsable y acceso controlado
Como con todas sus tecnologías avanzadas, DeepMind enfatiza su compromiso de desarrollar SIMA 2 de manera responsable. Esto es particularmente cierto con respecto a su capacidad de auto-mejorarse. Como medida de precaución, DeepMind anuncia SIMA 2 como una vista previa de investigación limitada, proporcionando acceso temprano a una pequeña cohorte de académicos y desarrolladores de juegos.
Este enfoque permite recopilar comentarios cruciales y perspectivas interdisciplinarias mientras DeepMind continúa construyendo su comprensión de los riesgos y sus mitigaciones apropiadas. El equipo ha trabajado con su Equipo de Desarrollo e Innovación Responsable para incorporar consideraciones éticas desde el principio.
Un hito en el camino hacia la inteligencia encarnada general
SIMA 2 representa una validación fundamental para un nuevo camino en la IA orientada a la acción. Confirma que una IA entrenada para una competencia amplia, aprovechando datos multi-mundo diversos y el poderoso razonamiento de Gemini, puede unificar exitosamente las capacidades de muchos sistemas especializados en un agente generalista coherente.
Si bien la aplicación en robótica del mundo real no es inmediata, las habilidades de alto nivel demostradas por SIMA 2 (razonamiento, planificación y comprensión contextual) son ingredientes esenciales para cualquier sistema inteligente que aspire a interactuar de manera significativa y segura con entornos complejos, ya sean virtuales o físicos. El ciclo de mejora iterativa allana el camino para un futuro donde los agentes puedan aprender y crecer con una intervención humana mínima, convirtiéndose en aprendices de mente abierta en IA encarnada.
Referencias
Google DeepMind. "SIMA 2: An Agent that Plays, Reasons, and Learns With You in Virtual 3D Worlds." Blog oficial de Google DeepMind, 13 de noviembre de 2025.
Field, Hayden. "Google's SIMA 2 agent uses Gemini to reason and act in virtual worlds." TechCrunch, 13 de noviembre de 2025.
Heaven, Will Douglas. "Google DeepMind is using Gemini to train agents inside Goat Simulator 3." MIT Technology Review, 13 de noviembre de 2025.
BitDegree.org. "Google DeepMind Debuts SIMA 2, Smarter AGI Agent Powered by Gemini." 13 de noviembre de 2025.
Zuckerman, Gregory. "Google's SIMA 2 agent uses Gemini in virtual worlds." FindArticles, 13 de noviembre de 2025.



