Un robot recibe la instrucción: «Organiza la ropa por color». Antes de tocar una sola prenda, el sistema genera una cadena interna de razonamiento en lenguaje natural. Comprende que clasificar por color significa separar las prendas blancas de las coloridas. Luego planifica los pasos específicos: levantar el suéter rojo, trasladarlo hacia el contenedor negro, acercarlo primero para facilitar el agarre. Cada decisión queda registrada, cada movimiento explicado.
Esta transparencia representa un cambio fundamental respecto a los modelos tradicionales que simplemente traducen comandos en movimientos mecánicos sin revelar su proceso mental. Google DeepMind acaba de liberar Gemini Robotics 1.5, una arquitectura de doble cerebro que separa la cognición de alto nivel de la ejecución física, permitiendo a máquinas de formas completamente diferentes compartir habilidades aprendidas sin necesidad de reentrenamiento especializado.
La actualización, presentada mediante un informe técnico elaborado por 171 investigadores, introduce tres innovaciones mayores que redefinen la robótica de propósito general. La más significativa es Motion Transfer, un mecanismo que permite al sistema aprender de datos heterogéneos provenientes de robots radicalmente distintos: el brazo dual ALOHA, la plataforma bi-brazo Franka y el humanoide Apollo de Apptronik.
Habilidades dominadas en una plataforma se transfieren a otra sin ajustes específicos, reduciendo drásticamente la necesidad de recolección de datos por cada configuración mecánica. Esta capacidad de generalización entre encarnaciones físicas disímiles constituye un avance sustancial frente al paradigma histórico donde cada robot requería conjuntos de datos dedicados y modelos especializados.
El segundo pilar técnico es el pensamiento incorporado, un proceso de razonamiento multinivel que intercala acciones con análisis internos expresados en lenguaje natural. A diferencia de los modelos visión-lenguaje-acción tradicionales que mapean instrucciones directamente a comandos motores, Gemini Robotics 1.5 genera trazas explícitas de pensamiento que descomponen tareas complejas en segmentos más manejables. Este enfoque mejora notablemente la capacidad de completar misiones de largo horizonte, facilita adaptaciones durante la ejecución y hace que el comportamiento del robot resulte interpretable para supervisores humanos. La transparencia algorítmica deja de ser una aspiración teórica para convertirse en una característica operativa del sistema.
La arquitectura de dos modelos que divide cognición y control
Gemini Robotics-ER 1.5 funciona como el orquestador de alto nivel, especializado en razonamiento incorporado. Este modelo multimodal ingiere imágenes, video y opcionalmente audio, fundamenta referencias espaciales mediante puntos 2D, rastrea progreso en tareas y puede invocar herramientas externas como búsqueda web o interfaces de programación locales para obtener restricciones antes de emitir subobjetivos.
Imaginar un escenario donde el robot debe empacar una maleta para un viaje a Londres ilustra sus capacidades: el orquestador accedería al itinerario de viaje, consultaría el pronóstico meteorológico mediante búsqueda en línea y, basándose en esa información, generaría un plan de alto nivel que incluiría empacar una chaqueta impermeable. Luego instruiría al modelo de acción para ejecutar los pasos físicos de localizar la prenda y colocarla en el equipaje.
El componente de ejecución, Gemini Robotics 1.5, opera como un modelo visión-lenguaje-acción que convierte instrucciones y percepciones visuales en comandos motores. Esta división modular entre deliberación y actuación resuelve limitaciones críticas de los enfoques de extremo a extremo anteriores, que luchaban por planificar robustamente, verificar éxito y generalizar entre diferentes configuraciones robóticas.
La separación mejora interpretabilidad mediante trazas internas visibles, fortalece recuperación ante errores y aumenta confiabilidad en horizontes temporales extendidos. Ambos modelos están construidos sobre la familia central Gemini y han sido ajustados finamente con conjuntos de datos distintos para especializarse en sus roles respectivos.
La disponibilidad de estos sistemas sigue caminos diferenciados. Gemini Robotics-ER 1.5 está accesible para desarrolladores mediante la interfaz de programación Gemini en Google AI Studio, con documentación, ejemplos y controles de previsualización incluidos. Gemini Robotics 1.5, el controlador de acción, permanece limitado a socios seleccionados durante la fase inicial de despliegue, aunque existe una lista de espera pública. El acceso temprano se concentra en fabricantes establecidos de robótica y plataformas humanoides, señalando que la compañía prioriza casos de uso industriales y de consumo sobre experimentación académica dispersa.
Motion Transfer representa quizás la contribución técnica más disruptiva del conjunto. El mecanismo entrena al modelo de acción sobre una representación unificada de movimiento construida a partir de datos de robots heterogéneos, permitiendo que habilidades aprendidas en una plataforma se transfieran con cero o pocos ejemplos a otra configuración completamente diferente.
Esta capacidad reduce la carga de recolección de datos por plataforma y estrecha brechas entre simulación y realidad al reutilizar conocimientos previos entre encarnaciones físicas disímiles. Los investigadores documentaron que tareas presentadas únicamente al robot ALOHA durante entrenamiento también funcionan en el humanoide Apollo y en el brazo Franka, y viceversa.
El informe técnico presenta comparaciones controladas A/B sobre hardware real y escenas alineadas en el simulador MuJoCo. Los datos cuantitativos muestran que Gemini Robotics 1.5 supera líneas base previas en seguimiento de instrucciones, generalización de acciones, generalización visual y generalización de tareas a través de las tres plataformas evaluadas. La transferencia de habilidades entre robots heterogéneos, medida mediante indicadores de progreso y éxito, produce ganancias mensurables cuando se transfieren capacidades de Franka a ALOHA o de ALOHA a Apollo, superando mejoras parciales de progreso que no culminan en completación exitosa.
La habilitación de trazas de pensamiento en el modelo de acción incrementa significativamente la completación de tareas de largo horizonte y estabiliza revisiones de planes durante ejecuciones. Emparejar Gemini Robotics-ER 1.5 con el agente de acción mejora sustancialmente el progreso en tareas de múltiples pasos como organización de escritorio o secuencias estilo cocina, comparado con un orquestador base construido sobre Gemini 2.5 Flash. Estas mejoras no son marginales sino que representan diferencias notables en capacidad operativa real, documentadas mediante métricas de progreso y éxito en hardware físico y entornos simulados alineados.
DeepMind evaluó Gemini Robotics-ER 1.5 sobre 15 benchmarks académicos, incluyendo Embodied Reasoning Question Answering y Point-Bench, midiendo rendimiento del modelo en tareas de señalamiento, respuesta a preguntas sobre imágenes y respuesta a preguntas sobre video. El modelo establece un nuevo estado del arte para razonamiento incorporado, es decir, para capacidades críticas en robótica como comprensión visual y espacial, planificación de tareas y estimación de progreso. Esta superioridad en benchmarks académicos se traduce en ventajas prácticas cuando se implementa en sistemas físicos que deben navegar ambientes reales y completar misiones complejas.
Planificación aumentada con herramientas y controles de seguridad
La capacidad de invocar herramientas externas distingue a Gemini Robotics-ER 1.5 de planificadores tradicionales. El sistema puede ejecutar búsquedas web para obtener restricciones antes de condicionar planes, permitiendo escenarios como empacar después de verificar clima local o aplicar reglas de reciclaje específicas de una ciudad. Esta planificación aumentada con herramientas transforma robots de ejecutores de instrucciones estáticas a agentes que pueden recopilar información contextual necesaria para tomar decisiones informadas. Si se le pide clasificar objetos en contenedores de compost, reciclaje y basura según ubicación del usuario, el sistema puede buscar regulaciones locales de reciclaje, examinar objetos presentes y determinar cómo clasificarlos según esas reglas específicas.
DeepMind implementó controles de seguridad en múltiples capas. El diálogo y planificación alineados con políticas aseguran que la comunicación del robot se adhiera a políticas centrales de seguridad de Gemini para prevenir contenido dañino y garantizar respeto. El sistema incorpora fundamentación consciente de seguridad, evitando señalar objetos peligrosos durante razonamiento espacial.
Límites físicos de bajo nivel previenen movimientos que podrían causar daño o mal funcionamiento. Los investigadores expandieron suites de evaluación, incluyendo pruebas estilo ASIMOV y equipos rojos automatizados para provocar fallas de casos extremos.
El objetivo de estas evaluaciones adversariales es detectar alucinaciones de capacidades físicas u objetos inexistentes antes de que ocurra actuación. Un robot que alucina la presencia de un objeto que no existe o cree poseer una capacidad que carece podría generar movimientos peligrosos o ineficaces. Los controles semánticos de seguridad integrados en el núcleo del razonamiento del modelo representan un cambio respecto a enfoques tradicionales de seguridad robótica que se enfocaban principalmente en evitación de colisiones de bajo nivel. La nueva arquitectura integra consideraciones de seguridad de alto nivel directamente en el proceso de razonamiento, no como parche posterior sino como componente fundamental del sistema.
El contexto competitivo e industrial revela que Gemini Robotics 1.5 marca una transición desde robótica de «instrucción única» hacia autonomía agéntica de múltiples pasos con uso explícito de web y herramientas, más aprendizaje entre plataformas. Este conjunto de capacidades resulta relevante tanto para robótica de consumo como industrial.
La asociación con Apptronik para construir la próxima generación de robots humanoides, junto con más de 60 evaluadores de confianza guiando el futuro de Gemini Robotics-ER, sugiere que la compañía anticipa aplicaciones comerciales serias en horizontes temporales medibles, no demostraciones de laboratorio perpetuas.
La pregunta práctica que enfrentan equipos de desarrollo es si estas capacidades se traducen en valor económico. La respuesta matizada es que ciertas tareas sí, trabajos completos de manera más lenta. El impacto inmediato aterrizará donde flujos de trabajo se descomponen en múltiples pasos repetibles con visuales claros y verificaciones de éxito definidas. Cuartos traseros, microfulfilimiento y ciertas tareas basadas en estaciones en manufactura ligera representan candidatos probables. Los mismos ingredientes, razonamiento incorporado y un modelo de acción robusto, también abren patrones valiosos de aumentación donde robots que pueden planificar, solicitar contexto faltante y adaptarse durante ejecución trabajan junto a humanos que manejan ambigüedad, refinan objetivos y gestionan excepciones.
El camino adelante ahora resulta más claro que en años previos. Si se puede planificar en lenguaje, actuar con un modelo visión-lenguaje-acción y mover habilidades entre cuerpos, es posible comenzar a desplegar sistemas útiles más pronto. La arquitectura en Gemini Robotics 1.5 funciona como plano para exactamente eso: cómo un robot puede avanzar más allá de demostraciones escenificadas hacia trabajos cotidianos reales. Para equipos explorando este espacio, la recomendación es diseñar un piloto estrecho, seleccionar un flujo de trabajo con claridad visual, repetición frecuente y un puñado pequeño de herramientas, recolectar demostraciones en un robot y validar en otro, usar puntuaciones de progreso para identificar eslabones débiles y cerrar brechas con planes mejores y segmentos de movimiento más precisos.
Gemini Robotics 1.5 constituye un hito porque aborda dos bloqueadores simultáneamente: planificación frágil y habilidades robóticas fragmentadas. El razonamiento incorporado resuelve el primero, la transferencia de movimiento resuelve el segundo. Ninguna innovación individual habría sido suficiente; juntas reconfiguran el paisaje técnico de la robótica de propósito general, transformando la promesa teórica de agentes físicos inteligentes en capacidades operativas demostrables que pueden medirse, compararse y, eventualmente, desplegarse donde creen valor económico real.
Referencia:
- Informe técnico oficial: https://storage.googleapis.com/deepmind-media/gemini-robotics/Gemini-Robotics-1-5-Tech-Report.pdf
- Blog técnico DeepMind: https://deepmind.google/discover/blog/gemini-robotics-15-brings-ai-agents-into-the-physical-world/
- Página del modelo Gemini Robotics-ER: https://deepmind.google/models/gemini-robotics/gemini-robotics-er/
- ArXiv (paper académico): arxiv.org/abs/2510.03342