DeepEyes V2: cuando la IA aprende a usar el mundo

En el torbellino de la innovación tecnológica, donde cada día parece traer un nuevo hito, es fácil caer en la fatiga de la novedad. Sin embargo, de vez en cuando, surge un trabajo que no es simplemente un paso más, sino un cambio de paradigma, una redefinición de las reglas del juego. El reciente artículo de investigación "DeepEyes V2: Toward Agentic Multimodal Model", publicado por un equipo de Xiaohongshu Inc., es uno de esos momentos. Este documento no solo presenta un modelo de inteligencia artificial más potente; propone una nueva arquitectura para la cognición de las máquinas. Estamos presenciando la transición de la IA como un "oráculo" pasivo a la IA como un "agente" activo y con propósito.

Para el público no especializado, la inteligencia artificial a menudo se percibe como una especie de caja negra mágica. Hacemos una pregunta a un chatbot o subimos una foto, y esta nos devuelve una respuesta o una descripción. Este modelo, que ha dominado la última década, es fundamentalmente pasivo. Responde basándose en la inmensa cantidad de datos con los que fue entrenado. Pero, ¿qué sucede cuando la respuesta no está en sus datos de entrenamiento? ¿Qué pasa si la pregunta requiere buscar nueva información, consultar diferentes fuentes, analizar imágenes y texto conjuntamente, y luego realizar una acción en el mundo digital? Hasta ahora, la IA simplemente fallaba o, peor aún, "alucinaba", inventando una respuesta plausible pero incorrecta.

Aquí es donde DeepEyes V2 traza una línea en la arena. El concepto clave que introduce es el de "IA Agéntica". Un agente no es solo un receptor de información; es un actor. Un agente tiene la capacidad de tomar decisiones, de interactuar con su entorno y de utilizar herramientas para lograr un objetivo. El equipo de DeepEyes V2 ha construido un modelo que no se limita a "ver" una imagen y "leer" un texto (la parte "multimodal"); también sabe cuándo necesita ayuda. Sabe cómo formular una consulta en un motor de búsqueda, cómo interpretar los resultados, cómo buscar una imagen para obtener contexto visual, e incluso cómo ejecutar un fragmento de código para realizar un cálculo. En esencia, le han dado a la IA la capacidad de decir: "No sé la respuesta, pero sé cómo encontrarla".

Este salto conceptual se sustenta en tres pilares fundamentales que el artículo detalla. El primero es la construcción de un conjunto de datos de entrenamiento radicalmente diferente. En lugar de simplemente alimentar al modelo con miles de millones de pares de imagen-texto, el equipo ha curado meticulosamente un conjunto de datos que incluye ejemplos de "uso de herramientas". La IA aprende no solo a identificar a una persona en una foto, sino a ver una foto de un personaje desconocido y aprender a usar una búsqueda web para descubrir quién es. El segundo pilar es un novedoso pipeline de entrenamiento en dos etapas. Descubrieron que simplemente tratar de enseñar a la IA a usar herramientas desde cero mediante el aprendizaje por refuerzo (un método de prueba y error con recompensas) no funcionaba. El modelo estaba perdido, como darle a un niño un martillo sin instrucciones. Por lo tanto, implementaron una etapa de "arranque en frío" (cold-start), donde la IA primero aprende a "imitar" cómo se usan las herramientas, para luego, en una segunda etapa, usar el aprendizaje por refuerzo para "refinar" cuándo y por qué usarlas.

Finalmente, el tercer pilar es la evaluación. ¿Cómo mides la eficacia de un agente que puede pensar y actuar en el mundo real? Los benchmarks existentes no eran suficientes. Por ello, el equipo introdujo RealX-Bench, un nuevo y completo banco de pruebas diseñado para evaluar el razonamiento multimodal en el mundo real. Este benchmark no pregunta cosas simples; plantea problemas complejos que requieren inherentemente la integración de la percepción (ver), la búsqueda (encontrar) y el razonamiento (concluir). Los resultados son notables: DeepEyes V2 supera con creces a los modelos existentes en tareas que exigen esta nueva capacidad agéntica. Este artículo no es solo una mejora técnica; es el borrador de un futuro en el que la IA dejará de ser una herramienta que usamos para convertirse en un colaborador que trabaja con nosotros.

El "agente" se despierta: más allá del oráculo pasivo

Durante años, hemos interactuado con la inteligencia artificial bajo un paradigma muy específico: el del oráculo. Desde los primeros motores de búsqueda hasta los sofisticados modelos de lenguaje grandes (LLMs) como GPT o Claude, nuestra relación con la máquina ha sido transaccional. Nosotros preguntamos, ella responde. Esta IA "pasiva" ha logrado proezas asombrosas, como redactar poesía, traducir idiomas en tiempo real o generar imágenes fotorrealistas a partir de texto. Sin embargo, todo su conocimiento se basa en un universo estático: los datos masivos con los que fue entrenada. Su conocimiento, por vasto que sea, tiene una fecha de caducidad. No puede reaccionar a eventos que ocurrieron después de su entrenamiento, no puede consultar una base de datos en vivo y no puede, por sí misma, verificar la veracidad de la información que genera.

Este modelo de "oráculo" es inherentemente limitado. Es como tener acceso a una biblioteca infinita pero sin bibliotecario; todos los libros están ahí, pero no hay nadie que pueda buscar un dato específico en un libro nuevo o que pueda cruzar referencias entre la sección de historia y la de ciencias para formular una nueva idea. Esta limitación es la causa raíz de uno de los problemas más notorios de la IA moderna: la "alucinación". Cuando un modelo pasivo se enfrenta a una pregunta para la cual no tiene una respuesta directa en sus datos, su algoritmo lo empuja a generar la secuencia de palabras más probable. Esto, a menudo, resulta en una respuesta que suena coherente y autoritativa, pero que es fácticamente incorrecta o completamente inventada. El oráculo prefiere mentir con elocuencia antes que admitir su ignorancia.

DeepEyes V2 se construye sobre la demolición de esta premisa. El equipo detrás del proyecto articula un cambio fundamental: de un "comprendedor" pasivo a un "agente" activo. Un agente, en este contexto, es un sistema que no solo procesa información, sino que también puede realizar acciones en un entorno para alcanzar un objetivo. El entorno, en este caso, es el vasto mundo digital. El "agente" de DeepEyes V2 puede, al igual que un humano, abrir una nueva pestaña en su "navegador" conceptual, escribir una consulta en un motor de búsqueda, analizar los resultados, y si esos resultados sugieren una nueva vía de investigación, puede iniciar una segunda búsqueda, quizás de imágenes, para complementar la primera.

La siguiente comparación visualiza esta diferencia fundamental de paradigma:

El "Oráculo" Pasivo

El modelo antiguo: atrapado por sus datos de entrenamiento.

Conocimiento Estático (obsoleto)
No puede usar herramientas externas
Propensas a "alucinaciones" (inventa)
Solo responde, no puede "averiguar"

El "Detective" Agéntico

El nuevo modelo: busca soluciones activamente.

Conocimiento Dinámico (acceso web)
Invoca herramientas (búsqueda, código)
Verifica información (basado en la realidad)
Razona y actúa (resuelve en multi-paso)

Esta capacidad de "agencia" transforma la naturaleza de la interacción. Cuando se le presenta una consulta compleja, el modelo ya no intenta resolverla de un solo golpe. En su lugar, la descompone. Su "cerebro" multimodal analiza la entrada (que puede ser una combinación de texto e imágenes) y su componente de razonamiento decide si la información que posee es suficiente. Si no lo es, activa su "brazo" ejecutor de herramientas. Este brazo puede invocar una API de búsqueda, un intérprete de código Python para matemáticas, o una búsqueda visual inversa. La información devuelta por la herramienta se reincorpora al modelo, que la "observa" y la utiliza para refinar su comprensión, decidiendo si necesita otra herramienta o si ya está listo para formular la respuesta final. Este despertar del agente es el primer paso hacia una IA que no solo conoce hechos, sino que comprende el proceso de descubrir la verdad.

El bucle de la acción: percibir, pensar, actuar

El corazón de la "agencia" en DeepEyes V2 reside en un concepto elegante y poderoso: el bucle de razonamiento. Los modelos tradicionales operan en una línea recta: reciben una entrada (input) y producen una salida (output). DeepEyes V2, en cambio, opera en un ciclo continuo que imita fundamentalmente el proceso cognitivo humano: Percepción, Pensamiento, Acción y Observación. Este bucle es lo que permite al modelo navegar por la ambigüedad, formular estrategias y corregir su propio rumbo.

El proceso comienza con la Percepción. El modelo recibe la consulta del usuario, que, gracias a su naturaleza multimodal, puede ser una imagen con una pregunta superpuesta, un texto que se refiere a un gráfico, o cualquier combinación de ambos. El modelo "ve" y "lee" simultáneamente, fusionando estas corrientes de datos en una comprensión inicial del problema.

Aquí es donde entra en juego la segunda etapa: el Pensamiento. En lugar de generar una respuesta de inmediato, el modelo genera un plan interno. Se pregunta a sí mismo: "¿Tengo suficiente información para responder a esto? La imagen es ambigua. El texto menciona un término que no reconozco. Mi plan es: primero, buscar este término en la web". Esta deliberación interna es crucial. El modelo articula una justificación para su próxima acción, decidiendo qué herramienta es la más adecuada para llenar el vacío de conocimiento que ha identificado.

La tercera etapa es la Acción. Basándose en el plan de la etapa de Pensamiento, el modelo invoca activamente una herramienta. No es una simulación; el modelo genera y ejecuta una llamada real a una API de búsqueda web o a un motor de búsqueda visual. El artículo lo describe como "invocar herramientas externas", lo que significa que el modelo trasciende su propio conjunto de datos de entrenamiento y sale al mundo digital vivo para recopilar nueva inteligencia. Por ejemplo, si el usuario muestra una foto de una carta de un juego de cartas coleccionables y pregunta "¿dónde está esta carta?", el modelo no se limita a describir la imagen. Actúa.

Esto nos lleva a la cuarta etapa: la Observación. La herramienta (por ejemplo, la búsqueda web) devuelve un resultado. Este resultado es la nueva información. El modelo "observa" este resultado, lo lee y lo integra en su contexto original. "Ah", piensa el modelo, "la búsqueda de texto para 'Estilo de Doble Filo' la vincula con el juego 'Fate/Grand Order'. Ahora entiendo el contexto". Pero esto puede no ser suficiente. El modelo vuelve a la etapa de Pensamiento. "Ahora sé el juego, pero no sé cómo se ve la carta para encontrarla en la imagen original. Mi nuevo plan es: realizar una búsqueda de imágenes de esa carta". El bucle se repite: Acción (búsqueda de imágenes), Observación (ver la apariencia de la carta), y un Pensamiento final ("Ahora tengo la referencia visual. Puedo compararla con la imagen original y encontrar la carta en la segunda fila inferior").

Este proceso iterativo, un bucle de retroalimentación constante de Percepción-Pensamiento-Acción-Observación, es la verdadera revolución agéntica. A continuación se visualiza este flujo de trabajo cíclico:

El Bucle Agéntico

En lugar de una única respuesta, DeepEyes V2 utiliza un bucle de "Percepción-Pensamiento-Acción-Observación" para descomponer, investigar y resolver problemas complejos paso a paso.

Percepción (Entrada/Pregunta)

Pensamiento (Formular Plan)

Acción (Invocar Herramienta)

Observación (Nuevos Datos)

...El bucle se repite hasta la solución...

Este no es solo un truco técnico; es un cambio fundamental en la arquitectura de la IA. Permite al modelo manejar la incertidumbre, verificar hechos y construir una cadena de razonamiento que es transparente y, a menudo, corregible. El modelo no solo da la respuesta correcta; nos muestra el "trabajo" que hizo para llegar a ella. Esta capacidad de descomponer un gran problema en pequeñas acciones manejables es la esencia de la inteligencia en el mundo real, y DeepEyes V2 la ha codificado con éxito.

Domesticar a la bestia: el doble filo del aprendizaje

Construir un "agente" es una tarea de una complejidad abrumadora. No basta con darle a un modelo de IA acceso a un motor de búsqueda y esperar que sepa qué hacer. El equipo de Xiaohongshu se encontró con este problema de frente: ¿cómo se enseña a una red neuronal, que es esencialmente un conjunto masivo de probabilidades estadísticas, a desarrollar "intención", a formular una "estrategia" y a manejar la "sintaxis" de una herramienta?

El artículo detalla un descubrimiento crucial: el aprendizaje por refuerzo (RL) directo, por sí solo, fracasa estrepitosamente. El RL es un método de entrenamiento en el que la IA aprende por prueba y error, recibiendo "recompensas" por acciones buenas y "penalizaciones" por las malas. Es la técnica utilizada para entrenar a la IA para que domine juegos como el ajedrez o Go. Sin embargo, en el mundo abierto del uso de herramientas, el espacio de "posibles acciones" es casi infinito. Una IA incipiente no sabe cómo formular una consulta de búsqueda coherente. Sus primeros intentos serían galimatías, no devolverían resultados útiles y, por lo tanto, no recibirían ninguna "recompensa". El modelo nunca llegaría a aprender, un problema conocido como "sparse reward" o recompensa escasa.

La solución que proponen es un elegante "pipeline de entrenamiento en dos etapas", una estrategia que equilibra la imitación con la autonomía. La primera etapa se denomina "Arranque en Frío" (Cold-Start Stage). En esta fase, el objetivo no es que la IA resuelva el problema, sino que aprenda la mecánica básica de *cómo* usar las herramientas. El modelo se entrena en un conjunto de datos curado donde se le "muestra" cómo un experto (probablemente humano o un modelo más avanzado) usaría las herramientas para resolver un problema. Es un aprendizaje por imitación. La IA aprende la sintaxis: "Para buscar en la web, debo formular una cadena de texto de esta manera", "Para buscar una imagen, debo usar este formato". Es el equivalente a enseñar a un aprendiz de carpintero cómo sostener el martillo y golpear el clavo, sin pedirle todavía que construya una casa. Domina los patrones básicos.

Solo después de que el modelo ha internalizado estos patrones básicos, comienza la segunda etapa: el "Refinamiento con Aprendizaje por Refuerzo". Ahora que la IA sabe *cómo* usar el martillo, se la puede entrenar para que sepa *cuándo* y *por qué* usarlo. En esta fase, al modelo se le da un problema y la libertad de usar las herramientas que aprendió en la etapa anterior. Es aquí donde el RL puede brillar. Cuando la IA usa una herramienta de manera efectiva (por ejemplo, una búsqueda web que proporciona la pieza de información que faltaba), recibe una recompensa. Cuando usa una herramienta innecesaria o formula una mala consulta, no avanza y es penalizada (o simplemente no recompensada). Este proceso refina su juicio estratégico. Aprende a distinguir entre una pregunta que puede responder por sí misma y una que requiere una investigación externa.

Este proceso de dos etapas se puede resumir de la siguiente manera:

El Pipeline de Entrenamiento Agéntico

Enseñar a una IA a usar herramientas es difícil. El RL directo fracasa. DeepEyes V2 usa un proceso de dos etapas para primero enseñar el "cómo" (imitación) y luego refinar el "cuándo" (juicio).

Etapa 1: Arranque en Frío (Imitación)

El modelo aprende *cómo* usar las herramientas imitando ejemplos. Domina los patrones básicos y la sintaxis.

Etapa 2: Refinamiento (RL)

Una vez que sabe el *cómo*, el RL refina *cuándo* y *por qué* usar una herramienta. Aprende estrategia y juicio a través de recompensas.

La eficacia de este método es uno de los resultados clave del artículo. El equipo demuestra que el "Arranque en Frío" por sí solo crea un agente competente pero frágil, uno que sigue patrones pero carece de flexibilidad. Por el contrario, el "Refinamiento con RL" por sí solo nunca despega. Es la sinergia de las dos etapas lo que crea un agente robusto y eficaz. Este enfoque de "domesticación" es una contribución metodológica tan importante como el propio modelo, ya que proporciona un plan viable para construir futuras generaciones de IAs agénticas que puedan aprender a manejar herramientas cada vez más complejas, desde una simple búsqueda web hasta el control de un brazo robótico o la gestión de un sistema de software complejo.

Este gráfico ilustra la diferencia de rendimiento. El "RL Directo" (barra roja) apenas supera el rendimiento base. En cambio, el "Pipeline en Dos Etapas" (barra azul) muestra una mejora espectacular en la capacidad de la IA para usar herramientas eficazmente, demostrando el éxito del nuevo método de entrenamiento.

La prueba del mundo real: midiendo lo que importa

Una vez construido el agente y perfeccionado su entrenamiento, surge la pregunta más importante: ¿realmente funciona? En el campo de la IA, la respuesta a esta pregunta se reduce a los "benchmarks" o bancos de pruebas. Un benchmark es un conjunto de problemas estandarizados diseñados para medir y comparar el rendimiento de diferentes modelos. Sin embargo, el equipo de DeepEyes V2 se encontró con que los benchmarks existentes eran inadecuados para medir las nuevas capacidades de su creación. Los benchmarks multimodales tradicionales se centraban en tareas pasivas, como responder preguntas sobre una imagen (VQA, o Visual Question Answering) o describir una escena. No medían la capacidad de un agente para actuar, buscar y razonar en un bucle.

Esta laguna los llevó a desarrollar su propia vara de medir: el RealX-Bench. Este no es solo un conjunto de datos más; es una suite integral de evaluación diseñada para simular los desafíos del mundo real. Los problemas en RealX-Bench son deliberadamente "moderadamente desafiantes" y, lo que es más importante, requieren la integración de múltiples capacidades para ser resueltos. No se puede "ver" la respuesta, ni se puede "buscar" la respuesta. Hay que ver, pensar, buscar, observar y razonar para llegar a la solución. El benchmark abarca tareas de comprensión del mundo real, razonamiento matemático que requiere extraer datos de imágenes, y tareas de búsqueda intensiva donde la respuesta está enterrada en la web.

Los resultados presentados en el artículo son contundentes. Cuando se evalúa en RealX-Bench, DeepEyes V2 supera significativamente a otros modelos multimodales de última generación. El siguiente gráfico de radar muestra una comparación conceptual de este rendimiento. Mientras que los modelos estándar (la línea roja) pueden ser fuertes en una o dos áreas, como la "Percepción Visual" pura, se desploman en cuanto la tarea requiere "Uso de Herramientas" o "Búsqueda Activa", dominios en los que ni siquiera fueron diseñados para competir. DeepEyes V2 (la línea azul) demuestra un rendimiento mucho más equilibrado y superior, sobresaliendo precisamente en esas áreas agénticas que definen la nueva frontera.

Visualización del rendimiento comparativo en el benchmark RealX-Bench. El "Modelo Pasivo Estándar" (rojo) es fuerte en percepción pero falla en tareas agénticas. "DeepEyes V2" (azul) muestra una competencia superior y equilibrada en todas las áreas, incluyendo percepción, razonamiento, búsqueda y uso de herramientas.

Pero más allá de las puntuaciones numéricas, el artículo ilustra este poder con un caso de estudio convincente, el de la carta "Estilo de Doble Filo" (Two-Sided Style). A la IA se le muestra una imagen que contiene una docena de cartas del juego de cartas "Fate/Grand Order" y se le hace una pregunta aparentemente simple: "¿Dónde está la carta 'Estilo de Doble Filo'?". Un modelo pasivo fracasaría de inmediato. No hay texto en la imagen que identifique las cartas. El modelo no tiene forma de saber qué carta es cuál. DeepEyes V2, sin embargo, pone en marcha su bucle agéntico.

A continuación se detalla el flujo de razonamiento paso a paso que sigue el modelo, un ejemplo perfecto de su capacidad de agencia:

Caso de Estudio: El Flujo Agéntico

Problema

Se le muestra a la IA una imagen de cartas de juego y se le pregunta: "¿Dónde está la carta 'Estilo de Doble Filo'?"

🧠 Pensamiento 1

"Veo las cartas, pero la imagen no tiene etiquetas de texto. No puedo resolverlo solo con percepción."

🛠️ Acción 1: Búsqueda de Texto

Invoca la búsqueda web: "carta Estilo de Doble Filo"

👀 Observación 1

"Los resultados vinculan 'Estilo de Doble Filo' con el juego 'Fate/Grand Order'."

🧠 Pensamiento 2

"Tengo el contexto, pero aún no sé *cómo se ve* la carta. Necesito datos visuales."

🛠️ Acción 2: Búsqueda de Imágenes

Invoca la búsqueda de imágenes: "Fate/Grand Order Estilo de Doble Filo"

👀 Observación 2

(La IA ahora tiene una referencia visual de la apariencia de la carta.)

✅ Solución

"Basándome en la referencia visual, la carta está en la segunda fila inferior."

Este ejemplo es una ilustración perfecta de la inteligencia agéntica. Ningún paso por sí solo es sobrenaturalmente inteligente, pero la capacidad de encadenar estos pasos de forma autónoma, utilizando herramientas del mundo real para resolver una tarea multimodal ambigua, es algo que estaba fuera del alcance de la IA hasta ahora. Esto demuestra que RealX-Bench no es solo un examen académico; es una verdadera prueba de la capacidad de un agente para "hacer el trabajo".

El horizonte visible: un futuro de agentes proactivos

El trabajo presentado en DeepEyes V2 no es un punto final, sino un punto de inflexión. El artículo concluye con una reflexión sobre las implicaciones y el camino a seguir, y es aquí donde podemos vislumbrar el verdadero alcance de esta transformación. Al dotar a la IA de agencia, de la capacidad de usar herramientas y de un bucle de razonamiento para guiarse, hemos abierto la puerta a una nueva generación de aplicaciones que eran impensables con los modelos pasivos.

Pensemos en el impacto en el corto plazo. Los asistentes digitales personales podrían evolucionar de ser simples respondedores de comandos ("¿Qué tiempo hace?") a ser verdaderos asistentes proactivos. Un agente multimodal podría "ver" una foto de un ingrediente en nuestra despensa, "buscar" recetas que lo utilicen, "verificar" en nuestra aplicación de calendario si tenemos tiempo para cocinar esta noche, y "actuar" añadiendo los ingredientes que faltan a nuestra lista de la compra. Todo ello a partir de una simple foto.

En el ámbito científico y de investigación, un agente de este tipo podría ser un colaborador inestimable. Un científico podría mostrarle un gráfico de un artículo de investigación y preguntarle: "¿Son estos resultados estadísticamente significativos y cómo se comparan con el trabajo más reciente en este campo?". El agente podría "leer" los datos del gráfico, "ejecutar código" para realizar un nuevo análisis estadístico, "buscar en la web" artículos de las últimas seis meses y, finalmente, "sintetizar" una respuesta completa que combine percepción, cálculo y conocimiento actualizado.

El impacto social y tecnológico es profundo. Estamos pasando de la "IA de la información", que nos da acceso a lo que ya se sabe, a la "IA de la acción", que puede ayudarnos a lograr objetivos. Esta transición, por supuesto, no está exenta de riesgos. Un agente que puede actuar en el mundo digital también puede cometer errores costosos o ser utilizado con fines maliciosos. El desarrollo de barandillas de seguridad, protocolos de alineación ética y mecanismos de supervisión robustos se vuelve más crucial que nunca. El propio equipo de DeepEyes V2 reconoce que su modelo es un primer paso y que la investigación sobre la seguridad y la fiabilidad de estos agentes es un campo prioritario.

Sin embargo, el hito está marcado. DeepEyes V2 ha demostrado de forma concluyente que el futuro de la inteligencia artificial no reside en construir oráculos más grandes, sino en diseñar agentes más inteligentes. El objetivo ya no es crear una máquina que lo "sepa" todo, sino una que sepa "aprender" y "actuar" en un mundo dinámico y en constante cambio. Este artículo no es solo una contribución académica; es el anuncio de que la IA ha salido de su biblioteca y ha comenzado a caminar por el mundo.

Demostración Práctica: Generador de Imágenes

Como ejemplo de una IA que combina comprensión de texto con una "acción" (en este caso, la generación de una imagen), puedes usar este generador. Utiliza el modelo Imagen 3 de Google para crear imágenes fotorrealistas de alta calidad (1024x1024) a partir de simples indicaciones de texto.

Generando tu imagen, por favor espera...

Error:

Tu Imagen Generada:

Referencias

Jack Hong, Chenxiao Zhao, ChengLIn Zhu, Weiheng Lu, Guohai Xu, Xing Yu. (2025). DeepEyes V2: Toward Agentic Multimodal Model. arXiv:2511.05271v2 [cs.CV]. Disponible en: https://arxiv.org/pdf/2511.05271

DeepEyes V2: cuando la IA aprende a usar el mundo