Cómo un segundo vistazo digital multiplica la precisión sin entrenar de nuevo

Cuando verificar es más fácil que crear: el sistema que enseña a los agentes digitales a corregirse solos

Los investigadores de Tencent y la Universidad China de Hong Kong desarrollan DeepVerifier, un marco que explota una asimetría fundamental: comprobar si una respuesta es correcta resulta menos complejo que generarla desde cero. El método logra mejoras del 8 al 11% en precisión mediante los ciclos de retroalimentación estructurada, sin requerir el reentrenamiento adicional del modelo

Por el equipo editorial | 6 de febrero, 2026

Un agente digital recibe la tarea de identificar la primera publicación académica de un investigador específico. Navega por las bases de datos, cruza las referencias, extrae la información de múltiples fuentes secundarias y entrega una respuesta. El problema: esa respuesta es incorrecta. Un solo error al inicio, una fuente mal consultada o una inferencia apresurada, se propaga como una fisura invisible a través de docenas de pasos subsiguientes. El resultado final parece plausible, está bien documentado, pero falla en lo esencial. Esta fragilidad constituye el talón de Aquiles de los sistemas autónomos de investigación profunda, aquellos programas capaces de orquestar las búsquedas complejas, sintetizar la evidencia dispersa y producir los informes exhaustivos en minutos.

El fenómeno no es marginal. Cuando los sistemas despliegan las trayectorias que involucran centenares de acciones sucesivas, la supervisión humana en tiempo real se vuelve impracticable. Las arquitecturas sofisticadas amplifican la vulnerabilidad: cada componente adicional, la memoria, la planificación, la reflexión, abre nuevos vectores de fallo. La pregunta que emerge no es si los errores ocurrirán, sino cómo detectarlos y corregirlos de forma escalable y automatizada. La respuesta, según los investigadores de la Universidad China de Hong Kong y Tencent AI Lab, podría residir en explotar una asimetría cognitiva fundamental: verificar la corrección de una respuesta suele ser considerablemente más simple que producirla desde cero.

Esta intuición, cristalizada en el concepto de "asimetría de verificación", sostiene que ciertas tareas presentan un desequilibrio marcado entre la dificultad de generación y la facilidad de comprobación. Resolver un sudoku puede consumir minutos de razonamiento intenso, pero validar una solución propuesta requiere apenas segundos de inspección metódica. Escribir un código funcional exige creatividad y experiencia, sin embargo ejecutar las pruebas exhaustivas sobre ese código automatiza la detección de defectos. En el dominio de los agentes de investigación, esta disparidad se manifiesta con especial claridad: aunque rastrear la información precisa a través de docenas de sitios web demanda una exploración prolongada, verificar si una afirmación específica aparece en una fuente concreta resulta mucho más directo.

Taxonomía de errores y rúbricas estructuradas

DeepVerifier, el sistema desarrollado por este equipo de investigación, transforma la asimetría de verificación en un mecanismo práctico de auto mejora. El marco opera integrándose como un módulo enchufable durante la inferencia, sin alterar los parámetros del modelo subyacente. Su arquitectura consta de tres componentes interconectados: un agente de descomposición, un agente de verificación y un agente juez. El flujo comienza cuando el sistema principal genera una respuesta provisional acompañada de su trayectoria completa de razonamiento. Esta trayectoria, que puede alcanzar millones de tokens, se resume de forma compacta, extrayendo las fuentes consultadas y la información clave obtenida en cada paso.

El fundamento metodológico reposa sobre una taxonomía exhaustiva de fallos, construida mediante el análisis iterativo de 555 puntos de error identificados en 90 tareas distintas. Dos anotadores expertos inspeccionaron las trayectorias erróneas contrastándolas con las soluciones de referencia humanas, registrando las desviaciones específicas como la evidencia crítica omitida, el uso de fuentes inválidas o las interpretaciones defectuosas. El proceso de etiquetado iterativo converge en una clasificación jerárquica: cinco categorías principales y trece subclases. La categoría dominante, "búsqueda de fuentes", abarca los errores como consultar la evidencia equivocada o depender de las búsquedas genéricas en lugar de acceder a las fuentes primarias. Le siguen los fallos de razonamiento, las conclusiones prematuras, las malinterpretaciones y las alucinaciones confiadas.

Esta taxonomía no es un mero ejercicio académico. Se traduce en las rúbricas operativas que guían la identificación de los comportamientos sospechosos en cada trayectoria. El agente de descomposición escanea el resumen confrontándolo con la lista de los modos de fallo conocidos, generando los pares estructurados de la forma: "comportamiento observado" asociado a "error potencial según la taxonomía". Cada par incluye una justificación concisa. A partir de estos hallazgos, el sistema formula las preguntas de seguimiento focalizadas, típicamente entre una y tres, diseñadas para ser respondidas mediante la evidencia externa y dirigidas a confirmar o refutar las afirmaciones riesgosas. Las preguntas adoptan el formato de sí o no, ancladas en las fuentes específicas: "¿La fuente X afirma el dato Y?", "¿El informe más reciente X contiene la cifra exacta Y?".

        Principio de descomposición: En lugar de pedir al verificador que resuelva nuevamente la tarea completa, lo cual reproduciría las tasas de error similares a la ejecución original, DeepVerifier fragmenta el problema de verificación en las subtareas específicas y verificables. Esta estrategia aprovecha la asimetría: responder las preguntas puntuales sobre la existencia de información en las fuentes concretas resulta más confiable que sintetizar el conocimiento disperso.
    

El módulo de verificación procesa estas preguntas de forma secuencial, desplegando un agente multimodal capaz de navegar la web, capturar las pantallas y ejecutar el código Python para las acciones específicas. Cada pregunta recibe una respuesta breve acompañada de una explicación mínima. Finalmente, el agente juez evalúa la respuesta original a la luz del resumen, los errores potenciales identificados y las respuestas obtenidas a las preguntas de seguimiento. Emite una explicación concisa seguida de una puntuación en la escala de cuatro niveles: completamente incorrecta, mayormente incorrecta, mayormente correcta, completamente correcta. Cuando la puntuación resulta insuficiente, el sistema genera la retroalimentación correctiva: una reflexión breve y hasta tres instrucciones precisas para el reintento, indicando las fuentes necesarias y las acciones para evitar repetir los errores.

Escalado en tiempo de prueba sin reentrenamiento

La capacidad distintiva de DeepVerifier radica en habilitar el escalado de rendimiento durante la inferencia, incrementando la precisión sin los ciclos adicionales de entrenamiento supervisado o el ajuste de parámetros. Integrado en un bucle de reflexión iterativa, el sistema ejecuta la tarea, verifica el resultado, recopila la retroalimentación estructurada y reintenta hasta alcanzar una respuesta satisfactoria o agotar el límite predefinido de iteraciones. Los experimentos conducidos sobre el benchmark GAIA demuestran la efectividad consistente. GAIA evalúa las capacidades fundamentales de los asistentes generales: el razonamiento, la multimodalidad, la navegación web y el uso de herramientas. En el subconjunto de las tareas web, el método eleva la precisión desde el 51.11% sin retroalimentación hasta los picos del 63.33% tras cuatro rondas, una ganancia absoluta de 12 puntos porcentuales.

El dataset completo de GAIA muestra una mejora más moderada pero robusta: del 52.22% inicial al 60.12% en el cuarto ciclo, equivalente a 7.9 puntos de ganancia. Las tareas intensivas en la recuperación web exhiben un mayor beneficio que aquellas centradas en el razonamiento lógico puro o la manipulación de archivos, sugiriendo que la descomposición en las sub preguntas verificables resulta especialmente potente cuando el cuello de botella reside en la adquisición de la información correcta. La evaluación se extiende a los benchmarks adicionales: XBench-DeepSearch, en idioma chino, registra un incremento del 41% al 47% en el mejor momento y estabiliza en el 44% tras diez iteraciones. BrowseComp, diseñado para evaluar la recuperación de información extremadamente difícil y enredada, duplica su tasa de éxito del 5% al 10%.

Las mejoras de precisión en diferentes subconjuntos de GAIA tras 10 rondas de verificación iterativa con DeepVerifier empleando Claude-3.7-Sonnet como modelo base

El patrón de escalado revela una dinámica sutil. El rendimiento típicamente alcanza el cenit en las rondas tempranas, alrededor del cuarto ciclo, para luego estabilizarse o decrecer marginalmente. Este comportamiento emerge del equilibrio entre dos transiciones: los casos incorrectos que se corrigen versus los casos correctos que se invalidan erróneamente. En la primera iteración, el 18.99% de las respuestas incorrectas migran a correctas, mientras apenas el 12.79% de las respuestas correctas se degradan. A medida que avanzan los ciclos, la tasa de corrección decae abruptamente, pues los errores restantes tienden a ser más sutiles o sistemáticos, mientras que la tasa de invalidación incorrecta persiste en los niveles bajos pero no nulos. La intersección de estas curvas determina el punto óptimo de iteración.

Para validar la generalización del enfoque, los investigadores replicaron los experimentos empleando GPT-4.1 como el modelo base alternativo. Los resultados confirman una efectividad comparable: desde el 29.51% sin retroalimentación hasta el 32.53% con tres rondas, una ganancia absoluta de 3 puntos. Aunque la magnitud difiere respecto a Claude-3.7-Sonnet, el patrón cualitativo se mantiene: la mejora temprana seguida de estabilización. La disparidad sugiere que los modelos más capaces capitalizan mejor la retroalimentación estructurada, probablemente porque poseen una mayor habilidad para interpretar las instrucciones correctivas y ajustar las estrategias de búsqueda en los reintentos subsiguientes.

Entrenando la reflexión en los modelos abiertos

Más allá de aplicar DeepVerifier a los sistemas de frontera cerrados, el equipo exploró si los modelos abiertos pueden adquirir las capacidades robustas de autoverificación mediante el ajuste fino supervisado. Partiendo de 400 trayectorias de agentes resolviendo las tareas del dataset WebAggregatorQA, ejecutaron DeepVerifier para generar las verificaciones exhaustivas. Filtraron las verificaciones de alta calidad, reteniendo exclusivamente los verdaderos positivos y los verdaderos negativos, aquellas que correctamente aceptan las respuestas válidas o correctamente rechazan las respuestas erróneas. Tras balancear las clases, convirtieron estas trayectorias en los pares pregunta-respuesta estructurados, produciendo DeepVerifier-4K: 4,646 ejemplos de entrenamiento enfocados en la reflexión y la autocrítica.

Usando esta colección, entrenaron DeepVerifier-8B sobre Qwen3-8B, mezclando DeepVerifier-4K con los datos de capacitación previa del agente CK-Pro para preservar las habilidades fundacionales mientras incorporan la competencia reflexiva. Evaluado en GAIA tras diez rondas de retroalimentación, DeepVerifier-8B alcanza el 32.21% de precisión, una mejora absoluta de 5.48 puntos respecto a su rendimiento sin reflexión. Comparativamente, CK-Pro-8B entrenado solo con los datos originales logra una ganancia menor de 2.6 puntos, y Qwen3-8B sin ajuste especializado exhibe un beneficio marginal. Este contraste evidencia que las habilidades de verificación efectivas no emergen espontáneamente, sino que requieren la exposición explícita a los ejemplos curados de razonamiento autocrítico.

La distribución de errores en la taxonomía arroja luz sobre las vulnerabilidades persistentes. La categoría dominante, la búsqueda de fuentes, concentra los flujos masivos hacia los errores como consultar la evidencia equivocada o confiar en las búsquedas genéricas, revelando que la adquisición de la información correcta constituye el eslabón más frágil. El razonamiento prematuro o malinterpretado ocupa el segundo lugar, indicando que aun cuando la información está presente, los agentes ejecutan los saltos inferenciales defectuosos. Los problemas de comprensión y descomposición de tareas aportan una contribución significativa, reflejando las debilidades en la fundamentación de objetivos. Los errores de acción, incluyendo los fallos de interfaz y el uso de la modalidad incorrecta, completan el espectro junto con las trayectorias que alcanzan el límite máximo de pasos sin converger.

Límites del paradigma

Pese a las ganancias documentadas, DeepVerifier enfrenta las restricciones intrínsecas. La precisión y el recall del verificador no son perfectos: captura los errores obvios pero ocasionalmente omite los defectos sutiles de razonamiento o los hechos alucinados respaldados por la confianza aparente. La descomposición en las preguntas de seguimiento presupone que los errores pueden localizarse y validarse externamente, un supuesto que no siempre se cumple en los dominios abstractos o las tareas que requieren la creatividad conceptual. Además, cada ciclo de verificación consume los recursos computacionales y el tiempo de latencia, limitando la aplicabilidad en los escenarios con las restricciones estrictas de respuesta inmediata.

El panorama competitivo de los agentes de investigación profunda en 2025 muestra un ecosistema maduro. Los sistemas propietarios como OpenAI Deep Research, Gemini Deep Research de Google DeepMind, Perplexity Deep Research y Kimi-Researcher de Moonshot AI alcanzan las puntuaciones en los benchmarks especializados que oscilan en la banda estrecha de cuatro puntos, formando una cohorte de primera línea. Gemini lidera DeepResearch Bench con 48.9 puntos, seguido de cerca por los competidores que exhiben las coberturas de recuperación, las densidades de citación y las latencias comparables. La diferenciación futura probablemente pivote sobre los detalles de despliegue empresarial: la residencia de datos, los conectores en tiempo real, la observabilidad. En este contexto, DeepVerifier aporta un mecanismo complementario aplicable tanto a los sistemas cerrados como abiertos, mejorando la confiabilidad mediante la retroalimentación estructurada sin depender de las arquitecturas propietarias.

La convergencia de múltiples líneas de investigación señala un cambio paradigmático. El escalado tradicional, agregar los parámetros o los datos de preentrenamiento, enfrenta los rendimientos decrecientes y los costos marginales crecientes. El escalado en el tiempo de prueba emerge como la frontera alternativa: invertir el cómputo durante la inferencia para explorar las trayectorias diversas, verificar los resultados intermedios, refinar las respuestas iterativamente. DeepVerifier ejemplifica esta estrategia al convertir los recursos de inferencia en los ciclos de autocorrección guiada por la taxonomía de fallos. La liberación de DeepVerifier-4K como el dataset público subraya el compromiso con el avance comunitario, permitiendo que los modelos abiertos adquieran las capacidades reflexivas sin acceso a las infraestructuras masivas.

Mirando hacia adelante, la asimetría de verificación podría rediseñar las arquitecturas completas de agentes. En lugar de los sistemas monolíticos que generan las respuestas de extremo a extremo, emergerían los pipelines modulares donde los módulos generadores producen los candidatos y los módulos verificadores los filtran, ordenan y refinan. Este desdoblamiento funcional alinearía mejor la inversión de cómputo con la naturaleza de cada subtarea, reservando los modelos costosos para la generación creativa y delegando la validación a los procesos más ligeros pero exhaustivos. La investigación también podría extenderse más allá de las tareas factuales hacia los dominios subjetivos, desarrollando las rúbricas adaptativas que evalúen la coherencia narrativa, la relevancia contextual o la calidad estilística, las dimensiones donde la verificación algorítmica enfrenta los desafíos conceptuales más profundos.

Referencias

Wan, Y., Fang, T., Li, Z., Huo, Y., Wang, W., Mi, H., Yu, D., & Lyu, M. R. (2026). Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification. arXiv:2601.15808. https://arxiv.org/abs/2601.15808

OpenAI. (2025). Introducing deep research. https://openai.com/index/introducing-deep-research

Wei, J. (2025). Asymmetry of verification and verifier's law. https://www.jasonwei.net/blog/asymmetry-of-verification-and-verifiers-law

Shinn, N., Cassano, F., Gopinath, A., Narasimhan, K., & Yao, S. (2023). Reflexion: Language agents with verbal reinforcement learning. Advances in Neural Information Processing Systems, 36, 8634-8652.

Zhu, K., Li, H., Wu, S., Xing, T., Ma, D., Tang, X., Liu, M., Yang, J., Liu, J., Jiang, Y. E., Zhang, C., Lin, C., Wang, J., Zhang, G., & Zhou, W. (2025). Scaling test-time compute for LLM agents. arXiv:2506.12928. https://arxiv.org/abs/2506.12928

Mialon, G., Fourrier, C., Swift, C., Wolf, T., LeCun, Y., & Scialom, T. (2023). GAIA: A benchmark for general AI assistants. arXiv:2311.12983. https://arxiv.org/abs/2311.12983

Fang, T., Zhang, Z., Wang, X., Wang, R., Qin, C., Wan, Y., Ma, J., Zhang, C., Chen, J., Li, X., Zhang, H., Mi, H., & Yu, D. (2025). Cognitive Kernel-Pro: A framework for deep research agents and agent foundation models training. arXiv:2508.00414. https://arxiv.org/abs/2508.00414

Chen, K., Ren, Y., Liu, Y., Hu, X., Tian, H., Xie, T., Liu, F., Zhang, H., Liu, H., Gong, Y., et al. (2025). XBench: Tracking agents productivity scaling with profession-aligned real-world evaluations. arXiv:2506.13651. https://arxiv.org/abs/2506.13651

Wei, J., Sun, Z., Papay, S., McKinney, S., Han, J., Fulford, I., Chung, H. W., Passos, A. T., Fedus, W., & Glaese, A. (2025). BrowseComp: A simple yet challenging benchmark for browsing agents. arXiv:2504.12516. https://arxiv.org/abs/2504.12516

Cómo un segundo vistazo digital multiplica la precisión sin entrenar de nuevo