Perplexity ha lanzado la versión Advanced de su herramienta Deep Research junto con DRACO, el primer benchmark de código abierto diseñado explícitamente para evaluar los sistemas de investigación profunda en condiciones que reflejan el uso real. A diferencia de las evaluaciones académicas que miden tareas sintéticas o simplificadas, este instrumento deriva sus cien problemas de los patrones de uso anonimizados observados en millones de consultas productivas, capturando así la complejidad, la ambigüedad y las expectativas de los usuarios que confían en estos sistemas para decisiones profesionales de alto impacto. El lanzamiento dual, herramienta mejorada más instrumento de evaluación transparente, marca una estrategia poco común en la industria donde los proveedores típicamente publican resultados sin liberar la metodología completa.
🚀 Características de Advanced Deep Research
Modelo subyacente: Claude Opus 4.5 de Anthropic para todas las consultas, garantizando consistencia y aprovechando las capacidades de razonamiento extendido
Disponibilidad: Lanzado inmediatamente para los usuarios del plan Max con límites de uso elevados, despliegue gradual a los usuarios Pro durante febrero de 2026
Arquitectura: Pipeline multi etapa que descompone las consultas complejas, ejecuta búsquedas especializadas, sintetiza información de fuentes diversas, y produce informes estructurados con verificación de hechos incorporada
Diferenciador clave: Integración nativa con el índice web de Perplexity combinado con las capacidades de razonamiento profundo de Opus 4.5, optimizando tanto la recuperación como la síntesis
Las evaluaciones comparativas posicionan a Advanced Deep Research como el sistema líder en las dimensiones que importan para la confiabilidad profesional: precisión factual, profundidad analítica y atribución correcta de fuentes. En precisión factual, la categoría que representa aproximadamente la mitad de todos los criterios de evaluación, Perplexity alcanza el 60.1% de tasa de aprobación, superando a las alternativas por márgenes que oscilan entre cinco y quince puntos porcentuales dependiendo del competidor específico. Esta ventaja resulta crítica en los contextos donde un error fáctico puede tener consecuencias legales, financieras o reputacionales directas, como el due diligence en adquisiciones corporativas, el análisis regulatorio en medicina, o la preparación de documentos legales.
Anatomía del benchmark DRACO
La evaluación se estructura alrededor de cuatro dimensiones ortogonales: precisión factual, amplitud y profundidad del análisis, calidad de presentación, y calidad de citación. Cada una de las cien tareas incluye una rúbrica personalizada diseñada por expertos en el dominio correspondiente, con criterios específicos que reflejan los estándares profesionales reales. Las rúbricas no son genéricas ni reutilizadas mecánicamente entre tareas, sino construidas individualmente para capturar los matices del problema específico. Aproximadamente el 45% de las versiones iniciales fueron rechazadas y refinadas iterativamente cuando los evaluadores detectaron especificaciones excesivamente vagas o criterios que no distinguían genuinamente las capacidades entre sistemas.
Las tareas abarcan diez dominios profesionales: académico, finanzas, derecho, medicina, tecnología, ciencia, negocios, política pública, educación y cultura. Cada dominio contribuye diez problemas calibrados para una dificultad comparable mediante un proceso de validación piloto con usuarios expertos. Las fuentes de información necesarias para resolver las tareas provienen de 40 países, asegurando que los sistemas no puedan depender exclusivamente del corpus anglófono o de sesgos geográficos específicos. Esta distribución geográfica refleja deliberadamente la diversidad del uso real: las empresas multinacionales requieren inteligencia sobre mercados emergentes, los investigadores académicos consultan literatura en múltiples idiomas, los profesionales legales navegan los marcos regulatorios de jurisdicciones extranjeras.
El protocolo de evaluación emplea un LLM como juez, enfoque validado cuando el juez tiene acceso a datos verificables externos que fundamentan los veredictos. Cada criterio recibe una puntuación binaria: aprobado o fallado, sin gradaciones intermedias que introducirían subjetividad. La rúbrica transforma la evaluación en una tarea de verificación de hechos al anclar al juez en los resultados de búsqueda reales y la documentación de referencia provista por expertos humanos durante la construcción del sistema. Este diseño mitiga la limitación común de las evaluaciones basadas en modelos lingüísticos, donde el juez puede reproducir los sesgos o alucinaciones del sistema evaluado. Al forzar la confrontación con evidencia externa concreta, el veredicto se vuelve auditable y reproducible.
Liderazgo en dimensiones críticas
En amplitud y profundidad del análisis, Perplexity alcanza el 77.2% de tasa de aprobación, la más alta entre los competidores. Esta dimensión mide si la respuesta cubre los aspectos relevantes del problema de forma exhaustiva, explora las implicaciones secundarias, considera perspectivas alternativas, y proporciona el contexto suficiente para una interpretación informada. Un análisis superficial puede mencionar hechos correctos pero fallar en conectarlos coherentemente o explicar su relevancia para la pregunta original. Un análisis profundo no solo responde qué, sino también por qué, cómo, y qué sigue, anticipando las preguntas de seguimiento naturales que un lector informado formularía.
La calidad de citación, con el 76% de aprobación para Perplexity, evalúa si el sistema atribuye la información correctamente a las fuentes apropiadas, prioriza las fuentes primarias sobre las secundarias cuando están disponibles, y proporciona el detalle suficiente para que el lector pueda verificar independientemente las afirmaciones críticas. En contextos profesionales, la citación deficiente no es meramente un inconveniente estético sino un fallo fundamental que socava la confiabilidad. Un abogado preparando un alegato no puede usar un documento que cite jurisprudencia sin referencia verificable. Un analista financiero presentando una recomendación de inversión debe poder rastrear cada métrica a un filing oficial o comunicado auditado. Perplexity supera a los rivales en esta dimensión al integrar nativamente los metadatos de fuentes durante la recuperación y mantener el seguimiento explícito de la procedencia de la información a través del pipeline de síntesis.
🔍 Área donde un competidor lidera
Gemini Deep Research exhibe el mejor desempeño en calidad de presentación con 92.1% versus 91.4% de Perplexity, una diferencia marginal pero consistente. Esta dimensión evalúa la estructura organizacional del reporte, la claridad de redacción, el uso apropiado de formateo visual como listas o tablas, y la adaptación del estilo al contexto de la pregunta. La paridad virtual sugiere que los sistemas actuales han resuelto básicamente el desafío de producir outputs legibles y bien estructurados, desplazando la diferenciación hacia dimensiones más sustantivas como la corrección factual y la profundidad analítica.
La brecha de desempeño se amplifica dramáticamente en los escenarios de máxima complejidad. Las tareas clasificadas como "Asistente Personalizado", que requieren sintetizar las preferencias implícitas del usuario con información externa para producir recomendaciones contextualizadas, y las tareas tipo "Aguja en el Pajar", donde los hechos críticos están enterrados en documentación voluminosa, muestran diferencias superiores a 20 puntos porcentuales entre el líder y el rezagado. Estas categorías reflejan casos de uso comunes pero demandantes: encontrar una cláusula específica en un contrato de cientos de páginas, identificar un paper académico relevante entre miles de resultados, recomendar una estrategia de inversión alineada con un perfil de riesgo particular.
Metodología de construcción de rúbricas
El proceso de desarrollo involucró una colaboración iterativa entre los investigadores de Perplexity y expertos externos en cada dominio evaluado. Para cada tarea, un especialista con credenciales profesionales relevantes, abogado practicante para tareas legales, médico certificado para tareas clínicas, analista financiero con licencias CFA para tareas de inversión, redactó los criterios específicos que aplicaría al evaluar el trabajo de un colega junior. Los criterios iniciales fueron sometidos a la revisión por un segundo experto independiente, quien verificó que fueran verificables objetivamente, relevantes para la utilidad práctica de la respuesta, y suficientemente discriminativos para distinguir la calidad entre plataformas competentes.
Los pesos asignados a los criterios reflejan la importancia relativa en el contexto de la tarea específica. Un error factual menor en la fecha exacta de un evento histórico puede recibir un peso bajo si no afecta la conclusión principal del análisis, mientras que un error en una cifra financiera clave o una contraindicación médica recibe el peso máximo porque compromete la utilidad completa de la respuesta. Esta ponderación diferencial captura la realidad del juicio profesional humano: no todos los errores son igualmente graves, y una plataforma robusta debe priorizar la corrección en las dimensiones de mayor impacto. La puntuación final de cada tarea agrega los veredictos binarios ponderados, produciendo una métrica continua entre cero y cien que permite el ordenamiento preciso.
El protocolo especifica que el juez LLM recibe: el texto completo de la consulta original, la respuesta generada por el sistema evaluado, el conjunto de resultados de búsqueda obtenidos durante la investigación por evaluadores humanos que sirven como referencia de verdad disponible, y la rúbrica completa con definiciones operativas de cada criterio. El juez procesa cada criterio secuencialmente, emitiendo un veredicto justificado que cita evidencia específica de los resultados de búsqueda o la respuesta evaluada. Este output estructurado permite la auditoría manual de los casos donde el veredicto parece cuestionable, y el análisis agregado de los patrones de fallo comunes.
Implicaciones estratégicas del benchmark abierto
La decisión de Perplexity de publicar DRACO como un recurso abierto, incluyendo las tareas completas, las rúbricas detalladas, y el código de evaluación, contrasta con la práctica industrial dominante de retener instrumentos propietarios para preservar la ventaja competitiva. La apertura genera múltiples beneficios estratégicos: establece un estándar compartido que canaliza los esfuerzos de toda la industria hacia métricas alineadas con el valor real para los usuarios, dificulta el gaming mediante optimización superficial porque los rivales pueden inspeccionar los criterios y diseñar mejoras genuinas, y construye credibilidad al permitir la verificación independiente de las afirmaciones de desempeño. El riesgo, que los competidores estudien los casos de fallo específicos y desarrollen parches dirigidos, se mitiga parcialmente porque el instrumento captura solo una muestra del espacio vastamente mayor de problemas reales.
📋 Disponibilidad y acceso
Advanced Deep Research: Disponible inmediatamente para los suscriptores de Perplexity Max, con límites de uso sustancialmente más altos que el nivel Pro. El despliegue a los usuarios Pro está programado gradualmente durante febrero y marzo de 2026, sujeto a la capacidad de infraestructura.
DRACO Benchmark: Publicado bajo licencia abierta en el repositorio GitHub de Perplexity Research, incluyendo las definiciones completas de las tareas, las rúbricas con criterios y pesos, los scripts de evaluación automatizada, y los resultados baseline inicialmente calculados.
Código de evaluación: Implementación de referencia en Python que utiliza las APIs de modelos lingüísticos como jueces, con configuración parametrizable para experimentar con diferentes jueces o protocolos de puntuación.
Para los desarrolladores de plataformas de investigación competidoras, DRACO ofrece un objetivo de optimización claro y métricas interpretables que comunican el progreso a los stakeholders no técnicos. En lugar de reportar una ganancia de dos puntos en un instrumento oscuro cuya relevancia práctica es opaca, el equipo puede demostrar una mejora de cinco puntos en precisión factual en tareas médicas, una afirmación que resonará inmediatamente con los usuarios potenciales en el sector salud. La granularidad del instrumento, con veredictos binarios por criterio individual, facilita el análisis de los modos de fallo específicos: una plataforma puede descubrir que falla sistemáticamente en tareas que requieren razonamiento temporal complejo pero excede en tareas de síntesis multi documento, un insight que guía la priorización de las mejoras arquitectónicas.
La publicación simultánea de la herramienta mejorada y el instrumento que demuestra su superioridad constituye una maniobra de marketing técnico efectiva: Perplexity no solo afirma el liderazgo sino que proporciona el medio para que terceros lo verifiquen independientemente. Si un rival discrepa con los resultados, puede ejecutar evaluaciones propias usando el mismo código y las mismas rúbricas, elevando el debate de afirmaciones anecdóticas a evidencia reproducible. Esta transparencia fuerza disciplina sobre el desarrollo interno: el equipo de Perplexity sabe que cualquier regresión será detectable públicamente, incentivando la inversión sostenida en las capacidades medidas en lugar de la optimización miope de demos impresionantes pero frágiles.
Casos de uso desbloqueados por precisión superior
Una plataforma de investigación con el 60% de precisión factual versus el 45% de una alternativa puede parecer una diferencia modesta, pero se traduce en una tasa de error reducida del 55% al 40%, una mejora relativa del 27%. En aplicaciones donde el costo de verificación manual es alto o las consecuencias de un error son graves, esta reducción justifica el cambio de proveedor. Una firma de abogados preparando un alegato complejo puede usar Deep Research para identificar los precedentes relevantes y extraer los holdings clave, confiando que tres de cada cinco afirmaciones serán precisas versus menos de la mitad con una alternativa inferior. El abogado aún debe verificar los puntos críticos, pero la tasa de precisión superior reduce las horas de fact checking de diez a siete, acumulando un ahorro significativo en proyectos recurrentes.
En el análisis financiero, donde las decisiones de inversión pueden involucrar millones o miles de millones de dólares, incluso pequeñas mejoras en la confiabilidad de la investigación preliminar tienen un valor económico masivo. Un analista evaluando una adquisición potencial puede usar la herramienta para sintetizar años de reportes financieros, transcripciones de llamadas con inversionistas, filings regulatorios, y cobertura de prensa. Si la plataforma identifica correctamente el 75% de los riesgos materiales versus el 60% de una alternativa, la diferencia puede manifestarse como una red flag crítica detectada tempranamente que previene una adquisición desastrosa o permite la negociación de una valuación más favorable. El retorno de esa única detección correcta fácilmente excede el costo de suscripción anual a una herramienta premium.
En la investigación académica y científica, la calidad de citación cobra una importancia especial. Un paper que referencia la literatura relevante apropiadamente permite a los lectores profundizar en los fundamentos, evaluar la validez de las afirmaciones, y construir sobre el trabajo previo. Una plataforma que rutinariamente proporciona las citaciones correctas a las fuentes primarias acelera la revisión bibliográfica, tarea que consume semanas de los estudiantes de doctorado al inicio de los proyectos. Reducir ese tiempo de cuatro semanas a dos mediante una herramienta confiable permite a los investigadores dedicar el esfuerzo adicional a la experimentación y el análisis original, multiplicando la productividad científica. La ventaja de Perplexity en esta dimensión posiciona el producto como la opción preferente para la academia, un mercado que valora el rigor sobre la velocidad pura.
Referencias
Perplexity AI. (2026). Evaluating Deep Research Performance in the Wild with the DRACO Benchmark. https://research.perplexity.ai/articles/evaluating-deep-research-performance-in-the-wild-with-the-draco-benchmark
Perplexity AI. (2026). DRACO: A Cross-Domain Benchmark for Deep Research Accuracy, Completeness, and Objectivity. PDF Technical Report. https://r2cdn.perplexity.ai/pplx-draco.pdf
Perplexity AI. (2025). Introducing Perplexity Deep Research. https://www.perplexity.ai/hub/blog/introducing-perplexity-deep-research
Reddit r/perplexity_ai. (2026). We've upgraded Deep Research in Perplexity. https://www.reddit.com/r/perplexity_ai/comments/1qvxx6s/weve_upgraded_deep_research_in_perplexity/
OpenTools. (2026). Perplexity Deep Research Advanced: A Game-Changer in AI Research Tools for 2026. https://opentools.ai/news/perplexity-deep-research-advanced-a-game-changer-in-ai-research-tools-for-2026
StartupHub.ai. (2026). DRACO benchmark tests real AI research. https://www.startuphub.ai/ai-news/artificial-intelligence/2026/draco-benchmark-tests-real-ai-research
ToolsCompare.ai. (2025). Claude Opus 4.5 vs Perplexity AI: The Complete Comparison. https://toolscompare.ai/compare/claude-opus-4-5-vs-perplexity/



