Perplexity lanza Advanced Deep Research con 60.1% de precisión y supera a Gemini

Perplexity lanza herramienta de investigación profunda que supera a Gemini y OpenAI

Advanced Deep Research establece nuevos estándares en precisión factual con 60.1%, amplitud analítica con 77.2% y calidad de citación con 76%, superando a los competidores en tres de las cuatro dimensiones críticas. El sistema procesa todas las consultas con Claude Opus 4.5 y se evalúa mediante DRACO, el benchmark abierto de 100 tareas reales distribuidas en diez dominios profesionales desde finanzas hasta medicina

Por el equipo editorial | 6 de febrero, 2026

Perplexity ha lanzado la versión Advanced de su herramienta Deep Research junto con DRACO, el primer benchmark de código abierto diseñado explícitamente para evaluar los sistemas de investigación profunda en condiciones que reflejan el uso real. A diferencia de las evaluaciones académicas que miden tareas sintéticas o simplificadas, este instrumento deriva sus cien problemas de los patrones de uso anonimizados observados en millones de consultas productivas, capturando así la complejidad, la ambigüedad y las expectativas de los usuarios que confían en estos sistemas para decisiones profesionales de alto impacto. El lanzamiento dual, herramienta mejorada más instrumento de evaluación transparente, marca una estrategia poco común en la industria donde los proveedores típicamente publican resultados sin liberar la metodología completa.

🚀 Características de Advanced Deep Research

Modelo subyacente: Claude Opus 4.5 de Anthropic para todas las consultas, garantizando consistencia y aprovechando las capacidades de razonamiento extendido

Disponibilidad: Lanzado inmediatamente para los usuarios del plan Max con límites de uso elevados, despliegue gradual a los usuarios Pro durante febrero de 2026

Arquitectura: Pipeline multi etapa que descompone las consultas complejas, ejecuta búsquedas especializadas, sintetiza información de fuentes diversas, y produce informes estructurados con verificación de hechos incorporada

Diferenciador clave: Integración nativa con el índice web de Perplexity combinado con las capacidades de razonamiento profundo de Opus 4.5, optimizando tanto la recuperación como la síntesis

Las evaluaciones comparativas posicionan a Advanced Deep Research como el sistema líder en las dimensiones que importan para la confiabilidad profesional: precisión factual, profundidad analítica y atribución correcta de fuentes. En precisión factual, la categoría que representa aproximadamente la mitad de todos los criterios de evaluación, Perplexity alcanza el 60.1% de tasa de aprobación, superando a las alternativas por márgenes que oscilan entre cinco y quince puntos porcentuales dependiendo del competidor específico. Esta ventaja resulta crítica en los contextos donde un error fáctico puede tener consecuencias legales, financieras o reputacionales directas, como el due diligence en adquisiciones corporativas, el análisis regulatorio en medicina, o la preparación de documentos legales.

Anatomía del benchmark DRACO

La evaluación se estructura alrededor de cuatro dimensiones ortogonales: precisión factual, amplitud y profundidad del análisis, calidad de presentación, y calidad de citación. Cada una de las cien tareas incluye una rúbrica personalizada diseñada por expertos en el dominio correspondiente, con criterios específicos que reflejan los estándares profesionales reales. Las rúbricas no son genéricas ni reutilizadas mecánicamente entre tareas, sino construidas individualmente para capturar los matices del problema específico. Aproximadamente el 45% de las versiones iniciales fueron rechazadas y refinadas iterativamente cuando los evaluadores detectaron especificaciones excesivamente vagas o criterios que no distinguían genuinamente las capacidades entre sistemas.

Distribución de criterios por dimensión: La precisión factual promedia 10.3 criterios por tarea, reflejando la importancia crítica de la corrección. La amplitud y profundidad reciben 8.6 criterios evaluando la exhaustividad del análisis. La calidad de presentación involucra 5.6 criterios sobre estructura y legibilidad. La calidad de citación incluye 4.8 criterios verificando la atribución apropiada y el uso de fuentes primarias cuando existen. Algunos criterios son negativos, penalizando explícitamente errores como alucinaciones o afirmaciones no respaldadas.

Las tareas abarcan diez dominios profesionales: académico, finanzas, derecho, medicina, tecnología, ciencia, negocios, política pública, educación y cultura. Cada dominio contribuye diez problemas calibrados para una dificultad comparable mediante un proceso de validación piloto con usuarios expertos. Las fuentes de información necesarias para resolver las tareas provienen de 40 países, asegurando que los sistemas no puedan depender exclusivamente del corpus anglófono o de sesgos geográficos específicos. Esta distribución geográfica refleja deliberadamente la diversidad del uso real: las empresas multinacionales requieren inteligencia sobre mercados emergentes, los investigadores académicos consultan literatura en múltiples idiomas, los profesionales legales navegan los marcos regulatorios de jurisdicciones extranjeras.

Comparación de las tasas de aprobación entre los sistemas evaluados en las cuatro dimensiones del benchmark. Perplexity lidera en tres categorías críticas para la confiabilidad profesional

El protocolo de evaluación emplea un LLM como juez, enfoque validado cuando el juez tiene acceso a datos verificables externos que fundamentan los veredictos. Cada criterio recibe una puntuación binaria: aprobado o fallado, sin gradaciones intermedias que introducirían subjetividad. La rúbrica transforma la evaluación en una tarea de verificación de hechos al anclar al juez en los resultados de búsqueda reales y la documentación de referencia provista por expertos humanos durante la construcción del sistema. Este diseño mitiga la limitación común de las evaluaciones basadas en modelos lingüísticos, donde el juez puede reproducir los sesgos o alucinaciones del sistema evaluado. Al forzar la confrontación con evidencia externa concreta, el veredicto se vuelve auditable y reproducible.

Liderazgo en dimensiones críticas

En amplitud y profundidad del análisis, Perplexity alcanza el 77.2% de tasa de aprobación, la más alta entre los competidores. Esta dimensión mide si la respuesta cubre los aspectos relevantes del problema de forma exhaustiva, explora las implicaciones secundarias, considera perspectivas alternativas, y proporciona el contexto suficiente para una interpretación informada. Un análisis superficial puede mencionar hechos correctos pero fallar en conectarlos coherentemente o explicar su relevancia para la pregunta original. Un análisis profundo no solo responde qué, sino también por qué, cómo, y qué sigue, anticipando las preguntas de seguimiento naturales que un lector informado formularía.

Puntuación agregada ponderada considerando todas las dimensiones evaluadas, donde cada criterio contribuye según su importancia relativa asignada por los diseñadores del instrumento

La calidad de citación, con el 76% de aprobación para Perplexity, evalúa si el sistema atribuye la información correctamente a las fuentes apropiadas, prioriza las fuentes primarias sobre las secundarias cuando están disponibles, y proporciona el detalle suficiente para que el lector pueda verificar independientemente las afirmaciones críticas. En contextos profesionales, la citación deficiente no es meramente un inconveniente estético sino un fallo fundamental que socava la confiabilidad. Un abogado preparando un alegato no puede usar un documento que cite jurisprudencia sin referencia verificable. Un analista financiero presentando una recomendación de inversión debe poder rastrear cada métrica a un filing oficial o comunicado auditado. Perplexity supera a los rivales en esta dimensión al integrar nativamente los metadatos de fuentes durante la recuperación y mantener el seguimiento explícito de la procedencia de la información a través del pipeline de síntesis.

🔍 Área donde un competidor lidera

Gemini Deep Research exhibe el mejor desempeño en calidad de presentación con 92.1% versus 91.4% de Perplexity, una diferencia marginal pero consistente. Esta dimensión evalúa la estructura organizacional del reporte, la claridad de redacción, el uso apropiado de formateo visual como listas o tablas, y la adaptación del estilo al contexto de la pregunta. La paridad virtual sugiere que los sistemas actuales han resuelto básicamente el desafío de producir outputs legibles y bien estructurados, desplazando la diferenciación hacia dimensiones más sustantivas como la corrección factual y la profundidad analítica.

La brecha de desempeño se amplifica dramáticamente en los escenarios de máxima complejidad. Las tareas clasificadas como "Asistente Personalizado", que requieren sintetizar las preferencias implícitas del usuario con información externa para producir recomendaciones contextualizadas, y las tareas tipo "Aguja en el Pajar", donde los hechos críticos están enterrados en documentación voluminosa, muestran diferencias superiores a 20 puntos porcentuales entre el líder y el rezagado. Estas categorías reflejan casos de uso comunes pero demandantes: encontrar una cláusula específica en un contrato de cientos de páginas, identificar un paper académico relevante entre miles de resultados, recomendar una estrategia de inversión alineada con un perfil de riesgo particular.

Desempeño comparativo en los subconjuntos de tareas de alta complejidad donde las diferencias entre plataformas se magnifican, revelando robustez versus fragilidad arquitectónica

Metodología de construcción de rúbricas

El proceso de desarrollo involucró una colaboración iterativa entre los investigadores de Perplexity y expertos externos en cada dominio evaluado. Para cada tarea, un especialista con credenciales profesionales relevantes, abogado practicante para tareas legales, médico certificado para tareas clínicas, analista financiero con licencias CFA para tareas de inversión, redactó los criterios específicos que aplicaría al evaluar el trabajo de un colega junior. Los criterios iniciales fueron sometidos a la revisión por un segundo experto independiente, quien verificó que fueran verificables objetivamente, relevantes para la utilidad práctica de la respuesta, y suficientemente discriminativos para distinguir la calidad entre plataformas competentes.

Control de calidad riguroso: Las rúbricas que empleaban lenguaje vago, por ejemplo "la respuesta debe ser completa", sin definir operativamente qué constituye completitud, fueron rechazadas. Las rúbricas excesivamente lenientes que todo sistema razonable aprobaría trivialmente, o excesivamente estrictas que ninguna plataforma actual podría satisfacer, también se descartaron. El umbral de refinamiento iterativo, el 45% requiriendo al menos una revisión, indica el balance entre flexibilidad para capturar los matices del dominio y estandarización para la comparabilidad entre tareas.

Los pesos asignados a los criterios reflejan la importancia relativa en el contexto de la tarea específica. Un error factual menor en la fecha exacta de un evento histórico puede recibir un peso bajo si no afecta la conclusión principal del análisis, mientras que un error en una cifra financiera clave o una contraindicación médica recibe el peso máximo porque compromete la utilidad completa de la respuesta. Esta ponderación diferencial captura la realidad del juicio profesional humano: no todos los errores son igualmente graves, y una plataforma robusta debe priorizar la corrección en las dimensiones de mayor impacto. La puntuación final de cada tarea agrega los veredictos binarios ponderados, produciendo una métrica continua entre cero y cien que permite el ordenamiento preciso.

El protocolo especifica que el juez LLM recibe: el texto completo de la consulta original, la respuesta generada por el sistema evaluado, el conjunto de resultados de búsqueda obtenidos durante la investigación por evaluadores humanos que sirven como referencia de verdad disponible, y la rúbrica completa con definiciones operativas de cada criterio. El juez procesa cada criterio secuencialmente, emitiendo un veredicto justificado que cita evidencia específica de los resultados de búsqueda o la respuesta evaluada. Este output estructurado permite la auditoría manual de los casos donde el veredicto parece cuestionable, y el análisis agregado de los patrones de fallo comunes.

Implicaciones estratégicas del benchmark abierto

La decisión de Perplexity de publicar DRACO como un recurso abierto, incluyendo las tareas completas, las rúbricas detalladas, y el código de evaluación, contrasta con la práctica industrial dominante de retener instrumentos propietarios para preservar la ventaja competitiva. La apertura genera múltiples beneficios estratégicos: establece un estándar compartido que canaliza los esfuerzos de toda la industria hacia métricas alineadas con el valor real para los usuarios, dificulta el gaming mediante optimización superficial porque los rivales pueden inspeccionar los criterios y diseñar mejoras genuinas, y construye credibilidad al permitir la verificación independiente de las afirmaciones de desempeño. El riesgo, que los competidores estudien los casos de fallo específicos y desarrollen parches dirigidos, se mitiga parcialmente porque el instrumento captura solo una muestra del espacio vastamente mayor de problemas reales.

📋 Disponibilidad y acceso

Advanced Deep Research: Disponible inmediatamente para los suscriptores de Perplexity Max, con límites de uso sustancialmente más altos que el nivel Pro. El despliegue a los usuarios Pro está programado gradualmente durante febrero y marzo de 2026, sujeto a la capacidad de infraestructura.

DRACO Benchmark: Publicado bajo licencia abierta en el repositorio GitHub de Perplexity Research, incluyendo las definiciones completas de las tareas, las rúbricas con criterios y pesos, los scripts de evaluación automatizada, y los resultados baseline inicialmente calculados.

Código de evaluación: Implementación de referencia en Python que utiliza las APIs de modelos lingüísticos como jueces, con configuración parametrizable para experimentar con diferentes jueces o protocolos de puntuación.

Para los desarrolladores de plataformas de investigación competidoras, DRACO ofrece un objetivo de optimización claro y métricas interpretables que comunican el progreso a los stakeholders no técnicos. En lugar de reportar una ganancia de dos puntos en un instrumento oscuro cuya relevancia práctica es opaca, el equipo puede demostrar una mejora de cinco puntos en precisión factual en tareas médicas, una afirmación que resonará inmediatamente con los usuarios potenciales en el sector salud. La granularidad del instrumento, con veredictos binarios por criterio individual, facilita el análisis de los modos de fallo específicos: una plataforma puede descubrir que falla sistemáticamente en tareas que requieren razonamiento temporal complejo pero excede en tareas de síntesis multi documento, un insight que guía la priorización de las mejoras arquitectónicas.

La publicación simultánea de la herramienta mejorada y el instrumento que demuestra su superioridad constituye una maniobra de marketing técnico efectiva: Perplexity no solo afirma el liderazgo sino que proporciona el medio para que terceros lo verifiquen independientemente. Si un rival discrepa con los resultados, puede ejecutar evaluaciones propias usando el mismo código y las mismas rúbricas, elevando el debate de afirmaciones anecdóticas a evidencia reproducible. Esta transparencia fuerza disciplina sobre el desarrollo interno: el equipo de Perplexity sabe que cualquier regresión será detectable públicamente, incentivando la inversión sostenida en las capacidades medidas en lugar de la optimización miope de demos impresionantes pero frágiles.

Casos de uso desbloqueados por precisión superior

Una plataforma de investigación con el 60% de precisión factual versus el 45% de una alternativa puede parecer una diferencia modesta, pero se traduce en una tasa de error reducida del 55% al 40%, una mejora relativa del 27%. En aplicaciones donde el costo de verificación manual es alto o las consecuencias de un error son graves, esta reducción justifica el cambio de proveedor. Una firma de abogados preparando un alegato complejo puede usar Deep Research para identificar los precedentes relevantes y extraer los holdings clave, confiando que tres de cada cinco afirmaciones serán precisas versus menos de la mitad con una alternativa inferior. El abogado aún debe verificar los puntos críticos, pero la tasa de precisión superior reduce las horas de fact checking de diez a siete, acumulando un ahorro significativo en proyectos recurrentes.

En el análisis financiero, donde las decisiones de inversión pueden involucrar millones o miles de millones de dólares, incluso pequeñas mejoras en la confiabilidad de la investigación preliminar tienen un valor económico masivo. Un analista evaluando una adquisición potencial puede usar la herramienta para sintetizar años de reportes financieros, transcripciones de llamadas con inversionistas, filings regulatorios, y cobertura de prensa. Si la plataforma identifica correctamente el 75% de los riesgos materiales versus el 60% de una alternativa, la diferencia puede manifestarse como una red flag crítica detectada tempranamente que previene una adquisición desastrosa o permite la negociación de una valuación más favorable. El retorno de esa única detección correcta fácilmente excede el costo de suscripción anual a una herramienta premium.

En la investigación académica y científica, la calidad de citación cobra una importancia especial. Un paper que referencia la literatura relevante apropiadamente permite a los lectores profundizar en los fundamentos, evaluar la validez de las afirmaciones, y construir sobre el trabajo previo. Una plataforma que rutinariamente proporciona las citaciones correctas a las fuentes primarias acelera la revisión bibliográfica, tarea que consume semanas de los estudiantes de doctorado al inicio de los proyectos. Reducir ese tiempo de cuatro semanas a dos mediante una herramienta confiable permite a los investigadores dedicar el esfuerzo adicional a la experimentación y el análisis original, multiplicando la productividad científica. La ventaja de Perplexity en esta dimensión posiciona el producto como la opción preferente para la academia, un mercado que valora el rigor sobre la velocidad pura.

Referencias

Perplexity AI. (2026). Evaluating Deep Research Performance in the Wild with the DRACO Benchmark. https://research.perplexity.ai/articles/evaluating-deep-research-performance-in-the-wild-with-the-draco-benchmark

Perplexity AI. (2026). DRACO: A Cross-Domain Benchmark for Deep Research Accuracy, Completeness, and Objectivity. PDF Technical Report. https://r2cdn.perplexity.ai/pplx-draco.pdf

Perplexity AI. (2025). Introducing Perplexity Deep Research. https://www.perplexity.ai/hub/blog/introducing-perplexity-deep-research

Reddit r/perplexity_ai. (2026). We've upgraded Deep Research in Perplexity. https://www.reddit.com/r/perplexity_ai/comments/1qvxx6s/weve_upgraded_deep_research_in_perplexity/

OpenTools. (2026). Perplexity Deep Research Advanced: A Game-Changer in AI Research Tools for 2026. https://opentools.ai/news/perplexity-deep-research-advanced-a-game-changer-in-ai-research-tools-for-2026

StartupHub.ai. (2026). DRACO benchmark tests real AI research. https://www.startuphub.ai/ai-news/artificial-intelligence/2026/draco-benchmark-tests-real-ai-research

ToolsCompare.ai. (2025). Claude Opus 4.5 vs Perplexity AI: The Complete Comparison. https://toolscompare.ai/compare/claude-opus-4-5-vs-perplexity/

Perplexity lanza Advanced Deep Research con 60.1% de precisión y supera a Gemini