Cómo convertir plagio sistemático en partnerships millonarios: el manual Perplexity

Del scraping salvaje a los contratos millonarios: Perplexity compra legitimidad

La startup acusada de plagio sistemático y scraping ilegal firma acuerdo multianual con Getty Images. El contrato legitima retroactivamente usos cuestionables mientras Reddit la demanda por recolección masiva no autorizada. La estrategia corporativa: ignorar reglas primero, negociar después, argumentar fair use siempre.

Por el equipo editorial | 2 de noviembre, 2025

Durante más de un año, Perplexity extrajo imágenes de Getty Images sin permiso explícito. Cuando Forbes denunció en junio de 2024 que la startup había plagiado su investigación exclusiva sobre drones militares impulsados por inteligencia artificial, incluyendo las fotos con licencia Getty de ese reportaje, varios medios cuestionaron si esto constituía infracción de copyright. Perplexity continuó operando. Un año después, el 31 de octubre de 2025, la misma compañía firma un acuerdo multianual con Getty, legitimando retroactivamente lo que antes parecía apropiación ilegal.

Este patrón define la estrategia corporativa de Perplexity: consumir primero, negociar después, litigar si es necesario. El acuerdo con Getty no representa arrepentimiento sino cálculo empresarial. La startup, valorada en más de mil millones de dólares y respaldada por el fondo familiar de Jeff Bezos, Nvidia y otros gigantes tecnológicos, enfrenta acusaciones crecientes de extracción no autorizada de contenido a escala industrial. Getty, golpeado por caídas de acciones superiores al cincuenta por ciento anual, necesita flujos de ingresos nuevos. Ambos convergen en un acuerdo cuyas condiciones financieras permanecen deliberadamente opacas.

El comunicado conjunto enfatiza atribución y créditos con enlaces. Jessica Chan, directora de asociaciones de contenido en Perplexity, declara que atribución y precisión son fundamentales para cómo las personas deben entender el mundo en una era de inteligencia artificial. Nick Unsworth, vicepresidente de desarrollo estratégico en Getty, afirma que el acuerdo reconoce la importancia del consentimiento apropiadamente atribuido. El lenguaje es cuidadosamente corporativo, evitando mencionar el historial que hace necesarias estas declaraciones en primer lugar.

Cronología de una reputación erosionada

Perplexity se describe variablemente como motor de respuestas, combinación de Wikipedia y ChatGPT, o agregador de información. Fundada en 2022 por exingenieros de Google y OpenAI, la compañía responde más de ciento cincuenta millones de preguntas globalmente cada semana. A diferencia de ChatGPT o Claude, Perplexity no entrena modelos fundacionales propios; utiliza modelos disponibles comercialmente para traducir información extraída de internet en respuestas sintetizadas con citaciones inline.

Este modelo depende críticamente de acceso masivo a contenido web. Los problemas comenzaron públicamente en junio de 2024. Forbes acusó a Perplexity de plagiar su scoop exclusivo sobre Eric Schmidt desarrollando drones de combate impulsados por IA. La función Perplexity Pages, que permite generar artículos enteros, reprodujo el reportaje de Forbes con mínima atribución: solo un pequeño logo al pie de página. El artículo original estaba detrás de paywall; Perplexity lo extrajo y redistribuyó libremente.

Días después, Wired publicó investigación mostrando que Perplexity ignoraba el Protocolo de Exclusión de Robots, estándar voluntario desde 1994 que indica qué áreas de un sitio no deben ser rastreadas por bots. Wired y el desarrollador Robb Knight condujeron experimentos: crearon URLs de prueba, pidieron a Perplexity que las resumiera, y observaron desde el servidor cómo direcciones IP asociadas con Perplexity visitaban esos sitios, incluso áreas explícitamente bloqueadas.

Cronología de controversias documentadas

Junio 2024: Forbes denuncia plagio de su investigación exclusiva sobre drones de Schmidt, incluyendo fotos Getty sin licencia. Wired publica investigación sobre violación de robots.txt.

Julio 2024: Perplexity lanza Publishers Program, compartiendo ingresos publicitarios con Fortune, Time, Entrepreneur, Texas Tribune, Der Spiegel, WordPress. CEO Aravind Srinivas no puede definir plagio cuando se le pregunta directamente en TechCrunch Disrupt.

Agosto 2025: Cloudflare publica investigación acusando a Perplexity de cambiar user agents y ASN para evadir bloqueos. Observan actividad en decenas de miles de dominios, millones de solicitudes diarias.

Octubre 2025: Reddit demanda a Perplexity por scraping a escala industrial ilegal de contenido de usuarios. Reddit usó marcadores ocultos trampa que Perplexity reprodujo, evidenciando extracción no autorizada.

31 octubre 2025: Perplexity firma acuerdo multianual con Getty Images. Acciones de Getty caen seis por ciento tras anuncio; habían subido cinco por ciento inicialmente antes de corrección.

En un momento particularmente revelador, Wired creó sitio web dummy con contenido limitado y lo bloqueó mediante robots.txt. Cuando pidieron a Perplexity que lo resumiera, el sistema devolvió texto verbatim de la página. No parafraseó ni sintetizó; simplemente copió. Esto contradice las afirmaciones de Perplexity sobre procesar información mediante modelos de lenguaje sofisticados. En casos simples, aparentemente extrae y regurgita.

Wired también identificó direcciones IP no listadas públicamente por Perplexity accediendo propiedades de Condé Nast más de ochocientas veces en tres meses. Una dirección específica visitó estos sitios repetidamente desde servidores Amazon Web Services. Cuando confrontado, el CEO Srinivas respondió que las preguntas reflejaban malentendido de cómo opera Perplexity, pero no disputó los hechos específicos reportados.

La respuesta corporativa ante evidencia de mala conducta siguió patrón predecible: negar inicialmente, luego admitir necesidad de mejor citación de fuentes, finalmente afirmar que Perplexity era el segundo mayor referente de tráfico para Forbes. Esta última declaración resultó ser falsa cuando Wired verificó registros internos de Forbes. Perplexity mintió sobre métrica verificable para desviar críticas.

La arquitectura de la evasión

Cloudflare, gigante de infraestructura de internet que protege millones de sitios web, publicó en agosto de 2025 investigación técnica detallando cómo Perplexity evade bloqueos. La compañía recibió quejas de clientes reportando que Perplexity rastreaba sus sitios incluso después de agregar reglas robots.txt y bloquear específicamente los bots conocidos de Perplexity. Cloudflare condujo pruebas controladas confirmando la evasión sistemática.

El mecanismo es técnicamente simple pero éticamente problemático. Perplexity cambia el user agent de sus bots, la cadena de identificación que revela qué tipo de dispositivo y software accede un sitio. En lugar de identificarse honestamente como bot de Perplexity, el sistema finge ser Chrome en macOS: un navegador humano ordinario. Los servidores web, viendo solicitud aparentemente legítima de usuario real, permiten acceso. Perplexity también rota números ASN, dificultando bloqueo mediante listas negras de IP.

Cloudflare observó esta actividad en decenas de miles de dominios, millones de solicitudes diarias. Utilizando combinación de aprendizaje automático y señales de red, identificaron la huella digital característica de los crawlers evasivos. Después, eliminaron los bots de Perplexity de su lista verificada y agregaron técnicas para bloquearlos. Jesse Dwyer, portavoz de Perplexity, desestimó el blog de Cloudflare como pitch de ventas, alegando que las capturas de pantalla mostraban que ningún contenido fue accedido. En email posterior, Dwyer afirmó que el bot nombrado en el blog ni siquiera es nuestro.

Caso Reddit: la trampa del diccionario digital

Contexto histórico: En 2001, el New Oxford American Dictionary inventó la palabra esquivalience específicamente para detectar plagio por competidores. Cuando Dictionary.com reprodujo la palabra falsa, quedó expuesto copiando sin permiso.

Táctica de Reddit: La plataforma insertó marcadores ocultos en contenido, datos falsos detectables solo si alguien scrapeaba directamente sin permiso. Perplexity reprodujo estos marcadores, evidenciando extracción no autorizada pese a restricciones robots.txt.

Demanda de octubre 2025: Reddit acusa a Perplexity de scraping a escala industrial ilegal, violando términos de servicio y potencialmente leyes de copyright. Reddit tiene acuerdo de licenciamiento de datos con OpenAI; Perplexity operaba sin autorización similar.

Implicaciones: La evidencia de trampa proporciona prueba irrefutable en litigio. A diferencia de alegaciones generales sobre violación de robots.txt, marcadores específicos rastreables demuestran cadena directa de apropiación.

Amazon Web Services inició investigación sobre si Perplexity violó términos de servicio al usar infraestructura AWS para scraping no autorizado. Esta investigación plantea cuestiones sobre responsabilidad de proveedores cloud: ¿deben monitorear activamente cómo clientes utilizan recursos alquilados? AWS históricamente ha sido neutral, proporcionando infraestructura sin escrutinio de actividades legales del cliente. El caso Perplexity presiona esta neutralidad.

El argumento del fair use y sus límites

Perplexity defiende sus prácticas mediante doctrina de fair use, excepción de copyright que permite uso limitado de material protegido sin permiso para propósitos como comentario, crítica, reportaje noticioso e investigación académica. La compañía argumenta que resumir artículos constituye fair use porque hechos públicamente disponibles no son protegibles por copyright. Dmitry Shevelenko, director de negocios de Perplexity, declaró: nadie tiene monopolio sobre hechos.

Este razonamiento omite distinciones cruciales. Fair use no es absoluto; requiere análisis balanceado de cuatro factores: propósito y carácter del uso, naturaleza del trabajo protegido, cantidad y sustancialidad de la porción usada, y efecto sobre el mercado potencial. Perplexity falla múltiples factores simultáneamente.

Respecto a propósito y carácter, Perplexity opera comercialmente: cobra suscripciones premium, genera ingresos publicitarios, está valorada en más de mil millones. No es educación sin fines de lucro ni comentario crítico. Respecto a naturaleza del trabajo, muchos artículos plagiados estaban detrás de paywalls, invirtiendo recursos sustanciales en reportería investigativa original. Estos no son hechos commodity sino análisis propietario costosamente producido.

Respecto a cantidad, Perplexity frecuentemente reproduce esencia completa de artículos, no fragmentos limitados. El ejemplo de Forbes muestra apropiación de scoop completo con mínima transformación. Respecto a efecto de mercado, este es el factor más devastador. Si usuarios obtienen síntesis completa de Perplexity gratuitamente, pierden incentivo para visitar sitio original pagado. Publishers pierden ingresos por suscripciones y publicidad. Perplexity extrae valor mientras destruye modelo de negocio que financia la creación de ese valor.

La ventaja injusta de las compañías de inteligencia artificial es que pueden compilar en segundos lo que tomó a varios periodistas horas crear. Análisis de TechCrunch sobre la controversia Perplexity

El plagio, aunque mal visto, no es técnicamente ilegal bajo ley estadounidense; es violación de normas éticas y académicas. La infracción de copyright sí lo es. La distinción importa: Perplexity puede evadir consecuencias legales para plagio mientras enfrenta exposición sustancial por copyright, especialmente dado que ignora activamente medidas técnicas de protección.

Implicaciones sistémicas y estrategia defensiva

El acuerdo con Getty representa pieza de estrategia defensiva más amplia. No significa que Perplexity haya renunciado a scraping no autorizado; significa que identificó a Getty como socio suficientemente importante para merecer licensing formal. Otros creadores de contenido, juzgados menos críticos o con menor capacidad de litigar, continúan siendo explotados sin compensación.

Cuando Getty y Perplexity anunciaron su acuerdo, las acciones de Getty inicialmente subieron cinco por ciento, luego revirtieron, cerrando con caída del seis por ciento. Los inversores procesaron el anuncio y concluyeron que los términos probablemente favorecen a Perplexity más que a Getty. Una fuente familiarizada con el acuerdo confirmó a TechCrunch que no es licenciamiento de suma global tradicional, dado que Perplexity no entrena modelos fundacionales propios, pero se negó a elaborar sobre términos.

Esta vaguedad es estratégica. Si Getty recibe pagos sustanciales, anunciarían robustamente para impulsar confianza de inversores. Silencio sugiere términos menos favorables, posiblemente participación en ingresos con mínimos garantizados bajos. Getty, cuyas acciones cayeron más del cincuenta por ciento en el año, necesita cualquier flujo de ingresos nuevo. La compañía enfrenta presión existencial: modelos generativos amenazan su core business de licensing de stock.

Estrategia de Perplexity en cinco fases: operar sin permiso, enfrentar acusaciones públicas, negociar acuerdos selectivos, obtener licencias clave, continuar extrayendo contenido no licenciado mientras argumenta fair use.

El programa Publishers de Perplexity, lanzado en julio de 2024, inscribió inicialmente a Fortune, Time, Entrepreneur, Texas Tribune, Der Spiegel y WordPress. Estos reciben participación de ingresos publicitarios cuando su contenido aparece en respuestas. Sin embargo, participación es voluntaria y limitada. La mayoría de contenido en internet permanece sin licencia a Perplexity, incluidos sitios de noticias principales que explícitamente bloquearon scraping.

La paradoja de la agregación algorítmica: Perplexity argumenta que proporciona servicio valioso sintetizando información dispersa. Pero si sintetizar reemplaza consultar originales, la base de contenido original se atrofia. Eventualmente, no habrá suficiente periodismo nuevo de calidad para sintetizar. El modelo consume su propio sustrato, análogo a minería que agota el recurso explotado sin reponer.

Si la estrategia de Perplexity tiene éxito, establece precedente tóxico. Startups futuras aprenderán que ignorar reglas genera ventaja competitiva: construir producto rápidamente mediante apropiación, escalar agresivamente, lidiar con consecuencias legales más tarde cuando valuation alto proporciona recursos para settlements. Compañías que operan éticamente, obteniendo licencias preemptivamente y pagando por contenido, quedan en desventaja competitiva frente a rivales que simplemente toman.

Mientras Perplexity negocia con Getty y partners selectos del Publishers Program, Reddit lo demanda, publicaciones japonesas Nikkei y Asahi Shimbun lo demandan, el diccionario Merriam-Webster lo demanda, y docenas de publishers consideran acciones legales. La startup enfrenta fragmentación: algunos aceptan deals, otros pelean. Esta fragmentación favorece a Perplexity, que puede dividir oposición ofreciendo términos variables.

La pregunta definitiva no es legal sino estructural: ¿puede ecosistema de información sostenerse cuando agregadores capturan valor de contenido sin compensar adecuadamente a creadores? Si periodismo de calidad se vuelve económicamente inviable, fuentes de información que alimentan sistemas como Perplexity se secan. La compañía afirma democratizar acceso a conocimiento, pero su modelo puede inadvertidamente minar producción futura de ese conocimiento. El acuerdo con Getty es síntoma, no solución, de esta tensión fundamental.

Referencias

TechCrunch, "Perplexity strikes multi-year licensing deal with Getty Images" - Rebecca Bellan (octubre 31, 2025).

Getty Images Newsroom, "Getty Images and Perplexity strike multi-year image partnership" - comunicado de prensa oficial (octubre 31, 2025).

CNBC, "Getty Images stock falls following deal with Perplexity AI" - análisis de mercado y reacción de inversores (octubre 31, 2025).

Reuters / Yahoo Finance, "Getty, Perplexity sign multi-year licensing deal" (octubre 31, 2025).

Engadget, "Perplexity signs deal to use Getty Images" - contexto histórico de litigios (octubre 31, 2025).

TechCrunch, "News outlets are accusing Perplexity of plagiarism and unethical web scraping" - investigación sobre violación de robots.txt (julio 2024).

TechCrunch, "Perplexity accused of scraping websites that explicitly blocked AI scraping" - Lorenzo Franceschi-Bicchierai sobre investigación de Cloudflare (agosto 2025).

WebProNews, "Reddit Sues Perplexity AI Over Unauthorized Data Scraping Trap" - caso de marcadores ocultos (octubre 2025).

CNBC, "Perplexity AI will share revenue with publishers after plagiarism accusations" - lanzamiento del Publishers Program (julio 2024).

Skim AI, "10 Things to Know About the Perplexity Copyright Controversy" - análisis comprehensivo de issues legales (julio 2024).

Adweek, "Perplexity Is Cutting Checks to Publishers Following Plagiarism Accusations" - reacción de industria de medios (julio 2024).

Cloudflare Blog, investigación técnica sobre evasión mediante cambio de user agents y ASN (agosto 2025).

Tom's Guide, "Perplexity accused of scraping websites even when told not to" - cobertura de controversias técnicas (agosto 2025).

PetaPixel, "Getty Images and Perplexity Sign Multi-Year Licensing Deal" - perspectiva de industria fotográfica (octubre 2025).

Cómo convertir plagio sistemático en partnerships millonarios: el manual Perplexity