La guerra por los datos que alimentan a la inteligencia artificial acaba de entrar en una nueva y decisiva fase. En una demanda presentada en un tribunal federal de Nueva York, Reddit no solo ha acusado al motor de búsqueda Perplexity de robar su contenido a escala industrial, sino que ha descorrido la cortina sobre un opaco ecosistema de intermediarios que facilitan esta extracción de información.
La acusación es explosiva: alega que Perplexity, junto a un arsenal de socios, elude deliberadamente las protecciones de Reddit para apropiarse de su contenido a través de los resultados de búsqueda de Google, comparando la operación con el robo a un camión blindado para evitar asaltar la bóveda de un banco.
El litigio trasciende un simple conflicto de propiedad intelectual. Expone las complejas y a menudo turbias cadenas de suministro de datos que sustentan a la floreciente industria de los sistemas generativos. Reddit, que recientemente ha firmado lucrativos acuerdos de licencia con Google y OpenAI para el uso de su contenido, argumenta que Perplexity y sus cómplices han montado un elaborado esquema para obtener los mismos datos sin pagar por ellos, socavando su modelo de negocio y violando sus términos de servicio.
El ingenioso método del «dinero marcado»
El punto más contundente de la demanda es la descripción de una trampa digital que Reddit afirma haber tendido para atrapar a Perplexity con las manos en la masa. Según el documento legal, los ingenieros de Reddit crearon una publicación de prueba con contenido único, configurada de tal manera que solo podía ser indexada y visible a través del rastreador de Google. El contenido no era accesible directamente en la plataforma ni a través de otros medios. En cuestión de horas, el contenido de esa publicación «marcada» comenzó a aparecer en las respuestas generadas por el motor de Perplexity.
Para Reddit, esta es la prueba irrefutable de que el modelo de negocio de Perplexity depende críticamente del raspado de los resultados de búsqueda de Google para obtener contenido fresco y relevante de sus foros. La demanda argumenta que, mientras Perplexity se presenta como un «motor de respuestas» innovador, en realidad actúa como un parásito que reutiliza el contenido de otros sin aportar valor original. La plataforma de foros sostiene que ha invertido decenas de millones de dólares en medidas tecnológicas para prevenir el raspado no autorizado, barreras que Perplexity y sus socios habrían burlado de manera sistemática.
La demanda no se limita a Perplexity. Nombra a tres co-conspiradores, arrojando luz sobre una industria de intermediarios poco conocida pero crucial para el sector. Entre los acusados se encuentran SerpApi, una startup de Texas que provee acceso programático a los resultados de búsqueda de Google; Oxylabs, una firma de origen lituano especializada en servicios de extracción de datos a gran escala; y una entidad llamada AWMProxy, descrita en la demanda como una antigua «red de bots rusa».
Según Reddit, estas empresas forman una «economía de lavado de datos» a escala industrial. Ben Lee, director legal de Reddit, afirmó en un comunicado que estos actores «eluden las protecciones tecnológicas para robar datos y luego los venden a clientes hambrientos de material de entrenamiento». La acusación central es que, ante la imposibilidad de raspar directamente Reddit, estas empresas utilizan los resultados de Google como una puerta trasera para acceder al mismo contenido, camuflando su identidad y sus intenciones para pasar desapercibidas. La contundencia del lenguaje legal, que tilda a los acusados de actuar como «hackers norcoreanos», subraya la gravedad con la que Reddit percibe esta amenaza a su principal activo: las conversaciones de sus usuarios.
La defensa de Perplexity y la guerra por una internet abierta
Perplexity no ha tardado en contraatacar. En una publicación en el propio subreddit de la compañía, calificó la demanda como una táctica de intimidación y una «demostración de fuerza» de Reddit en medio de sus negociaciones de licencias con gigantes como Google y OpenAI. La startup niega las acusaciones de robo y se posiciona como una defensora de una internet abierta, argumentando que su actividad se limita a indexar información pública, una práctica fundamental para el funcionamiento de cualquier motor de búsqueda.
La defensa de Perplexity sugiere que la verdadera motivación de Reddit es crear un entorno en el que todo acceso a su contenido deba ser pagado, limitando el libre flujo de información. «No toleraremos amenazas contra la apertura y el interés público», declaró la compañía, asegurando que se defenderá vigorosamente. Este contraargumento sitúa el conflicto en un debate más amplio sobre el futuro de la web: ¿es la información publicada en plataformas abiertas un bien común accesible para todos, o un activo privado cuyo uso puede ser restringido y monetizado por la plataforma que lo alberga?
El resultado de esta batalla legal podría sentar un precedente crucial. Si los tribunales fallan a favor de Reddit, podría restringirse severamente la capacidad de las nuevas empresas de inteligencia artificial para recopilar datos de entrenamiento, consolidando aún más el poder de las grandes plataformas que pueden permitirse costosos acuerdos de licencia. Si, por el contrario, la balanza se inclina hacia la visión de Perplexity, podría validarse el raspado de resultados de búsqueda como una práctica legítima, aunque esto podría incentivar a las plataformas de contenido a implementar muros de pago y otras barreras aún más restrictivas. La demanda, por tanto, no es solo un enfrentamiento entre dos empresas, sino una disputa fundamental sobre las reglas que gobernarán la próxima era de la información digital.
Referencias:
-
Reuters: Reddit sues Perplexity for scraping data to train AI system
-
The New York Times: Reddit Accuses ‘Data Scraper’ Companies of Theft
-
AP News: Reddit sues Perplexity, others for user comment scraping
-
Business Insider: Reddit Lawsuit Accuses Perplexity, Other AI Firms, of Stealing Data From Google
-
Search Engine Land: Reddit sues Perplexity, SerpApi over scraping Google
-
PBS NewsHour: Reddit sues AI company over alleged ‘industrial-scale’ scraping of its users’ comments
-
Respuesta de Perplexity en Reddit: Our Response to Reddit’s Lawsuit



