¿Quién escribe el futuro la web? El 52% ya no es humano

Cincuenta y dos por ciento. Esa es la proporción de artículos recién publicados en internet que fueron generados por modelos de lenguaje en mayo de 2025, según un análisis de Graphite que examinó 65,000 URLs en inglés publicadas entre enero de 2020 y mayo de este año. La cifra marca un punto de inflexión simbólico: por primera vez en la historia de la red, el contenido producido algorítmicamente supera ligeramente al escrito por seres humanos.

La velocidad del cambio resulta vertiginosa. Antes del lanzamiento de ChatGPT en noviembre de 2022, apenas el diez por ciento de los artículos nuevos mostraban signos de generación automática. Para 2024, esa proporción había escalado a más del cuarenta por ciento. En noviembre de ese año, el contenido sintético superó brevemente al humano antes de establecerse en una oscilación cercana al cincuenta-cincuenta que persiste hasta ahora.

Lo notable no reside únicamente en que las máquinas hayan alcanzado paridad con los escritores de carne y hueso, sino en que esa proporción parece haberse estabilizado. Después de dos años de crecimiento exponencial, la curva se aplanó. Las razones de esta meseta resultan menos obvias de lo que parecen, y las implicaciones trascienden meros porcentajes para tocar dimensiones económicas, epistemológicas y culturales profundas.

La metodología detrás de los números

Graphite empleó Surfer, un detector algorítmico, para analizar una muestra aleatoria de artículos extraídos de Common Crawl, una base de datos de código abierto que abarca más de trescientos mil millones de páginas web acumuladas durante dieciocho años. El sistema añade entre tres y cinco mil millones de páginas nuevas mensualmente, proporcionando una ventana panorámica hacia la evolución del contenido digital.

El criterio de clasificación fue binario: cualquier artículo donde cincuenta por ciento o más del texto fue identificado como generado por modelos de lenguaje se consideró producción automática. Esta definición tiene implicaciones importantes. Un texto donde un humano escribió sesenta por ciento y una máquina cuarenta quedaría clasificado como humano, mientras que la proporción inversa lo catalogaría como sintético. En la práctica, muchos artículos contemporáneos exhiben grados variables de colaboración entre autor y asistente algorítmico, difuminando cualquier distinción categórica.

Las propias pruebas de Graphite sobre la precisión de Surfer revelaron tasas de error asimétricas. El detector etiquetó erróneamente como automáticos el 4.2 por ciento de textos humanos, un problema común en estas herramientas que ha provocado acusaciones falsas de plagio académico. Sin embargo, solo confundió como humano el 0.6 por ciento de contenido realmente sintético. Esta asimetría sugiere que las cifras podrían subestimar levemente la proporción de escritura humana, pero probablemente no alteran sustancialmente el panorama general.

Otro factor introduce sesgo potencial en dirección opuesta. Muchos sitios con contenido protegido por muros de pago comenzaron a bloquear Common Crawl después de que laboratorios algorítmicos explotaran esa base de datos para entrenar sus modelos sin compensación. Estos artículos, casi con certeza escritos por humanos, quedan excluidos del análisis de Graphite, sugiriendo que la proporción real de contenido humano podría ser mayor que el cuarenta y ocho por ciento reportado.

La estabilización después de noviembre de 2024 desafía las proyecciones apocalípticas que auguraban un internet completamente sintético para 2026. Un reporte de Europol en 2022 estimaba que el noventa por ciento del contenido en línea sería generado automáticamente para ese año. Claramente, esa predicción no se materializó.

Una explicación radica en cómo motores de búsqueda y chatbots responden al contenido sintético. Un segundo informe de Graphite encontró que el ochenta y seis por ciento de artículos en resultados principales de Google Search fueron escritos por humanos, mientras que solo el catorce por ciento eran producción algorítmica. Entre asistentes conversacionales como ChatGPT y Perplexity, la proporción es casi idéntica: ochenta y dos por ciento humano, dieciocho por ciento sintético.

Esta desproporción entre volumen publicado y visibilidad sugiere que los sistemas de ranking penalizan efectivamente el contenido de baja calidad generado masivamente. Ethan Smith, CEO de Graphite, observa que resúmenes claramente etiquetados de contenido propietario cerrado funcionan bien en búsquedas, pero el material autogenerado por granjas de contenido recibe tratamiento marginal.

Las propias granjas algorítmicas parecen haber recalibrado estrategias al descubrir que sus cascadas de texto sintético no generaban tráfico ni ingresos publicitarios. Producir millones de artículos resulta trivial cuando el coste marginal por pieza tiende a cero, pero si esos artículos no atraen lectores, el ejercicio se vuelve económicamente inútil. Esta retroalimentación negativa habría desacelerado la producción automatizada después del pico de noviembre de 2024.

La frontera borrosa entre autor y algoritmo

Stefano Soatto, profesor de ciencias computacionales en UCLA y vicepresidente en Amazon Web Services, ofrece una perspectiva más matizada: «En este punto, es una simbiosis más que una dicotomía». Esta observación captura una realidad creciente donde escritores emplean herramientas generativas en diversas etapas del proceso creativo sin que el resultado final sea puramente sintético ni puramente humano.

Un periodista podría usar un modelo de lenguaje para generar borradores preliminares de secciones técnicas que luego revisa exhaustivamente. Un blogger puede solicitar esquemas estructurales que después completa con su propia voz y perspectiva. Un académico podría emplear estas herramientas para pulir gramática y claridad sin alterar contenido sustantivo. Cada uno de estos escenarios produce textos donde la autoría es genuinamente compartida.

Los detectores algorítmicos luchan con esta ambigüedad. Fueron diseñados para distinguir entre extremos: texto completamente humano versus completamente sintético. Pero conforme la colaboración humano-máquina se normaliza, la taxonomía binaria colapsa. Investigadores admiten a Axios que un recuento definitivo de contenido generado algorítmicamente resulta imposible con herramientas y definiciones actuales.

Un portavoz de Google articuló el problema sucintamente: existen tantos grados diferentes por los cuales alguien puede utilizar asistencia algorítmica en su trabajo que resulta desafiante afirmar definitivamente que algo es generado por máquina o no. Esta fluidez categórica complica cualquier esfuerzo por cuantificar la transformación en curso.

Graphite estima que más de diez mil millones de páginas generadas algorítmicamente se han publicado desde 2023. Este tsunami de prosa sintética afecta múltiples dimensiones del ecosistema digital. Para optimización de motores de búsqueda, la saturación de contenido de baja calidad complica la capacidad de los algoritmos de ranking para identificar material valioso. Para entrenamiento de modelos futuros, la contaminación del corpus con texto generado por versiones anteriores introduce riesgos de degradación recursiva, el fenómeno donde sistemas aprenden de su propia producción defectuosa.

Alex Svanevik, contribuyente a la serie de investigación Five Percent de Graphite, describe el momento como un reequilibrio del ecosistema de contenido. «Los publicadores más efectivos están integrando capacidades generativas en flujos de trabajo humanos en lugar de reemplazarlos completamente», observa. Esta estrategia híbrida reconoce que la velocidad y escala de producción sintética complementan, más que sustituyen, la creatividad, juicio contextual y comprensión matizada que aportan escritores humanos.

Las Directrices de Evaluadores de Calidad de Búsqueda de Google para 2025 enfatizan que páginas donde casi todo el contenido es generado algorítmicamente con escasa contribución humana original deben recibir las calificaciones más bajas. Esta posición institucional señala que, al menos por ahora, los guardianes de visibilidad en línea privilegian sustancia sobre volumen.

Una encuesta de Pew de la semana pasada encontró que el entusiasmo por resúmenes algorítmicos en resultados de búsqueda es modesto: solo el veinte por ciento de usuarios considera esos resúmenes extremadamente o muy útiles, y apenas el seis por ciento confía mucho en ellos. Esta desconfianza pública podría actuar como freno adicional contra la proliferación descontrolada de contenido sintético.

El mundo laboral en transformación

La industria de creación de contenido se encuentra en el epicentro de esta transformación. Escritores freelance y periodistas reportan oportunidades menguantes conforme sistemas automatizados socavan tarifas. Un estudio del Foro Económico Mundial proyecta que para 2025, los modelos de lenguaje podrían eliminar ochenta y cinco millones de empleos pero crear noventa y siete millones nuevos, resultando en una ganancia neta de doce millones. Esta aritmética agregada ofrece escaso consuelo a individuos cuyos roles específicos enfrentan obsolescencia.

Sin embargo, optimistas ven potencial en herramientas generativas como amplificadores de creatividad humana. En lugar de reemplazar escritores, estos sistemas podrían manejar tareas rutinarias, liberando tiempo para investigación profunda, análisis original y narrativa sofisticada que requiere comprensión contextual rica imposible de automatizar completamente. La clave, argumentan expertos, reside en integración equilibrada: aprovechar velocidad algorítmica mientras se salvaguarda ingenio humano.

Ahrefs, otra firma analítica, examinó novecientas mil páginas en inglés creadas en abril de 2025 y encontró que 74.2 por ciento incluían material escrito algorítmicamente. Esta cifra superior a la de Graphite refleja probablemente metodologías diferentes, pero refuerza la conclusión general de que la producción sintética alcanzó niveles masivos. Además, aproximadamente el setenta y uno por ciento de imágenes en plataformas de redes sociales en marzo de 2025 fueron creadas usando tecnologías generativas, indicando que el contenido visual sigue una trayectoria similar.

La prevalencia de intentos de fraude relacionados con deepfakes se elevó al 6.5 por ciento, subrayando tanto la sofisticación de medios generados algorítmicamente como los desafíos que plantea para autenticación de contenido y confianza pública. Legisladores en Estados Unidos y la Unión Europea debaten divulgaciones obligatorias para artículos generados por máquinas, inspirados en hallazgos como los del reporte de Graphite. Tales medidas buscan preservar transparencia, pero la aplicación sigue siendo un obstáculo dado el carácter global de internet.

La web alcanzó un punto de equilibrio precario. La mitad humana, la mitad sintética. Si la visibilidad continúa siendo la métrica por la cual se valora el contenido, existe esperanza razonable de que sustancia prevalezca sobre volumen. Pero esa esperanza depende de que motores de búsqueda, plataformas y usuarios mantengan discernimiento crítico en un panorama donde distinguir autor de algoritmo se vuelve progresivamente más difícil.

Referencias

Dataconomy. Graphite: 52% Of New Content Is AI-generated. dataconomy.com

Axios. AI-written web pages haven’t overwhelmed human-authored content, study finds. axios.com

eWEEK. AI Now Writes Half of the Internet, but Still Ranks Behind Humans. eweek.com

NotebookCheck. More than half of online written content is AI-generated, new study says. notebookcheck.net

Barrett Media. AI-Generated Articles Now More Than 50% of All Web Stories, Graphite Data Shows. barrettmedia.com

Tech Business News. Approximately 57% Of Text Online Was Either AI-Generated Or Translated By AI Algorithms. techbusinessnews.com.au

Relevant Magazine. Half of the Internet Is Officially Now AI Content. relevantmagazine.com

WebProNews. Study: Over Half of Online Articles Now AI-Generated, Raising Concerns. webpronews.com

¿Quién escribe el futuro la web? El 52% ya no es humano