Por Andrea Rivera, Periodista Especializada en Inteligencia Artificial y Ética Tecnológica, para Mundo IA
El litigio que sacude la inteligencia artificial
En los últimos años, el auge de los sistemas de inteligencia artificial generativa ha generado una revolución silenciosa pero profunda. Modelos como ChatGPT, Claude o Gemini prometen sintetizar información, traducir, programar y escribir artículos, y lo hacen aprendiendo a partir de cantidades masivas de texto. Aunque estas herramientas se han convertido en aliadas cotidianas, su funcionamiento interno suele ser opaco para el público general. Para fabricar estas “máquinas de palabras” se requieren bases de datos gigantescas de contenido lingüístico. En ese universo es donde nació la controversia que hoy protagoniza Apple.
En septiembre de 2025, los escritores estadounidenses Grady Hendrix y Jennifer Roberson presentaron una demanda colectiva ante la corte federal del Distrito Norte de California. Acusan a Apple de utilizar versiones pirateadas de sus libros, incluidos en el conjunto de datos Books3, para entrenar el modelo de lenguaje OpenELM y otros motores internos. Los demandantes sostienen que la empresa copió sus obras sin autorización, crédito ni compensación, y que después incorporó ese aprendizaje en servicios comerciales como Apple Intelligence. La queja no se limita a un par de textos; Books3 contaba con cerca de 200 000 títulos copiados sin licencia. Según la demanda, se trata de un caso emblemático del trato que la industria tecnológica reserva a la propiedad intelectual ajena.
Esta acción judicial ocurre en medio de una ola de litigios similares contra gigantes de la inteligencia artificial. En los meses anteriores, OpenAI, Anthropic, Meta y Microsoft recibieron demandas por entrenar sus algoritmos con canciones, artículos periodísticos o novelas sin autorización. En agosto de 2025, Anthropic cerró un acuerdo extrajudicial de 1 500 millones de dólares con un grupo de autores; es el mayor pago conocido por una disputa de este tipo. La causa contra Apple, sin embargo, añade componentes específicos: implica a una empresa con una reputación asentada en la privacidad y, además, saca a relucir la relación entre modelos de código abierto, grandes bases de datos piratas y derechos de autor.
A lo largo de este reportaje desglosaremos los hechos de la demanda, explicaremos qué es OpenELM, de dónde salió la colección Books3 y por qué su uso genera tanta polémica. También analizaremos los marcos legales de derechos de autor y marcas, las posiciones enfrentadas sobre el uso justo y la ética de entrenar modelos con material protegido, y las posibles consecuencias para la industria tecnológica y el mundo editorial. Al final, ofreceremos una síntesis reflexiva sobre el papel que tendrá la regulación en la próxima década y sobre cómo la sociedad puede equilibrar innovación con respeto a la creación intelectual.
Antecedentes y el boom de la inteligencia artificial
Para entender la magnitud de la controversia conviene repasar la evolución de los modelos de lenguaje. Estos algoritmos se apoyan en redes neuronales profundas, diseñadas para predecir la siguiente palabra en una secuencia a partir de ejemplos previos. A comienzos de la década de 2020, el campo vivió un salto gigante gracias a arquitecturas tipo transformer, capaces de procesar textos extensos y captar relaciones complejas entre frases. Modelos como GPT‑3 o LaMDA asombraron al mundo con su fluidez y capacidad de generar contenido coherente. Ese éxito desencadenó una carrera por construir modelos cada vez más grandes; se cree que GPT‑4, por ejemplo, fue entrenado con billones de palabras.
Detrás de esta proeza técnica hay un componente menos romántico: para que un modelo aprenda a escribir, necesita examinar enormes corpora de textos. Las empresas de IA buscan en internet todo tipo de materiales: artículos, libros, comentarios en foros, código, noticias, ensayos. Muchas fuentes están en dominios públicos o se publican con licencias abiertas, pero otras son obras protegidas por derechos de autor. Desde 2022, escritores, periodistas y fotógrafos empezaron a revisar los conjuntos de datos utilizados por grandes modelos y descubrieron sus obras dentro de repositorios clandestinos. Uno de esos repositorios era Books3.
Books3 se creó como parte del proyecto The Pile, una base de datos abierta destinada a investigadores de aprendizaje automático. Reunía aproximadamente 191 000 libros digitalizados sin permiso de los autores, obtenidos de bibliotecas piratas. Estaba compuesto por novelas contemporáneas, obras de no ficción y títulos de género que se distribuían sin licencia en Internet. Investigadores de empresas y universidades lo emplearon para mejorar la capacidad de los modelos de lenguaje en tareas de narrativa y comprensión. Aunque su intención era “democratizar” el acceso a datos textuales, la colección ignoraba las leyes de copyright. Debido a presiones legales, la Rights Alliance logró eliminarlo de la red en 2023, pero para entonces muchas copias circulaban entre desarrolladores.
Mientras tanto, la industria tecnológica adoptó con entusiasmo los modelos de código abierto. Después de que Meta lanzara LLaMA en 2023 y sacudiera el panorama de los modelos cerrados, otras compañías comenzaron a publicar sus propios algoritmos para que la comunidad académica pudiera estudiarlos y reproducirlos. Apple no fue ajena a esta tendencia. En abril de 2024 presentó OpenELM (Open Efficient Language Model), una familia de modelos cuyo diseño prometía eficiencia y transparencia. Según la propia Apple, OpenELM utiliza una estrategia de escala en capas que permite obtener mejor precisión con menos datos y parámetros. La empresa liberó los registros de entrenamiento, puntos de control y configuración para que investigadores independientes pudieran replicar los resultados. Se trataba, en teoría, de un paso hacia la apertura científica.
Ese escenario (la explosión de modelos grandes, el uso de repositorios no autorizados y la apertura relativa de algunas empresas) explica por qué la demanda de Hendrix y Roberson ha causado tanto revuelo. Propone poner freno a prácticas habituales de recopilación de datos, cuestiona la ética de “consentimiento implícito” que reivindican algunas compañías y obliga a reflexionar sobre la responsabilidad de quienes desarrollan herramientas de código abierto.
La demanda contra Apple: claves del conflicto
En la querella presentada el 5 de septiembre de 2025, los abogados de Grady Hendrix y Jennifer Roberson alegan que Apple copió sus obras para entrenar motores lingüísticos sin pedir permiso ni retribuirles económicamente. Se trata de un litigio civil, no criminal, que busca obtener reparación monetaria y medidas cautelares para impedir que la empresa siga usando material pirata. La acción tiene carácter colectivo; los demandantes argumentan que decenas de miles de autores pudieron verse perjudicados de la misma manera y piden certificar la clase para incluirlos.
Según la demanda, Apple integró en su proceso de entrenamiento el conjunto de datos Books3, donde figuran libros de Hendrix y Roberson. La acusación sostiene que la compañía empleó ese corpus para construir no solo OpenELM, sino también otros modelos de “Fundación”, utilizados internamente y probablemente integrados en el sistema Apple Intelligence presentado ese mismo verano. En palabras de los demandantes, Apple “está construyendo parte de esta nueva empresa utilizando Books3, una base de datos de libros pirateados que incluye las obras de los demandantes y de la clase”.
Los abogados también mencionan a Applebot, el rastreador web de la compañía, como herramienta de recopilación. Señalan que Applebot puede acceder a las llamadas “bibliotecas sombra” —sitios que albergan colecciones de libros no licenciados— y, con ello, extraer copias ilegales que luego se incorporan a los sistemas de entrenamiento. Además, indican que el uso de estos materiales confiere una ventaja competitiva a Apple, que ahorra costos de licenciamiento y obtiene modelos más capaces.
Los demandantes piden al tribunal que ordene a Apple cesar cualquier utilización de obras pirateadas, que destruya las copias que tenga en su poder y que compense a los afectados por daños y perjuicios. También solicitan que la compañía declare bajo juramento qué obras se usaron y en qué proporción. No se reclama una cifra específica de indemnización, pero al tratarse de una clase tan numerosa y considerando los precedentes, se especula con que las compensaciones podrían alcanzar sumas considerables.
La acusación se apoya en los siguientes fundamentos legales:
-
Violación directa de derechos de autor. Los demandantes argumentan que Apple reprodujo y copió sus obras sin autorización, infringiendo los derechos exclusivos de reproducción y distribución que establece la ley de copyright. La digitalización y uso en el entrenamiento se considera una copia no autorizada.
-
Responsabilidad contributiva y vicaria. Al supuestamente alojar y facilitar el acceso a libros piratas a través de Applebot y a través de Books3, la empresa habría contribuido a la infracción cometida por terceros al distribuir copias no licenciadas, lo que la hace responsable de las infracciones de otros.
Aunque la denuncia no invoca explícitamente un conflicto de marcas, algunos juristas consultados apuntan a un efecto colateral: cuando se entrena un modelo con material protegido, éste puede aprender marcas registradas (como nombres de personajes o títulos) y reproducirlos sin autorización, lo que podría generar una dilución o uso indebido de señales distintivas. Es un tema emergente que puede entrar en futuros litigios, pero en el caso concreto de OpenELM la disputa se centra en el copyright, no en una marca en concreto.
¿Qué es OpenELM y cómo se entrenan los modelos de Apple?
Para comprender la naturaleza del conflicto, conviene explicar qué es OpenELM y cómo se entrena un modelo de lenguaje. OpenELM es una familia de modelos desarrollada por Apple con el objetivo de ofrecer una alternativa eficiente y abierta a los sistemas de gran escala. Su característica más destacada es la estrategia de escala en capas: en lugar de incrementar uniformemente el tamaño de cada capa, distribuye los parámetros de manera desigual para optimizar el rendimiento. Gracias a este enfoque, un modelo con aproximadamente mil millones de parámetros logra resultados comparables a otros que requieren el doble de datos.
En términos prácticos, entrenar un modelo como OpenELM implica tres fases. Primero, se define un conjunto de datos o corpus de entrenamiento, que puede incluir libros, artículos, documentos y cualquier material textual disponible. Cuanto más diverso sea el corpus, más generalizado será el modelo. Segundo, se alimenta ese corpus al algoritmo, que analiza los patrones estadísticos, aprende el vocabulario y ajusta sus parámetros internos para minimizar los errores en la predicción de la siguiente palabra. Este proceso se repite miles de millones de veces en GPUs o TPUs. Finalmente, el modelo se ajusta con datos más específicos para especializarlo en tareas concretas (por ejemplo, preguntas frecuentes, redacción de noticias o generación de código).
Apple presentó OpenELM como un proyecto open source, con código y configuraciones publicados para que cualquiera pudiera examinar la metodología. Sin embargo, la decisión de entrenarlo con Books3 pone en duda esa transparencia. La demanda sugiere que, aunque la arquitectura y el código de OpenELM sean públicos, los datos empleados no lo fueron, lo que obstaculiza la verificación externa y, según los demandantes, viola los principios de apertura que Apple pregonaba.
Cabe destacar que Apple, a diferencia de otros actores, se había posicionado como defensora de la privacidad y del uso de datos locales. En su anuncio de Apple Intelligence, la compañía subrayó que los modelos se ejecutaban en dispositivos o en centros de datos con control estricto, que la información del usuario nunca se usaba para entrenamiento y que los modelos se alimentaban de “datos públicamente disponibles” o de conjuntos abiertos. Esa narrativa choca con la acusación de haber recurrido a bibliotecas clandestinas y libros pirateados. Si se demuestra que Apple combinó datos públicos con copias ilegales, la reputación de la empresa podría verse seriamente dañada.
Books3: de proyecto académico a piedra de choque
El nombre Books3 ha aparecido repetidamente en titulares vinculados a litigios contra empresas de IA. Se trata de una colección de libros digitalizados puesta a disposición de investigadores como parte del proyecto The Pile, creado por el grupo EleutherAI en 2021. El objetivo del Pile era compilar diversos conjuntos de datos para entrenar modelos en abierto, brindando a la comunidad académica una alternativa frente a los grandes fondos de texto que sólo las corporaciones podían costear.
Books3, concretamente, reunió unos 191 000 títulos descargados de bibliotecas pirata y sitios de torrents. Incluía obras de autores contemporáneos, bestsellers, novelas de género, manuales técnicos y libros de divulgación. Su curaduría fue automática; un script rastreaba páginas no oficiales y volcaba los archivos en la colección. Aunque el equipo de EleutherAI informó que no era su intención violar derechos de autor, reconocieron que la legalidad de la colección era cuestionable y la incluyeron bajo la doctrina de uso justo para “investigación”. Numerosos académicos descargaron Books3, pues permitía entrenar modelos en narración de historias con un nivel de calidad equivalente al de colecciones comerciales.
El problema surgió cuando empresas comerciales también empezaron a utilizar Books3. Al no haber licencia explícita ni compensación para los autores, los propietarios de las obras consideraron que se trataba de un robo masivo. Organizaciones como Authors Guild y la Rights Alliance presionaron para que los proveedores de internet retiraran el conjunto de sus servidores. En 2023, la Danish Rights Alliance logró que los portales que alojaban Books3 lo eliminaran, pero la base de datos ya circulaba entre investigadores privados. Algunas compañías de IA replicaron copias locales y las combinan con otros sets.
Cuando The Atlantic publicó en 2023 un reportaje detallando que Books3 contenía obras de autores como Stephen King, Toni Morrison y Margaret Atwood, la indignación creció. Los autores descubrieron que no sólo se usaban sus obras completas, sino también traducciones, prólogos y material suplementario sin su permiso. Varios presentaron demandas contra empresas que habían admitido utilizar Books3 para entrenar modelos (como Meta). De allí que la mención de este conjunto en la demanda contra Apple resulte tan grave; no se trata de una colección marginal, sino de una lista “negra” a la que se le atribuyen cientos de miles de copias no autorizadas.
Además de Books3, los abogados mencionan que Applebot podía acceder a “bibliotecas sombra”, repositorios clandestinos como Library Genesis o Z-Library, que alojan millones de libros sin licencia. Estos sitios son objetivos habituales de acciones antipiratería, pero su existencia dispersa ha permitido que se integren en la cadena de entrenamiento de modelos. La demanda sugiere que Apple aprovechó esa infraestructura para ampliar su base de datos con contenido difícil de rastrear. Si se demuestra, podría desencadenar investigaciones sobre cómo otras empresas usan rastreadores para recolectar datos en dominios grises.
Copyright, marcas y la encrucijada legal
El corazón del conflicto reside en la interpretación de las leyes de propiedad intelectual. El copyright concede al creador de una obra literaria derechos exclusivos sobre su reproducción, distribución, comunicación pública y transformación. Utilizar una obra protegida sin permiso suele constituir una infracción, aunque existe la doctrina del uso justo (fair use) que permite aprovechar fragmentos con fines como crítica, análisis, parodia o investigación, siempre que se cumplan ciertos requisitos (transformatividad, proporción, impacto en el mercado, naturaleza de la obra).
Los abogados de Hendrix y Roberson argumentan que el entrenamiento de un modelo no entra en el uso justo porque reproduce la totalidad de los libros y los integra en un sistema que compite con el mercado original. Según la demanda, Apple no transforma las obras de manera crítica ni las usa para investigación académica sin ánimo de lucro; al contrario, las aprovecha para mejorar productos comerciales como Apple Intelligence, afectando el valor económico de los libros. También señalan que el uso de versiones pirateadas, en vez de ediciones legalmente adquiridas, agrava la falta.
Los defensores de las compañías de IA sostienen lo contrario. Plantean que el entrenamiento no es una copia accesible al público y que los modelos no almacenan textos literales, sino patrones estadísticos. Afirman que generar una respuesta que se inspire en una obra no equivale a reproducirla, pues se trata de un proceso transformativo. Algunos citan precedentes de escaneos masivos para bibliotecas digitales que fueron considerados uso justo porque ampliaban la difusión del conocimiento. Sin embargo, la jurisprudencia aún es ambigua respecto al entrenamiento de modelos.
En cuanto a las marcas comerciales, su función es proteger nombres, logotipos y signos distintivos que identifican productos o servicios. Al entrenar modelos con libros que contienen nombres de series o personajes, puede ocurrir que el modelo reproduzca esas marcas en contextos no autorizados. Aunque la demanda contra Apple no los menciona, algunos expertos especulan que el uso de material pirateado podría exponer a la compañía a reclamaciones por dilución de marca (cuando una marca se desgasta o se usa indebidamente) si el modelo asociara nombres registrados con contextos inapropiados. De momento, la cuestión de las marcas se ha tratado más en otros litigios, como el caso de OpenAI versus la empresa Iyo por el nombre “io”, pero podría convertirse en un frente adicional.
La causa contra Apple también suscita debates sobre responsabilidad indirecta. Si Apple usó Books3 sin saber que contenía contenido ilegal, ¿sigue siendo culpable? Los demandantes creen que sí; argumentan que la empresa, como una de las más valiosas del mundo, tenía los recursos para verificar la procedencia de sus datos. Además, al supuestamente utilizar Applebot para rastrear bibliotecas clandestinas, habría actuado con conocimiento o, al menos, con negligencia. El tribunal deberá evaluar si la compañía ejerció la diligencia debida o si ignoró deliberadamente las señales de alerta.
La ola de demandas contra las empresas de IA
El pleito de Hendrix y Roberson es solo la punta de un iceberg legal que se ha ido forjando al ritmo de los avances de la inteligencia artificial. En 2024, grupos de artistas visuales demandaron a plataformas generativas de imágenes como Stable Diffusion y Midjourney, alegando que sus ilustraciones fueron usadas sin permiso para entrenar modelos. Más recientemente, medios de comunicación demandaron a OpenAI y Microsoft por usar artículos periodísticos para alimentar a ChatGPT. Uno de los casos más emblemáticos se produjo cuando The New York Times demandó a OpenAI, argumentando que sus artículos se reprodujeron casi literalmente en respuestas del modelo, afectando su negocio de suscripciones.
En agosto de 2025, Anthropic, creadora del modelo Claude, anunció un acuerdo de 1 500 millones de dólares para resolver una demanda de miles de autores. Aunque la empresa no admitió responsabilidad, aceptó pagar alrededor de 3 000 dólares por obra en litigio y comprometerse a implementar procesos de licenciamiento. Esta cifra estableció un precedente y demostró que las demandas colectivas pueden traducirse en compensaciones significativas.
Otros gigantes se encuentran en situaciones similares. Microsoft y su aliado OpenAI enfrentan demandas de sellos discográficos y editoriales; Meta recibió una querella por usar novelas sin permiso para entrenar LLaMA; y Google se enfrenta a demandas por su modelo Gemini. En todos los casos, los demandantes cuestionan la aplicación de la doctrina del uso justo y exigen retribuciones.
El caso de Apple tiene particularidades. La empresa ha cultivado una imagen de respeto a la privacidad y se había mantenido relativamente al margen de los grandes modelos generativos hasta 2024. Su propuesta de Apple Intelligence se presenta como un servicio seguro y integrado en sus dispositivos, con funciones de resumen y asistencia contextual. La acusación de usar libros piratas amenaza con empañar esa narrativa y podría obligar a la compañía a aclarar sus prácticas. Además, el litigio se produce poco después de que Apple anunciara un acuerdo con OpenAI para integrar ChatGPT en sus sistemas; esta asociación podría verse afectada si los tribunales restringen el uso de modelos entrenados con material protegido.
Consecuencias potenciales para Apple y la industria
Si el tribunal falla a favor de los autores, Apple podría enfrentarse a varias consecuencias. En primer lugar, estaría obligada a indemnizar a los demandantes y posiblemente a toda la clase de autores afectados. La cantidad podría ascender a cientos de millones de dólares, considerando el número de obras implicadas y los precedentes como el acuerdo de Anthropic. En segundo lugar, tendría que modificar sus procesos de entrenamiento: esto implica desechar modelos entrenados con datos ilegales, reconstruirlos con corpora autorizados y establecer convenios de licenciamiento con editoriales y autores. El costo de recomponer un modelo de esta envergadura es elevado, tanto en tiempo como en recursos computacionales.
Una consecuencia adicional sería la repercusión en la imagen de la empresa. Apple se ha diferenciado de sus competidores por su enfoque en la privacidad, la seguridad y el respeto a la propiedad intelectual de terceros en su tienda de aplicaciones. Un fallo adverso podría minar esa reputación y desencadenar campañas de boicot entre escritores y editoriales. Además, podría incentivar a más creadores a revisar cómo se han usado sus obras en otros productos de la compañía, generando un efecto dominó.
A nivel sistémico, el caso podría obligar a las empresas a buscar modelos más pequeños y eficientes que requieran menos datos para alcanzar buen rendimiento. Investigadores como los de Apple han explorado estrategias de escalado inteligente (OpenELM) justamente para reducir la dependencia de megacorpora. Si los litigios dificultan la utilización de grandes bases de textos, las compañías podrían invertir en algoritmos que aprendan con menos ejemplos, en técnicas de aprendizaje federado o en acuerdos de licenciamiento con consorcios de autores. También podría impulsarse el desarrollo de sistemas de generación basados en síntesis de datos o simulaciones, aunque estas estrategias tienen sus propias limitaciones.
Reacción pública y debate ético
Desde que se hizo pública la demanda, las redes sociales y los foros han acogido un debate encendido. Muchos autores y editores expresan alivio; consideran que finalmente alguien se atreve a plantar cara a las grandes tecnológicas y a exigirles que respeten la propiedad intelectual. Destacan que, aunque la inteligencia artificial ofrece herramientas poderosas, no debería construirse sobre el esfuerzo de miles de escritores que no reciben compensación. El caso de Books3 demuestra que no se trata de pequeñas infracciones aisladas, sino de una práctica industrializada de extracción de contenidos.
Al otro lado del espectro, algunos desarrolladores y defensores del software libre argumentan que restringir el acceso a grandes corpora frenará el avance científico. Señalan que muchas innovaciones en procesamiento del lenguaje natural surgieron gracias a bases de datos abiertas y que exigir licencias individuales es inviable para proyectos de investigación de bajo presupuesto. Además, sostienen que la economía digital se basa en la reutilización y remix de contenidos y que el uso de patrones estadísticos no perjudica directamente a los autores, siempre y cuando no se reproduzcan textos enteros.
La ética de la inteligencia artificial se encuentra en el centro de este debate. ¿Es aceptable utilizar obras protegidas para entrenar una máquina que luego competirá con escritores? ¿Debe la sociedad adoptar una visión pragmática que priorice el avance tecnológico, o debe salvaguardar los derechos de quienes producen cultura? Las respuestas no son simples. Algunos proponen crear sistemas de retribución colectiva, donde las empresas paguen una tarifa a sociedades de gestión que repartan los ingresos entre autores. Otros abogan por modelos de consentimiento explícito: que cada obra indique si puede usarse para entrenamiento, similar a las licencias Creative Commons. También hay quien sugiere que el entrenamiento con obras protegidas debería permitirse únicamente si el modelo produce valor social sin fines comerciales.
En el ámbito jurídico, la discusión ya tiene un primer atisbo: la Oficina de Derechos de Autor de Estados Unidos ha iniciado un estudio para evaluar si el entrenamiento de modelos constituye infracción o uso justo. Su informe preliminar, citado en algunos artículos, indica que el tema está en evolución y que probablemente se necesite una legislación específica. Dependiendo del resultado del caso contra Apple, el Congreso podría intervenir para clarificar la situación y establecer reglas que equilibren incentivos.
Futuro de la investigación automatizada y de la propiedad intelectual
La controversia en torno a Books3 y Apple no es un fenómeno aislado; es un síntoma de una transformación más amplia. A medida que las herramientas de IA se integran en sectores tan diversos como la medicina, la enseñanza, el periodismo o el derecho, se vuelve necesario redefinir el equilibrio entre innovación y derechos culturales. La demanda contra Apple abre la puerta a varias tendencias.
Por un lado, es probable que las organizaciones de autores intensifiquen su vigilancia. La posibilidad de recuperar compensaciones millonarias alienta a nuevas demandas y hace que editoriales y asociaciones exijan claridad sobre la procedencia de los datos de entrenamiento. Podríamos ver la creación de bibliotecas de obras licenciadas, donde las empresas de IA paguen para acceder a contenidos curados y legales, de manera similar a cómo la industria musical paga a discográficas y artistas por streaming. Estas bibliotecas podrían establecer estándares técnicos para asegurar que los textos se utilicen de manera ética y que no se generen reproducciones literales.
Por otro lado, la investigación en modelos eficientes recibirá un nuevo impulso. Si la recolección de datos a gran escala se vuelve más costosa y arriesgada, las empresas buscarán algoritmos que aprendan con pocos ejemplos o que utilicen fuentes alternativas (como datos sintéticos o procedentes de usuarios que firmen acuerdos específicos). Técnicas como el aprendizaje auto-regresivo con regularización, el aprendizaje federado, donde los modelos entrenan en dispositivos sin recopilar datos centralmente, o la enseñanza con distillation podrían ganar terreno. La propia Apple, con su enfoque en ejecución local, podría transformarse en referente de esta tendencia si ajusta sus prácticas.
Además, se discute la posibilidad de establecer sistemas de auditoría para la IA. Bajo esta idea, empresas como Apple, OpenAI o Google deberían registrar y reportar qué datos utilizan para entrenar modelos, de forma similar a cómo las farmacéuticas informan sobre los ensayos clínicos. Equipos de auditores podrían verificar que las bases de entrenamiento cumplen con licencias y que se ha realizado una compensación justa. Una mayor transparencia también ayudaría a la comunidad científica a evaluar sesgos, reproducir resultados y detectar filtraciones de información sensible.
Finalmente, es probable que la controversia influya en la política pública. Países como Canadá y la Unión Europea ya han propuesto leyes que obligan a las empresas a informar sobre los datos de entrenamiento y a remunerar a los creadores. Si Estados Unidos adopta una legislación semejante, podría convertirse en un estándar mundial. La lucha de Hendrix y Roberson puede ser el catalizador que acelere estas iniciativas y obligue a Silicon Valley a repensar su relación con la producción cultural.
Conclusión: un equilibrio por definir
La demanda presentada por Grady Hendrix y Jennifer Roberson contra Apple constituye un hito en la evolución de la inteligencia artificial y la propiedad intelectual. Más allá de los nombres de los protagonistas, el caso desnuda tensiones profundas: la búsqueda de innovación frente a la protección de la creatividad; la apropiación de contenidos frente a la transparencia y el respeto; la promesa de democratización que ofrecen los modelos abiertos frente a la realidad de bases de datos pirateadas.
A lo largo de este artículo hemos visto cómo los modelos de lenguaje como OpenELM se alimentan de enormes cantidades de texto para aprender a generar frases, hemos explicado el origen y la controversia de Books3, hemos detallado las acusaciones de los autores y los fundamentos legales de su demanda, y hemos analizado las implicaciones éticas, sociales y económicas de entrenar inteligencia artificial con obras protegidas. También hemos explorado la ola de litigios que recorre la industria, las posibles consecuencias para Apple y sus competidores, y las tendencias futuras que podrían surgir en respuesta a estos conflictos.
La resolución del caso Apple todavía está en manos de la justicia. Sea cual sea el desenlace, el debate que ha generado ya ha cumplido un propósito importante: obligar a la sociedad a reflexionar sobre cómo queremos que se construyan las herramientas que definirán nuestro futuro. La inteligencia artificial tiene un potencial inmenso para ampliar el conocimiento, mejorar la productividad y democratizar el acceso a la información. Pero ese potencial no debe alcanzarse a costa de quienes dedican su vida a crear. Encontrar un equilibrio entre innovación y respeto por la propiedad intelectual será uno de los mayores retos de la próxima década. Y quizá la verdadera revolución silenciosa no sea tecnológica, sino legal y ética: la creación de un nuevo contrato social que nos permita avanzar sin dejar a nadie atrás.
Referencias
- Apple Machine Learning Research. (2023). OpenELM: An Efficient Language Model Family with Open Training and Inference Framework. Apple. Recuperado de https://machinelearning.apple.com/research/openelm
- Dig Watch Observatory. (2025, septiembre). Apple sued over use of pirated books in AI training. Recuperado de https://dig.watch/updates/apple-sued-over-use-of-pirated-books-in-ai-training
- NDTV Profit. (2025, septiembre). US Authors Sue Apple For Alleged Use Of Their Books To Train AI Models. Recuperado de https://www.ndtvprofit.com/technology/us-authors-sue-apple-for-alleged-use-of-their-books-to-train-ai-models
- Publishers Weekly. (2025, septiembre). Apple Sued by Authors for Copyright Infringement. Recuperado de https://www.publishersweekly.com/pw/by-topic/industry-news/industry-deals/article/98546-apple-sued-by-authors-for-copyright-infringement.html
- Reuters. (2025, septiembre). Apple sued by authors over use of books in AI training. Recuperado de https://www.reuters.com/sustainability/boards-policy-regulation/apple-sued-by-authors-over-use-books-ai-training-2025-09-05
- Security Online. (2025, septiembre). Apple Sued for Training AI on Pirated Books. Recuperado de https://securityonline.info/apple-sued-for-training-ai-on-pirated-books/
- Voice Lapaas. (2025, septiembre). Authors Sue Apple for Using Their Books in AI Training Without Permission. Recuperado de https://voice.lapaas.com/authors-sue-apple-for-using-books-ai-training/
- eWeek. (2025, septiembre). Authors Sue Apple, Alleging AI Was Built with Pirated Books. Recuperado de https://www.eweek.com/news/books3-apple-ai-lawsuit/