Un grupo de autores ha denunciado a Anthropic. El motivo: ha entrenado a su IA con copias de sus libros

La discusión sobre el uso de obras protegidas por derechos de autor para entrenar a las inteligencias artificiales generativas está lejos de acabar. Es, de hecho, uno de los grandes focos del debate, en tanto que estas IAs han usado el contenido generado por autores para aprender a generar contenido similar sin que estos vean una compensación. Es un tema peliagudo y denuncias al respecto ha habido varias. Hoy hay que sumar una más a nada más y nada menos que a la estadounidense Anthropic, la empresa detrás de Claude.

¿Qué ha pasado? Que un grupo de tres autores ha demandado a la empresa por, según reza el escrito, haber construido "un negocio multimillonario robando cientos de miles de libros protegidos por derechos de autor". Los tres denunciantes son Andrea Bartz (periodista y autora de 'We Were Never Here'), Charles Graeber (autor de 'El Ángel de la Muerte') y Kirk Wallace Johnson (autor de 'The Feather Thief').

Books3. El motivo de la demanda es que Anthropic usó Books3 para entrenar a su LLM, Claude AI. Books3 es un dataset que contiene 196.640 libros en formato texto de autores como Stephen King, Margaret Atwood y Zadie Smith. Es decir, es un dataset que incluye contenido potencialmente protegido. La clave está en lo que pasó tras su creación: pasó a formar parte de The Pile.

¿The Pile? Es un enorme dataset open-source de 825 GiB (gigibyte) de texto en inglés creado por EleutherAI. Se usa para, efectivamente, entrenar LLMs. Este consiste en unos cuantos datasets más pequeños entre los que estaban Books3 y Youtube Subtitles (sí, subtítulos de YouTube. Una investigación de Proof News y Wired sugiere que NVIDIA, SalesForce, Anthropic y Apple los han usado para entrenar a sus modelos, de hecho).

En Xataka

5.000 "tokens" de mi blog están siendo usados para entrenar una IA. No he dado mi permiso

Anthropic confirmó a principios de mes que había usado The Pile para entrenar a Claude y, aunque en agosto del año pasado Books3 fue eliminado del dataset, los autores afirman en la demanda que si bien es cierto que Books3 ha sido eliminado de la versión "más oficial" de The Pile, la versión original sigue estando disponible online.

Books3 dejó de formar parte de The Pile en agosto de 2023, pero la versión original se sigue pudiendo encontrar online

En cualquier caso, en la demanda se afirma que "Anthropic descargó y reprodujo copias de The Pile y Books3, a sabiendas de que estos conjuntos de datos estaban formados por un cúmulo de contenidos protegidos por derechos de autor procedentes de sitios web piratas como Bibiliotik". Así pues, los autores quieren que el tribunal exija a la empresa un pago por daños y perjuicios y que obligue a Anthropic a no usar contenido protegido por derechos de autor.

No es la primera. Y seguramente tampoco sea la última. Desde la llegada de las inteligencias artificiales generativas las demandas por infracción de derechos de autor no han dejado de sucederse. Eso explica que empresas como OpenAI haya optado por otro enfoque: asociarse. La compañía detrás de ChatGPT se ha aliado con Associated Press, Axel Springer, Prisa y Le Monde, de manera que puede usar su contenido para nutrir a su IA.

Sede de The New York Times | Imagen: Flrent

Sin embargo, sigue teniendo una espina clavada: la de The New York Times, uno de los rotativos más importantes del mundo que demandó a OpenAI y Microsoft por el uso de su contenido a finales del año pasado. También se sumaron los medios de Alden Global Capital, que incluyen The New York Daily News, The Chicago Tribune y The Orlando Sentinel, entre otros. Alden es el segundo operador de periódicos más grandes del país.

En el caso de Anthropic, esta demanda no es la primera a la que se enfrenta. El pasado mes de octubre, Universal Music Group (UMG), Concord Publishing y ABKCO Music & Records demandaron a la firma por haber usado "las letras de numerosas composiciones musicales" para entrenar a su IA. Según la demanda, Claude es capaz de generar letras idénticas o casi idénticas de alrededor de 500 canciones, incluyendo algunas de Beyonce o los Rolling Stones.

Imagen de portada | Anthropic editada por Xataka

En Xataka | Sevilla será la primera sede europea para la transparencia algorítmica: España sigue liderando en este campo