Meta suele presumir de cómo su modelo de IA, Llama, es Open Source. Lo que no dice es con qué conjunto de datos la han entrenado. Un reciente proceso legal ha hecho que se revelen documentos que precisamente revelan algunos detalles sobre ese proceso de entrenamiento. Y son inquietantes.
Libros pirateados para entrenar el modelo. En el caso Kadrey contra Meta, que incluye a autores de bestsellers como Sarah Silverman y Ta-Nehisi Coates, se acusa a Meta de haber utilizado obras protegidas por los derechos de autor para entrenar sus modelos de inteligencia artificial. Y los documentos desvelados en dicha demanda revelan que los demandantes parecen tener razón.
Zuckerberg dijo que sí a usar libros pirateados. Según los testimonios del caso, Zuckerberg aprobó que Meta usara un conjunto de datos llamado LibGen para entrenar los modelos Llama. Lo hizo a pesar de que personas de su equipo y algunos empleados no vieran con buenos ojos tales medidas. Según los documentos de la demanda, algunos empleados de Meta advirtieron de que usar LibGen "podría minar la posición negociadora de Meta con los reguladores".
Qué es LibGen. LibGen (Library Genesis) se define a sí mismo como un "agregador de enlaces", pero en realidad era una gigantesca biblioteca virtual que proporcionaba acceso a obras con copyright de grupos editoriales como McGraw Hill o Pearson Education. Ha sido demandada en varias ocasiones y también multada con decenas de millones de dólares por violación de copyright. En septiembre de 2024 recibieron una multa de 30 millones de dólares, pero no se sabe quién está a cargo de dicha "biblioteca fantasma", lo que hace muy difícil que los grupos editoriales reciban esos fondos.
Voracidad sin límites. Ya en abril de 2024 The New York Times habló de cómo las tecnológicas hacían frente a ese hambre voraz de datos para entrenar sus modelos. En cierto momento Meta llegó a contratar personas en África para agreatar resúmenes de libros que incluían contenidos con copyright "porque no es posible no recolectar esos datos". En dicha investigación Meta acusó a OpenAI de usar material con derechos de autor sin permiso, y sus directivos destacaron cómo "llevaría demasiado tiempo negociar licencias coneditoriales, artistas, músicos y la industria de los medios de actualidad". Las prácticas a las que llegan las empresas incluyen por ejemplo la de usar fotos de niños para entrenar esos modelos.
Que no parezca que tienen copyright. Según el abogado de los demandantes, un ingeniero de Meta llamado Nikolay Bashlykov escribió un programa para eliminar la información sobre los derechos de autor de los libros electrónicos que recolectaron de LibGen para entrenar el modelo. También eliminaron esas etiquetas en los artículos de revistas científicas que usaron en ese proceso de entrenamiento de Llama.
Y además ayudaron a distribuir esas obras. En Meta al parecer no solo utilizaron esas obras para entrenar LibGen, sino que se convirtieron en una semilla o nodo más de la red torrent con la que se distribuían las obras de LibGen, ayudando así a difundirla. Eso amplía aún más la violación de los derechos de autor, que no se limitó al uso de las obras para el entrenamiento de Llama, sino a servir como mecanismo de difusión.
Un caso difícil. Aun así, de momento no hay decisión clara respecto a lo que ocurrió, y todas esas acusaciones se centran en las anteriores versiones de Meta. En 2023 un juzgado ya desestimó las acusaciones contra Meta por un motivo idéntico. La empresa de Mark Zuckerberg indicó entonces que había realizado un Uso Justo ('Fair Use') de esos datos, pero puede que ese argumento no le sirva en esta ocasión. De hecho, el juez Vince Chhabria se negó a ocultar datos que Meta prefería ver omitidos en la documentación del caso.
Meta no es (probablemente) la única. Aunque en este caso la demanda es contra Meta, existen otras muchas en vigor que por ejemplo enfrentan a The New York Times con Microsoft y OpenAI. Esta última de hecho fue acusada de lo mismo que Meta por parte de ocho publicaciones del grupo editorial Alden Global en abril de 2024, aunque es cierto que en los últimos meses ha llegado a acuerdos con grupos editoriales como Associated Press, Axel Springer, Prisa y Le Monde para licenciar sus contenidos y así poder entrenar sus modelos de IA con esos datos de forma legítima. Mientras, Google tiene claro que para entrenar sus modelos va a coger todo lo que publiquemos en internet, y Perplexity no ha parado de hacer algo parecido y saquear la red de redes para entrenar sus modelos. No está claro si eso incluye obras protegidas por derechos de autor, pero parece difícil que no haya casos de que esas violaciones de copyright hayan ocurrido.
Ver 9 comentarios
9 comentarios
togepix
Facebook y su dueño no conocen límites . Les da igual .
Solo quieren espiarte y saltarse cualquiera ley para enriquecerse .
moreorless
mark sabe que solo tiene que poner su cara de tonto en los juicios y cabizbajo decir "perdon"
asi se safa de los problemas.
batliebre
Esto no es ninguna sorpresa. No existe ninguna iA generativa que funcione de forma competente que no esté entrenada sin millones de obras protegidas por derechos de autor. Es algo intrínseco a esta tecnología. Sin infringir copyright de forma masiva no puede funcionar. Y estos parásitos culturales saben que les renta pasarse la ley por el forro, porque esperan que esta operación de saqueo a gran escala les reporte tanto dinero que si les demandan y pierden, aún así habrán salido ganando cantidades ingentes de dinero. En un mundo justo estarían ya todos pudriéndose en prisión.
fomlimalma
Suckervergas nunca ha tenido sangre en la cara, sino no sera billonario
pipas75
Por eso los profesionales, usamos TDM en los ebooks de las editoriales. Le dicen a la IA que no puede usarlos, da igual que elimines la página de créditos.
hernohi
Pero hey, ni se te ocurra jugar al port de PES 2003 para Wii hecho por un estudio turco que cayó en bancarrota en 2006 y del cual solo quedan dos unidades en manos de un saudí, que viene el FBI y te encarcela por terrorismo contra el estado de Oregón.