¿Puede aprovecharse la IA de los contenidos que están públicamente disponibles en internet? ¿Y si esos contenidos están protegidos por los derechos de autor? La respuesta a la primera pregunta es clara: lo está haciendo. La cosa es más delicada para la segunda, pero todo apunta a que las empresas de IA están usando también contenidos con copyright para entrenar sus modelos. Ahora queda saber si eso tendrá consecuencias.
Periódicos que acusan a ChatGPT de robarles contenidos. Raw Story y Alternet son dos publicaciones online que como indican en Reuters demandaron a OpenAI el pasado mes de febrero. Según la demanda, la empresa usó miles de sus artículos sin permiso para entrenar su popular chatbot, ChatGPT. No solo eso: acusan a OpenAI de reproducir sus contenidos con copyright cuando se le pedían dichos contenidos a su modelo de IA.
OpenAI gana una batalla. De momento OpenAI puede respirar tranquila. En Estados Unidos, una jueza federal de Nueva York, Colleen McMahon, ha indicado en su sentencia que estos medios de noticias no se han visto perjudicados lo suficiente para apoyar su demanda. No obstante, les dio la oportunidad de apelar pero dejó claro que era "escéptica" con respecto a las posibilidades de que dichos medios pudieran "alegar un perjuicio demostrable".
Pero no la guerra. El caso es el último de una ristra de demandas por violación de copyright que sobre todo organismos y entidades de la industria editorial, literaria, musical o artística están registrando contra las empresas de inteligencia artificial.
Demandas por doquier. En los últimos meses hemos visto demandas como la de Getty a Stable Diffusion, la que afecta a GitHub Copilot y otras amenazas legales como las de la The Author's Guild. David Holz, fundador de Midjourney, admitía que al entrenar su modelo "No hay realmente una forma de coger cien millones de imágenes y saber de dónde provienen. Estaría bien que las imágenes tuvieran metadatos incrustados sobre el propietario del copyright o algo así. Pero eso no existe; no hay ningún registro".
The New York Times está al acecho. Esas dos publicaciones se unen a demandas anteriores de medios y grupos editoriales especialmente poderosos. En febrero de 2023 The Wall Street Journal y CNN ya mostraron su preocupación respecto al uso de sus contenidos en modelos de IA.
Aún más sonada fue la demanda de The New York Times, que acusó a Microsoft y OpenAI de violación de copyright por este mismo tipo de actividad. Según dicha demanda, millones de artículos publicados por NYT fueron usado para entrenar modelos de IA. En abril de 2024 otros ocho diarios demandaron a esas mismas empresas por exactamente los mismos motivos.
Transparencia cero. El secretismo relativo a los conjuntos de datos usados para el entrenamiento es total tanto en OpenAI como en sus competidoras. No dan apenas detalles sobre esos contenidos pero en los últimos tiempos sí han hecho declaraciones que dejan claro que aprovechan todo lo que pueden.
Pero es que necesitan ese material, argumentan en OpenAIGoogle explicó que puede "recoger información públicamente disponible online" para el entrenamiento de sus modelos de IA, Meta lleva tiempo usando todo lo que sus usuarios publican en Facebook e Instagram, y OpenAI llegó a decir ante el Parlamento británico que "sería imposible entrenar los principales modelos de IA de hoy en día sin usar materiales con copyright".
Si quieres usar mis contenidos, págame. Las empresas de IA están empezando a darse cuenta del enorme riesgo al que se están exponiendo, y algunas comienzan a cubrirse las espaldas con un método sencillo: acuerdos económicos. Google licenció contenidos de Reddit, y OpenAI ha llegado también a algunos acuerdos económicos con grupos editoriales como Prisa (El País) y Le Monde.
Perplexity y ChatGPT Search tienen un problema mayor. Los últimos casos de esta peligrosa situación los estamos viendo en los buscadores con IA. Perplexity y ChatGPT Search son capaces de navegar por internet, coger un puñado de fuentes y contestar a nuestras preguntas resumiendo la información procedente de esas fuentes. Eso está muy bien para el usuario, que logra la respuesta a lo que quiere de forma clara, pero estos "motores de búsqueda" hacen así innecesario que la mayoría de las veces el usuario haga clic en el enlace original. Los creadores de contenido, por tanto, pierden tráfico que ganan esos modelos de IA, lo que agrava aún más la situación.
Imagen | Hümâ H. Yardım |Marco Lenti
Ver 7 comentarios