Los modelos de IA generativa que nos asombran día tras día tienen una cara oscura: la de la posible violación de los derechos de autor. Esa es la razón de que ya haya habido demandas como la de Getty a Stable Diffusion, la que afecta a GitHub Copilot y otras amenazas legales como las de la The Author's Guild. Ahora un nubarrón se vuelve a posar sobre esta tecnología, y esta vez viene de la mano del gran referente del periodismo mundial.
En The New York Times están hartos. El conocido periódico indica en una noticia al respecto que ha "denunciado a OpenAI y a Microsoft por violación del copyright". La demanda abre según ese texto "un nuevo frente en la cada vez más intensa batalla legal sobre el uso no autorizado de obras publicadas para entrenar tecnologías de inteligencia artificial".
"Millones de artículos". Según la demanda, millones de artículos publicados por ese diario se utilizaron para entrenar modelos de IA que luego han servido para publicar noticias y competir precisamente con la empresa que proporcionó esas noticias en primer lugar.
Daños de miles de millones de dólares. Aunque no se exige una compensación económica clara, sí se indica que ha habido miles de millones de dólares en daños por la "copia y uso ilícito" de esos artículos de The Times.
Si alguien podía demandar... al menos en el sector periodístico, ese era The New York Times, claro referente en cuanto modelo de negocio periodístico de éxito. Ellos mismos recuerdan cómo "docenas" de periódicos y revistas han acabado cerrando tras la migración de los lectores a internet. Mientras, empresas como OpenAI, con un valor estimado de 80.000 millones de dólares, no paran de atraer rondas de inversión como la de Microsoft, que ha invertido ya 13.000 millones de dólares en la startup más prometedora de los últimos tiempos.
Usan textos sin pagar. La protesta es la que ya hemos visto en otros ámbitos: según The Times, OpenAI y Microsoft han usado el contenido de The New York Times sin pagar y lo han hecho para crear productos que lo sustituyan para luego robarles la audiencia.
Negociaciones previas. En abril los responsables de The Times contactaron con Microsoft y OpenAI en abril. El motivo, mostrar su preocupación por el uso de su propiedad intelectual y tratar de llegar a una "solución amigable", teóricamente a través de un acuerdo comercial que concediera a estas empresas una licencia para entrenar sus modelos de IA con los textos publicados en The New York Times. No hubo tal acuerdo, afirman en el diario.
El chatbot como sustituto del periódico. Para los responsables del diario la amenaza es clara y ciertamente razonable:
"Cuando se pregunta a los chatbots sobre acontecimientos de actualidad u otros temas de interés periodístico, pueden generar respuestas que se basen en el periodismo anterior de The Times. El periódico expresa su preocupación por que los lectores se conformen con la respuesta de un chatbot y declinen visitar la web de The Times, reduciendo así el tráfico web que puede traducirse en ingresos por publicidad y suscripciones".
Es una protesta análoga a la que muchos medios creadores de contenido ya hacían de Google: el buscador lleva años tratando de conseguir que los usuarios encuentren lo que buscan sin salir de Google y sin visitar las fuentes originales de contenido.
Ya hay precedentes. Otras organizaciones ya han logrado llegar a acuerdos con OpenAI: The Associated Press lo hizo en julio, y Axel Springer lo hizo hace unos días, aunque no se conocen los términos de dichos acuerdos.
Pero The Times también quiere usar IA. La demanda no significa que la institución renuncie a esta tecnología. De hecho ha contratado a un director de iniciativas de IA, un nuevo puesto dirigido a evaluar formas en las que poder aprovechar esta tecnología en el ámbito del periodismo.
Imagen | Flrent
Ver 23 comentarios
23 comentarios
p2dzca
La empresas que han desarrollado los primeros modelos de IA llamados LLM (Modelos Grandes de Lenguaje) se han aprovechado de la información pública y de toda la información con derechos de autor a la que han podido acceder ilegalmente. Esto se va a acabar y van a tener que llegar a acuerdos y pagar.
La principal razón es el llamado "AI Model Collapse". Conforme más se utilicen los LLM, más información generada por IA se publicará en internet, pero aunque nos parezca que los textos que generan los LLM son similares a los de las personas, no lo son. Existen varios estudios consistentes en entrenar LLM con textos generados por IA únicamente. Cada LLM entrenado de esta manera se utiliza para generar textos que entrenan a otro LLM. Cada nuevo LLM entrenado genera texto de peor calidad y con menores variaciones ante la misma solicitud. Los conocimientos más extendidos del LLM que ha generado el texto se potencian durante el entrenamiento y los menos comunes se van debilitando o desapareciendo. El resultado es un colapso de los modelos de lenguaje que los hace inservibles. Todas las empresas de IA lo saben.
Hay varias conclusiones importantes:
1) Los LLM aprenden los lenguajes y generan textos de una forma muy distinta a la de las personas.
2) Basar el aprendizaje de los LLM en la información disponible en internet, cuando la tendencia se dirige a la publicación de textos generados por IA, supone un riesgo que puede hacer a los LLM reducir su calidad o hacerlos inservibles.
3) Cada vez van a tomar más importancia los textos generados por personas en el entrenamiento de LLM.
4) Las empresas desarrolladoras de LLM van a tener que pagar por la información de calidad. Ya hay empresas bloqueando el acceso de los robot de 'web scraping' de las empresas de IA a sus sitios web.
red1
Cuando exista una IA polémica y que publique artículos click bait será cuando los periodistas se queden sin trabajo.
yagosanchez_1
De todo quieren hacer negocio, muchas actividades han caído ante las nuevas tecnologías y lo seguirán haciendo, como dijo antes alguien... más agencias de noticias han dejado de serlo y solo sirven a los grandes intereses donde se venden al mejor postor, de allí los periodistas ultramillonarios
Usuario desactivado
El 27 de diciembre fallecio una reconocida médica de mi país a causa de una infección.
Un medio internacional creó la noticia con IA, basado seguramente en que el hecho aqui fue muy comentado.
Segun la IA, la doctora fallecio el 25 de diciembre y debido a cáncer. El artículo escrito por la IA cita como fuente original a un medio, pero invierte el orden de las palabras (el medio es Montevideo Portal y es citado como Portal Montevideo).
Como personas estamos bastante j*odidos con el avance de estas IA baratas y defectuosas.
othymms
No entiendo pa demanda de The New York Times.
El Periódico ha dejado de hacer periodismo hace decadas
hkakashi
No creo que actualmente la IA vaya a sustituir el periodismo. Es más, la IA es una herramienta igual de válida que los correctores hasta el día de hoy, si la usan bien puede mejorar mucho la calidad del contenido, porque algunos artículos en muchos medios parecen escritos por chavales de la ESO. Hace 20 años era casi impensable leer una errata tipográfica, gramatical u ortográfica en revistas o periódicos de cualquier índole. Hoy en día es imposible no encontrar errores a mansalva en cualquier blog de información, ya no que se cuele una tilde, es que es como si el texto fuese un crucigrama sin sentido donde el uso de la gramática es opcional.
Por otro lado, la gente está harta del uso del SEO para que las páginas se visualicen lo más arriba posible por encima del contenido. Tener que leer un montón de chorradas para llegar al tema que quieres saber, tener que tragarte 20 paneles publicitarios para encontrar lo que reza el título y que encima sea "así es como imagina la IA que será el arte en el futuro".
Si el periodismo serio quiere destacar por encima de todo eso y le da miedo que la gente deje de consumir, lo que han de hacer es proporcionar un buscador con IA dentro de su propia web, para que cuando estés ahí te compense que una IA esté buscando información contrastada por periodistas serios y no en todo internet, pudiendo ser en el primer caso más fiable (si es que el medio lo es).
Pero para todo lo demás, incluidos estos blogs donde la mayoría ya ni leemos todo el contenido porque es una estrategia SEO el engancharte con el título, meterte banners publicitarios por el medio y vídeos de otros temas relacionados, no van a conseguir que la IA los sustituya en gran medida. Si quiero saber sobre algo voy a acabar 100 veces antes preguntando a un ChatGPT que leyendo un blog donde empiezan contándome la vida de alguien que ni siquiera es relevante para lo que busco.
Cuando quiera conocer la historia de la prima de la madre del vecino del terrorista ya leeré un libro, pero si me interesa saber la motivación por la cuál hizo algo, voy a preguntar a una IA.
Y los periódicos harían bien en integrar la tecnología de las IAs antes de ir a demandar por algo que es publico en la red. Y en el caso de Microsoft creo que poco pueden hacer porque cuando saca algo de una fuente indexa el enlace así que además les hacen publicidad.
shyrka
Empieza a cobrar sentido la reciente filtración de que Apple está ofreciendo acuerdos económicos a diferentes medios para entrenar su IA generativa con sus contenidos y pagar por ello.
Lo que ha hecho OpenAi y Microsoft es robar el trabajo de los medios, periodistas, etc…
Dr.LivingsToon
Ojalá entierren en demandas a estos mal nacidos.
Usuario desactivado
Lo que les da miedo es que ChatGTP sea más objetivo que ellos.