Lo vimos primero con GitHub Copilot y después con Stable Diffusion. Lo de entrenar a inteligencias artificiales generativas con datos brutos y sin pagar licencias empieza a ser motivo de demandas por parte de creadores de contenido (y código), y ahora ese mismo problema comienza a aflorar en motores de IA conversacional como ChatGPT.
Qué ha pasado. Jason Conti, consejero general de la división Dow Jones en News Corp, lo dejaba claro: "quien quiera utilizar el trabajo de los periodistas del Wall Street Journal para entrenar a inteligencias artificials debería licenciar de forma adecuada los derechos para hacerlo". O lo que es lo mismo: si ChatGPT o (Bing con ChatGPT, o el hipotético Bard) quieren usar sus contenidos para ser entrenados y pulidos, tendrán primero que licenciarlos.
ChatGPT is trained on a large amount of news data from top sources that fuel its AI. It's unclear whether OpenAI has agreements with all of these publishers. Scraping data without permission would break the publishers' terms of service. pic.twitter.com/RXEjMHWXiI
— Francesco Marconi (@fpmarconi) February 15, 2023
Amenaza velada. Este directivo iba aún más allá y como indican en Bloomberg añadía que "nos tomamos muy en serio el uso indebido del trabajo de nuestros periodistas, y estamos revisando esta situación". Un periodista llamado Francesco Marconi precisamente le preguntó a ChatGPT por sus fuentes y entre ellas estaban tanto el WSJ como la CNN. El primer caso es aún más llamativo, sobre todo porque en WSJ aplican un muro de pago muy riguroso.
La CNN se une al WSJ. Fuentes cercanas a la CNN revelaban en ese mismo artículo de Bloomberg que este medio de comunicación también cree que ChatGPT está violando los términos de servicio al ser entrenado con datos recolectados de sus artículos.
OpenAI, deberías pagar. Esa es la conclusión a la que parecen llegar ambos grupos informativos. La CNN, propiedad de Warner Bros. Discovery Inc., tiene la intención de negociar con OpenAI una licencia para poder usar ese contenido en el motor conversacional.
Un debate que viene de lejos. Los medios de comunicación ya se enfrentaron a una situación similar hace años con la famosa 'Tasa Google'. La introducción de la Ley de Propiedad Intelectual implicaba que Google News y otros agregadores de enlaces debían pagar a los autores de los contenidos que enlazaban. En octubre de 2014 llegó el Canon AEDE, y con él, el cierre de Google News en España, que acabó volviendo a estar activo en junio de 2022 tras a aprobación de la 'Ley Iceta'.
Buscando un modelo justo. Buscadores como el de Google eran criticados por aprovechar contenidos generados por medios y creadores sin dar ingresos directos por ello. Las empresas de medios y los creadores, eso sí, obtenían tráfico a sus medios, aunque también eso se ha criticado por la forma en la que por ejemplo Google ya casi hace innecesario salir del buscador.
Los creadores ante un mundo de IAs glotonas. Las IAs generativas no envían por ahora tráfico o ingresos indirectos a los creadores —no lo hacen en Copilot o en Stable Diffusion/DALL-E 2/Midjourney—, y ahora el gigantesco negocio de los buscadores y la publicidad también se puede ver comprometido. Parece por tanto necesario hayar un compromiso para que las IAs sean útiles, pero dando algo a cambio a quienes han proporcionado los contenidos con las que son entrenadas y mejoradas.
Imagen: Woodley Wonderworks
Ver 10 comentarios