Adobe dice que su IA fue entrenada con imágenes con permisos. En realidad, también utilizó contenido de Midjourney

La compañía de software para creativos no está exenta de uno de los mayores desafíos de la industria: encontrar datos para entrenar sus modelos de IA

Estamos presenciando en directo cómo evoluciona la carrera por el desarrollo de la IA. Se trata de una competición en la que hay tantas propuestas como demandas por infracción de derechos de autor. Adobe quiso evitar cualquier tipo de inconveniente a nivel de copyright al asegurar que su familia de modelos de IA había sido entrenada con imágenes de Adobe Stock, así como contenido con licencia abierta y contenido de dominio público.

Las mencionadas características convertían a Adobe Firefly, la herramienta de generación de imágenes de la compañía, en una alternativa segura para uso comercial. Después de todo, el software de Adobe es utilizado por creativos de todo el mundo para elaborar piezas gráficas de manera profesional. Lo que no se sabía era que Adobe había utilizado imágenes de competidores como Midjourney para alimentar su modelo teóricamente más ético.

Adobe Firefly, entrenado con Midjourney

Adobe tiene páginas dedicadas en su web oficial donde compara Firefly frente DALL· E, Stable Diffusion y Midjourney. En cada una ellas hacen hincapié en la pureza de los datos utilizados para el entrenamiento. Sin embargo, como recoge Bloomberg, la compañía ha utilizado imágenes de herramientas rivales para entrenar su modelo. Esto se debe a que desde hace un tiempo Adobe Stock permite que los usuarios puedan licenciar imágenes generadas por IA.

Los términos y condiciones de Adobe Stock obligan a los colaboradores de la plataforma a contar con todos los derechos necesarios para licenciar imágenes. Esto incluye el contenido generado por IA. Ahora bien, si exploramos detenidamente la biblioteca de Adobe Stock encontramos imágenes generadas con Midjourney y otras herramientas generativas, herramientas que, por cierto, han sido demandadas por infracción de derechos de autor.

Entonces tenemos con un dilema. La herramienta que busca diferenciarse de sus rivales se ha alimentado contenido generativo de sus rivales. Ahora bien, el panorama es complejo y tiene varias aristas. Por un lado, Adobe reconoce que “una pequeña parte” del conjunto de datos de Firefly incluye material generativo proveniente de Adobe Stock, pero también afirma que las imágenes pasan por un proceso para garantizar que no incluyan propiedad intelectual.

Bloomberg añade que la estrategia llevada a cabo por Adobe ha generado desacuerdos internos entre sus empleados. Algunos incluso han sugerido que Adobe pause su plataforma de generación de imágenes durante un tiempo, aunque las fuentes no oficiales consultadas por el medio señalan que no hay planes al respecto. Es que la compañía ha cambiado de postura en relación a la utilización de contenido generativo para entrenar sus modelos de IA.

En junio del año pasado, Adobe anunció que la versión final de Adobe Firefly no incluiría contenido generativo de otras plataformas. Tres meses después, en septiembre, la herramienta salió de beta y se distribuyó un “bono Firefly” entre los colaboradores de Adobe Stock. Finalmente, según Mat Hayward de la comunidad de Adobe Stock, la compañía decidió incluir el contenido generativo en la versión comercial de Firefly porque “mejora el modelo de entrenamiento”.

Datos para entrenar IA, un bien escaso

Una realidad que conviene tener en cuenta es que las compañías que compiten por liderar el desarrollo de la IA están, literalmente, devorando los datos disponibles en la web para entrenar los modelos que alimentan sus productos. Y, si bien podemos pesar en la web como algo inmenso y difícil de dimensionar, el auge de la IA está haciendo que no sea tan grande como pensábamos debido a que gran parte del contenido publicado no es apto para entrenar modelos de IA de calidad.

Los gigantes tecnológicos se están viendo obligados a buscar alternativas para entrenar sus modelos. Según The New York Times, OpenAI transcribió un millón de horas de YouTube para entrenar el prodigioso GPT-4, modelo que impulsa productos como ChatGPT Plus y Microsoft Copilot. La misma compañía habría utilizado también la plataforma de vídeos de Google para entrenar, en parte, al modelo de Sora, algo que, en caso de ser cierto, no le haría ninguna gracia a YouTube.

Imágenes | Adobe (1, 2)

En Xataka | DALL-E funciona con las imágenes de creadores que no reciben nada a cambio: qué dice el copyright sobre la IA

En Xataka | El AI Pin ha llegado a sus primeros usuarios. Y sus conclusiones no son nada esperanzadoras

Ver todos los comentarios en https://www.xataka.com

VER 1 Comentario

Portada de Xataka