Midjourney y ChatGPT parecen mágicos. Crean obras digitales y textos de una forma asombrosa, y aunque a menudo meten la pata, sus resultados son a menudo convincentes e incluso impresionantes. Esa foto parece del Papa con abrigo de Balenciaga sigue pareciendo real, y ese código en Python funciona. Insisto. Parecen mágicos.
Pero tanto estos modelos de IA generativa como sus competidores no son mágicos. Son loros estocásticos que hacen uso de patrones estadísticos. No entienden lo que crean o generan. Y además, todo lo que hacen está basado en algo aún más importante.
Robar.
Si está en internet, puedo usarlo para mi IA
Es lo que están haciendo desde el principio. Las grandes empresas de IA necesitan ingentes cantidades de datos para entrenar a sus modelos, así que lo que han hecho es, sencillamente, cogerlos de internet. Sin avisar, sin pedir permiso, y sin aclarar luego qué datos habían usado.
Ninguna empresa de IA aclara cómo ha entrenado a esos modelos. No sabemos con exactitud de dónde han sacado toda la información. ¿Qué libros, sitios web, o imágenes han incluido en el entrenamiento? La transparencia es prácticamente nula.
Ninguna lo aclara del todo, y todas las empresas se escudan en el concepto del "uso justo" (fair use). Este concepto desarrollado en el derecho anglosajón permite el uso limitado de material protegido sin que sea necesario pedir permiso por hacerlo.
Esa recolección masiva y voraz de datos ha hecho que muchas empresas de IA comiencen a tener problemas legales. Las demandas por posibles violaciones de propiedad intelectual comenzaron a llegar muy pronto y se fueron haciendo cada vez más frecuentes.
¿Qué comenzaron a hacer las empresas de IA ante esas demandas (o la amenaza de que acabaran afectándolas)? Llegar a acuerdos con algunos proveedores de contenidos.
Antes algunas cogían todo lo que podían de plataformas como Reddit, pero ahora tanto Google como OpenAI han resuelto sus diferencias tras negociar distintos tipos de quid pro quo.
Y lo que ha pasado con Reddit ha pasado con grupos editoriales como Prisa o Le Monde, y seguirá ocurriendo en el futuro: así las grandes de la IA se protegen y pueden seguir alimentando sus modelos sin parar.
Perplexity y las gotas que colman los vasos
Pero hay comportamientos aún más conflictivos. Tenemos un ejemplo perfecto en Perplexity, que poco a poco se convirtió en una sorprendente alternativa a Google e incluso a la Wikipedia.

Aquí nos hemos encontrado no con un motor de búsquedas, sino, como apuntaban en The Verge, con un "motor de respuestas". El problema es cómo ha logrado hacer lo que hace.
Que no es ni más ni menos que robando.
Lo ha hecho aún en mayor medida que algunas de sus competidoras, porque esta startup está haciendo cosas inauditas. En primer lugar, está plagiando artículos enteros de otros medios. Lo hizo con un tema de Wired, por ejemplo.
En segundo, está saltándose los muros de pago de publicaciones como Forbes para poder recolectar información relativa a ciertos temas. No solo se saltó ese muro de pago, sino que apenas citó la investigación original de Forbes y plagió los gráficos e imágenes de ese tema.
El descubrimiento generó una nueva polémica en este ámbito. En Wired directamente acusaron a Perplexity de ser una máquina de hacer mierda, pero la empresa intentó salir al paso indicando que está debatiendo la forma de compartir ingresos con las publicaciones.
Esa empresa de inteligencia artificial no es la única en saltarse esos muros: estos días se ha revelado que Poe, el chatbot de la plataforma de preguntas y respuestas Quora, también lo hacía. Mientras que algunos expertos afirman que esto es una violación clara de los derechos de autor de esos contenidos, en Quora afirman que no es así y que se basan en servicios del tipo "leer más tarde" que cumplen con la ley.
Y entonces llegó el tercer y último descubrimiento a manos de un desarrollador llamado Robb Knight. Como explicó en su blog, en Perplexity estaban ignorando las directrices de los ficheros robots.txt que precisamente indican a los rastreadores de internet qué páginas rastrear y cuáles no.
Esos pequeños ficheros siempre han servido como forma de hacer que por ejemplo Google no mostrase en sus resultados ciertas partes de un sitio wbe, pero a los chicos de Perplexity les daba igual: ellos lo recolectaban absolutamente todo.
Srinivas echó balones fuera: no eran ellos quienes se los saltaban, sino las empresas que habían contratado para que rastrearan la web y suministraran más y más datos para su modelo de IA. Y cómo no, Perplexity no es la única en esquivar e ignorar los ficheros robots.txt: OpenAI y Anthropic hacen exactamente lo mismo.
Esa actitud ha hecho que por ejemplo Reddit se ponga en pie de guerra contra los scrapers, aunque la cosa ya venía de lejos. The New York Times, por ejemplo, demandó a Microsoft y a OpenAI porque no quiere que un chatbot mate al periodismo. Este diario ya publicó un reportaje en abril de 2024 avisando de cómo la voracidad de empresas como OpenAI, Google o Meta estaban (supuestamente) pasándose de la raya a la hora de entrenar sus modelos.
Pero es que ahí no acaba todo.
Así lo demostraba el responsable de IA de Microsoft, Mustafa Suleyman, que en una entrevista reciente con CNBC defendía esa recolección indiscriminada de datos en internet:
"Creo que con respecto al contenido que ya está en la web abierta, el contrato social de ese contenido desde los años 90 ha sido que es de uso justo. Cualquiera puede copiarlo, recrearlo, reproducirlo. Ese ha sido el "freeware", si se quiere, ese ha sido el entendimiento".
Esa afirmación es terrible, sobre todo porque asume justo lo que están asumiendo todas las grandes de internet. Que no es más ni menos que todo lo que publicamos en internet está ahí para que ellas hagan lo que quieran con ello.
Que es precisamente lo que están haciendo.
Imagen | Xataka con Freepik
Ver 14 comentarios
14 comentarios
dabelo
Creo que vosotros tampoco podeís tirar la primera piedra..., Fortune, the Verge, Tom's Hardware... son páginas a las que habeis plagiado artículos sin ningún reparo, todo depende si al final del artículo pones la fuente original o no.
Si Perpexlity no indica sus fuentes dónde obtiene la información y se beneficia de el esfuerzo de otros para obtener beneficios económicos, creo que ahí debe haber una compensación.
dani
La imagen de portada no está hecha con IA? Si es así, parece entonces más una profecía o un lloriqueo que la aportación de información o algún principio útil.
l0ck0
javier tu has pedido permiso para leer todos y cada uno de los textos que has leido?? por que segun tu articulo si no es asi... has robado
y tampoco nos aclaras que webs, libros y/o otras fuentas has utilizado en tu entrenamiento como escritor/columnista/periodista/loqueseas.
si una IA plagia o utiliza algun material que si requiere tener permiso especifico para acceder a el, que se la sancione como a cualquier persona que haga lo mismo.. pero dejar ya de repetir la tonteria de que se entrena con cosas sobre las que no tiene permiso por que TODOS nos entrenamos asi, un escritor no tiene el permiso de los autores de todos los blogs que lee, un dibujante no tiene los permisos la gente que pinta en la calle, ni un programador ni un alfarero..... nadie
t_r_a
habrá que llenar internet de mierda para cagar a todas estas IAs fraudulentas
Dyvap
Muy curiosa la moral actual.
Que te quiten sistemáticamente por la fuerza la mitad de tu salario, no es robar.
Que se cuelen en tu casa se lleven los muebles, la destrocen por dentro, te pasen a ti las facturas y no te dejen usarla, no es robar.
Ahora bien, usar información disponible públicamente que todo el mundo puede usar a la vez, para generar contenido nuevo del cual ni siquiera puede reconocerse la fuente original, si es robar.
No me gusta sacar las citas manidas de Orwell. Pero es que le estáis llamando paz a la guerra y guerra a la paz.
Rodri
El tratamiento y entrenamiento de los datos debería estar auditado, porque hemos pasado del internet de la nube al internet de la selva. Se requiere de una regulación y un control y no cruzar ciertas líneas que se están cruzando.
Pero el caso es que tampoco les falta razón en que ese contenido se puede copiar, recrear y reproducir etc. Es que es el mismo caso que el pirateo de música o cine, que lo llevamos haciendo toda la vida desde que internet es internet pero ahora como pueden robarnos a nosotros las fotos, las conversaciones, los artículos, las opiniones etc. nos parece mal.
joshuatloz
Para ser sincero, aún no me convence si quiera el hecho de que existan derechos de autor. Cuánto te puedes apropiar de una obra si siempre hubo alguien que avanzó en tu área antes que tú, no inventaste un lenguaje desde cero para construirla, no inventaste el computador ni los procesadores, no diste las gracias a toda la gente que aportó a la infraestructura eléctrica, vial y sanitaria, etc. para que puedas crear algo.
Los derechos de autor me parecen un afán individualista que se sostiene en un consenso muy arbitrario.
daniel3241
A mí no me importa en absoluto ya que esas empresas nos están ofreciendo una herramienta fantástica que nos ahorra muchísimo tiempo en buscar y desarrollar la solución. Tenemos que recordad que los seres humanos tambien aprendemos copiando desde los artistas hasta los ingenieros ó los científicos, todos usamos información ya creada para desarrollar algo nuevo y a veces algo muy parecido con pocas variaciones (y no pasa nada).
gorbea0
Los derechos de propiedad intelectual, patentes etc son un freno al desarrollo de la humanidad.
aerondight420
Internet siempre fue así, no hay nada nuevo. Tecnológicamente hablando, si querés hacer negocio en un lugar como internet y no invertís lo suficiente en seguridad como para evitar este tipo de uso indebido de información presuntamente privada, hay que atenerse a las consecuencias.
Existen métodos mucho mas eficaces para evitar el consumo de información sin autorización que un paywall, pero vamos, con tal de facturar lo mas rápido posible se van por la opción mas barata y después se quejan cuando su producto se ve comprometido.