Las empresas que están creando los modelos de inteligencia artificial necesitan más y más datos para entrenarse e intentar ser más precisas y útiles. ¿De dónde cogen esos datos? De internet, y a menudo sin permiso. Que es justo de lo que se acaba de quejar Steve Huffman, CEO de Reddit.
O pagas, o te bloqueo. En una reciente entrevista Huffman explicaba cómo los acuerdos con empresas de IA como el que alcanzaron con Google son importantes. Sin ellos, afirmaba, "no tenemos poder de decisión ni conocimiento de cómo se muestran nuestros datos y para qué se utilizan". De hecho, destacaba cómo eso "nos ha puesto en la tesitura de bloquear a gente que no está dispuesta a llegar a un acuerdo sobre cómo queremos que se utilicen o no nuestros datos".
Críticas a Microsoft, Anthropic y Perplexity. El CEO de Reddit nombró específicamente a tres de las empresas claramente destacadas en este campo: Microsoft, Anthropic y Perplexity. Según él, estas empresas se niegan a negociar, lo que ha provocado que las bloqueen para que sus rastreadores no puedan recolectar datos de Reddit. No obstante, destaca, bloquearlas ha sido "un verdadero dolor de cabeza".
Robots.txt contra la IA. Ya hablamos de cómo Perplexity ha sido acusada de saltarse los ficheros robots.txt que limitan el alcance de los buscadores y rastreadores. Reddit pasó a la ofensiva y modificó dicho tipo de sistema, y eso provocó un efecto singular: de repente los resultados de Reddit solo aparecían en el buscador de Google, y no en otros como Bing.
El contenido de Reddit no es freeware. Huffman acusa a Microsoft de estar entrenando su IA y de usarlo en Bing "sin decírnoslo", pero además también explica que los datos de Reddit se están vendiendo a través de la API de Bing a otros buscadores. Según él, en Microsoft están siguiendo la filosofía de su nuevo responsable de IA, Mustafa Suleyman, que indicó recientemente que para él todo lo que está públicamente en internet es freeware y se puede usar libremente.
Microsoft responde. Jordi Ribas, responsable de búsquedas en Microsoft, comentó en X que "Reddit ha bloqueado a Bing en el rastreo de su sitio para las búsquedas, favoreciendo a otro buscador e impactando la competencia con Bing y otros motores basados en Bing".
Reddit protege lo suyo. La medida de Reddit está orientada a proteger esos contenidos y evitar que otros los aprovechen sin pagar. Es un argumento razonable, aunque una vez más lo que parece quedar oculto es el hecho de que quienes han generado ese contenido somos nosotros, los usuarios.
En Xataka | Se suponía que el buscador de Google distribuía a sus usuarios al resto de la web. Se suponía
Ver 4 comentarios