Las webs están utilizando este método para frenar a los scrapers de IA. El problema: pueden ignorarlo sin esfuerzo

Los datos se han convertido en uno de los tesoros más codiciados de estos tiempos. No estamos hablando de cualquier tipo de datos, sino de aquellos que son relevantes para entrenar modelos de lenguaje que impulsan aplicaciones de inteligencia artificial (IA) como ChatGPT de OpenAI, Claude de Anthropic y Gemini de Google.

Una práctica habitual para conseguir datos es el web scraping. Las compañías suelen utilizar bots automatizados (propios o de terceros) para extraer información de millones de páginas web y así preparar enormes conjuntos de datos para alimentar sus algoritmos. Ahora bien, no todo el mundo está de acuerdo con esta dinámica.

Robots.txt como herramienta para frenar a los scrapers

Plataformas de todos los tamaños han comenzado a tomar medidas para evitar que los bots se lleven sus datos sin pedir permiso o sin pagar. The New York Times, que ya interpuso varias demandas, actualizó sus términos y condiciones para cumplir con este objetivo. Reddit, que se alió con algunas compañías, actualizó su archivo robots.txt.

Robots.txt es uno de los recursos más utilizados en la web para administrar la actividad de los bots hambrientos de datos. El problema es que se trata de un conjunto de instrucciones de cumplimiento voluntario. Los bots “malos” pueden ignorar este archivo e incluso utilizarlo como guía para recopilar más fácilmente los datos que se quieren proteger.

Imagínate a robots.txt como un cartel que establece las normas que deben seguir todos aquellos que ingresen a un vecindario. Algunas personas no dudarán en respetarlo, mientras que otras no tendrán problema alguno en ignorarlo. Volviendo al escenario de los bots, parece que hay muchos bots que están haciendo esto último.

Como recoge Financial Times, las plataformas iFixit.com y Freelancer.com han acusado a Anthropic ignorar las instrucciones de robots.txt de no extraer datos. Kyle Wiens, CEO de la primera compañía, dijo que el bot de Anthropic ha hecho saltar todas las alarmas de tráfico que tienen y que han detectado 1 millón de visitas en 24 horas.

Ejemplo de un archivo robots.txt

Wiens añadió que los términos de iFixit prohíben el uso de sus datos para tareas de aprendizaje automático, por lo que la actividad detectada por Anthropic puede ser ilegal si la compañía está recopilando datos para entrenar sus modelos de lenguaje. Anthropic, por su parte, ha dicho que su bot respeta las instrucciones de los robots.txt.

Como decimos, la mayoría de las compañías de IA de las que hablamos hoy en día toman datos de la web abierta para entrenar sus modelos de lenguaje. Ahora bien, hay poca información detallada sobre de dónde provienen los datos de muchos modelos populares. OpenAI, por ejemplo, dice que ha entrenado GPT-4 “utilizando tanto datos disponibles públicamente (como datos de Internet) como datos con licencia de proveedores externos”.

En Xataka

ChatGPT llega a los implantes cerebrales de Synchron. Un 'click' mental que puede cambiar vidas

Apple, por su parte, dice que entrena sus modelos de IA con “datos con licencia, incluidos los datos seleccionados para mejorar funciones específicas, así como los datos disponibles públicamente recopilados por nuestro rastreador web, AppleBot. Asimismo, la compañía asegura que cumple a rajatabla las directivas de los archivos robots.txt.

Imágenes | Xataka con Bing Image Creator

En Xataka | El precio a pagar por tener IA es el saqueo de todo el contenido de Internet. Y Perplexity es solo el último ejemplo

Las webs están utilizando este método para frenar a los scrapers de IA. El problema: pueden ignorarlo sin esfuerzo

Se trata de robots.txt, un protocolo de cumplimiento voluntario

Los bots "malos" pueden incluso utilizarlo para extraer los datos que deberían omitir

Robots.txt como herramienta para frenar a los scrapers

Explora en nuestros medios

Robots.txt como herramienta para frenar a los scrapers

Recibe "Xatakaletter", nuestra newsletter semanal

Explora en nuestros medios