OpenAI ha cogido todo lo que ha querido de internet para entrenar su IA. Ahora acusa a DeepSeek de robar sus datos

Los responsables de OpenAI creen que DeepSeek ha destilado sus modelos
La técnica es muy común en el ámbito de la IA, pero OpenAI la prohíbe en sus términos de servicio
OpenAI ha sido acusada de entrenar sus modelos con datos sin el consentimiento de sus propietarios, incluidas obras con copyright

19 comentarios Facebook Twitter E-mail

29 Enero 2025 Actualizado 30 Enero 2025, 08:14

Javier Pastor

Los modelos de IA de DeepSeek son realmente buenos. Lo demuestran las pruebas comparativas que publicamos ayer y que lo ponen al nivel de ChatGPT, Claude o Gemini. Eso ha desatado alabanzas, pero también suspicacias. Hay gente que no se cree que entrenar DeepSeek haya costado apenas 5,6 millones de dólares, pero es que además ahora en OpenAI acusan a DeepSeek de otra cosa.

DeepSeek, estás usando nuestros datos sin permiso. Portavoces de la OpenAI han indicado a Financial Times que han descubierto pruebas de que se han usado técnicas de "destilado" de los modelos de OpenAI usadas por DeepSeek.

¿Qué es eso del "destilado" en la IA? Ayer hablamos de cómo los desarrolladores de DeepSeek han utilizado un gran número de técnicas para lograr un modelo así de eficiente. Entre ellas destaca el aprendizaje por refuerzo, pero también se sabe que usan el destilado de modelos. En esta técnica se enseña a un "modelo alumno" más pequeño a comportarse como un "modelo profesor" más grande y avanzado. Se usan datos del "modelo profesor" para que el modelo pequeño sea más rápido y eficiente, pero igual de inteligente en tareas específicas.

En Xataka

El precio a pagar por tener IA es el saqueo de todo el contenido de Internet. Y Perplexity es solo el último ejemplo

Uso no permitido. El destilado o destilación de modelos es una práctica común en la industria, pero los términos de servicio de OpenAI prohíben que sus modelos sean usados con este fin. Así, se especifica que los usuarios no pueden "copiar" ninguno de sus servicios ni tampoco "usar la salida [de los modelos de OpenAI] para desarrollar modelos que compitan con los de OpenAI".

OpenAI y Microsoft ya investigaron sobre esto. Según Bloomberg, ambas empresas analizaron el pasado otoño cuentas que se estaban usando para aprovechar sus chatbots y que al parecer pertenecían a los desarrolladores de DeepSeek. Usaban la API de OpenAI, pero hubo sospechas de que habían violado los términos de servicio al aprovechar ese acceso para hacer destilado de sus modelos.

Captura De Pantalla 2025 01 29 A Las 10 13 40

Muchos lo hacen. David Sacks, responsable de IA en el equipo de Donald Trump, le alertó de lo que estaba pasando y aseguró que había pruebas de que DeepSeek había usado datos de OpenAI. Portavoces de la empresa dirigida por Sam Altman indicaron que "sabemos que empresas de la República Popular China –y otras– están constantemente tratando de destilar los modelos de empresas líderes en IA en EEUU".

Se cree el ladrón que todos son de su condición. Lo irónico aquí es que OpenAI no ha tenido escrúpulos a la hora de recolectar datos de internet para entrenar sus modelos, violando también los términos de servicio de esas plataformas. El año pasado se descubrió por ejemplo cómo transcribió un millón de horas de YouTube para entrenar a GPT-4. Timnit Gebru, célebre por su polémico despido de Google, comentaba en LinkedIn que OpenAI "debe ser la compañía más insufrible del mundo". Y continuaba: "pueden robar al mundo entero y engullir todos los recursos posibles. Pero nadie puede darles a probar su propia medicina ni siquiera un poco".

Si está en internet, se puede usar, ¿no? Otras empresas hacen exactamente lo mismo, y se escudan en el argumetno del "uso justo". Recolectan cualquier contenido público en internet sin pedir permiso a los usuarios o a las plataformas. No solo eso: se sospecha que en muchos casos se entrenan esos modelos con obras protegidas por los derechos de autor, algo que ha dado lugar a numerosas demandas.

Imagen | TechCrunch

En Xataka | La siguiente fase de la IA no es ver quién invierte más sino quién invierte menos