La escasez de datos para entrenar modelos de IA supone un punto de inflexión histórico. El uso de datos sintéticos es una alternativa no exenta de riesgos
La IA está cerca de agotar todos los datos disponibles en Internet para su entrenamiento, según ha dicho alguien que conoce bien esta industria: Elon Musk, propietario de X y CEO de xAI, entre otras empresas.
Su solución pasa por cruzar el Rubicón del entrenamiento de modelos: utilizar datos sintéticos. Es decir, que la propia IA genere los datos con los que aprenderá.
Por qué es importante. La escasez de datos para entrenar modelos marcará el punto de inflexión en el desarrollo de la IA. Y podría ralentizar el ritmo de avance tecnológico tal y como lo conocemos tras los últimos años.
El contexto. Los grandes modelos de lenguaje necesitan enormes cantidades de datos e información para mejorar su rendimiento. El agotamiento de estos datos reales disponibles, generados por humanos mediante las vías tradicionales, fuerza a la industria a buscar alternativas válidas con las que seguir mejorando productos como los chatbots o los generadores de imágenes.
- La idea no es nueva, ya se ha aplicado con otros proyectos de IA. Gartner estimó que el 60% de los datos usados en proyectos de IA durante 2024 fueron generados sintéticamente. Microsoft, OpenAI, Anthropic, Meta... están recurriendo a ello.
- Palmyra X 004, un modelo diseñado para potenciar aplicaciones de IA ya existentes, fue entrenado así. Costó 700.000 dólares.
- El coste estimado para un modelo de tamaño comparable de OpenAI es de 4,6 millones de dólares.
¿Cuál es la diferencia con lo que plantea Musk? Que el uso de datos sintéticos ha sido hasta ahora un complemento a datos reales, no un reemplazo total. Y según él, pronto serán la única fuente de entrenamiento posible.
Entre líneas. No es la primera señal similar que envía un peso pesado de la industria. Ilya Sutskever, excientífico jefe de OpenAI, ya hizo una advertencia muy parecida en diciembre: "Hemos alcanzado el pico de datos y no habrá más".
- El problema está en que los datos sintéticos pueden crear un bucle cerrado donde los sesgos y las limitaciones se amplifiquen.
- Eso llevaría al colapso del modelo por una pérdida progresiva de creatividad y de precisión.
Pese a esos riesgos, la industria está adoptándolos.
En Xataka | La IA ya entiende la física del mundo real: NVIDIA Cosmos es el primer paso para los robots inteligentes
Imagen destacada | Xataka con Midjourney
Ver todos los comentarios en https://www.xataka.com
VER 25 Comentarios