El coste del entrenamiento de los modelos de inteligencia artificial (IA) más avanzados está en el punto de mira. Y es comprensible que sea así. La irrupción del modelo de la compañía china DeepSeek, que presumiblemente tiene un coste de entrenamiento moderado, ha puesto en entredicho la estrategia y las inversiones desplegadas hasta ahora por OpenAI, Google o Microsoft, entre otras compañías.
Un breve repaso antes de seguir adelante: los responsables de DeepSeek sostienen que la infraestructura que han utilizado para entrenar su modelo aglutina 2.048 chips H800 de NVIDIA. Y también que este proceso con 671.000 millones de parámetros ha costado 5,6 millones de dólares. Sin embargo, algunos analistas defienden que estas cifras no reflejan la realidad.
El informe elaborado por SemiAnalysis sostiene que, en realidad, la infraestructura empleada por DeepSeek para entrenar su modelo de IA aglutina aproximadamente 50.000 GPU de NVIDIA con microarquitectura Hopper. Según Dylan Patel, AJ Kourabi, Doug O'Laughlin y Reyk Knuhtsen, al menos 10.000 de estos chips son GPU H100 de NVIDIA, y como mínimo otros 10.000 son GPU H800. Los chips restantes, según estos analistas, son las GPU recortadas H20.
El modelo 's1' echa más leña al fuego
El pasado 31 de enero un grupo de investigadores de la Universidad Stanford y la Universidad de Washington, ambas en EEUU, publicó en el repositorio de artículos científicos de acceso abierto arXiv un texto en el que asegura haber logrado entrenar un modelo de IA con capacidad de razonamiento y unas prestaciones equiparables a las de los modelos o1 de OpenAI o R1 de DeepSeek afrontando una inversión de algo menos de 50 dólares.
A bote pronto parece imposible. Con ese dinero a priori es absolutamente inviable entrenar un modelo de inteligencia artificial. Y menos uno avanzado y capaz de competir de tú a tú con los de OpenAI o DeepSeek. Sin embargo, es cierto. Para entender cómo lo han logrado es necesario que indaguemos en la estrategia que han ideado. Por un lado, esos 50 dólares representan el coste del alquiler de la infraestructura de computación en la nube a la que han recurrido para llevar a cabo el entrenamiento. Tiene sentido si el tiempo invertido es muy moderado.
's1' ha sido elaborado a partir del modelo de IA gratuito Qwen2.5-32B desarrollado por el laboratorio chino Qwen
Pero hay algo más. Algo muy importante. Su modelo de razonamiento, al que han llamado s1, ha sido elaborado a partir del modelo de inteligencia artificial gratuito Qwen2.5-32B desarrollado por el laboratorio chino Qwen, que pertenece a Alibaba. Y su proceso de razonamiento está inspirado en el modelo Gemini 2.0 Flash Thinking Experimental de Google. No han partido de cero en absoluto. Un apunte interesante: el modelo s1 está disponible en GitHub junto con los datos y el código utilizados por estos científicos para entrenarlo.
Por otro lado, el proceso de entrenamiento duró menos de 30 minutos empleando tan solo 16 chips H100 de NVIDIA pertenecientes a la red de computación en la nube utilizada por estos investigadores. De aquí sale el coste de algo menos de 50 dólares. No obstante, hay otro dato que merece la pena que no pasemos por alto: el modelo de razonamiento de s1 ha sido generado mediante destilación del modelo Gemini 2.0 Flash Thinking Experimental.
La destilación es, a grandes rasgos, una técnica de aprendizaje automático que permite transferir la base de conocimiento de un modelo grande y avanzado a otro mucho más pequeño y eficiente. Esta estrategia permite ahorrar muchísimos recursos, aunque no sirve para crear modelos desde cero. Más allá de los cacareados 50 dólares de coste lo realmente importante es que, como acabamos de comprobar, es posible poner a punto modelos de IA muy competitivos afrontando una inversión mucho más comedida que las realizadas por las grandes compañías de tecnología hasta ahora.
Imagen | Luis Gomes
Ver 13 comentarios
13 comentarios
Xavi
A ver... si han destilado el modelo Gemini 2.0 flash, entonces el dato es falso. Ha costado 50 dólares la destilación, pero el entrenamiento del modelo base seguramente para Google ha sido del orden de varios millones.
medarde
aqui al final le vamos a decir a las inteligencias artificiales lo de "y parecia tonto cuando los compramos en el rastro."
reiizumi
Por lo que entiendo del artículo, no han creado una IA, han creado una versión mini de una IA pre-existente.
Sería como publicar el resumen de un libro alegando que es un libro nuevo.
Gody
1 . " haber creado una IA tan buena como las de OpenAI y DeepSeek por 50 dólares. Y el dato es real "
2 . "La destilación es, a grandes rasgos, una técnica de aprendizaje automático que permite transferir la base de conocimiento de un modelo grande y avanzado a otro mucho más pequeño y eficiente."
Creado = Destilar, Transferir, copiar.
Raro.
ericroda365
Yo lo hago por la mitad ¡¡Sujétame el cubata!!
relectron
¿16 chips H100 de NVIDIA por 50 dólares?
albertopina1
Me recuerda al gag de José Mota de "Grandes Obras de la literatura Muy Rápido"
fomlimalma
Yo puedo destilar el destilado por 50 centavos.... si de eso se va a tratar la carrera de la IA pues la burbuja implosionara por si sola
amigo2025
la verdad que no me lo creo
glifcolze
Yo me descargué una copia pirata de Fotochop por solo 0,01€. Y es tan bueno como el propio fotochop con un coste ínfimo.
martintonoli
Viendo los comentarios, claramente no entendieron el punto de la nota. Pero también es evidente que son zurdos, así que se entiende. La "noticia" no es este modelo en sí, sino que demuestra lo que se está descubriendo sobre deepseek