Unos investigadores dicen haber creado una IA tan buena como las de OpenAI y DeepSeek por 50 dólares. Y el dato es real

El modelo de razonamiento de 's1' ha sido generado mediante destilación de Gemini 2.0 Flash Thinking Experimental
Su entrenamiento duró menos de 30 minutos empleando tan solo 16 chips H100 de NVIDIA

13 comentarios Facebook Twitter E-mail

7 Febrero 2025

Juan Carlos López

El coste del entrenamiento de los modelos de inteligencia artificial (IA) más avanzados está en el punto de mira. Y es comprensible que sea así. La irrupción del modelo de la compañía china DeepSeek, que presumiblemente tiene un coste de entrenamiento moderado, ha puesto en entredicho la estrategia y las inversiones desplegadas hasta ahora por OpenAI, Google o Microsoft, entre otras compañías.

Un breve repaso antes de seguir adelante: los responsables de DeepSeek sostienen que la infraestructura que han utilizado para entrenar su modelo aglutina 2.048 chips H800 de NVIDIA. Y también que este proceso con 671.000 millones de parámetros ha costado 5,6 millones de dólares. Sin embargo, algunos analistas defienden que estas cifras no reflejan la realidad.

El informe elaborado por SemiAnalysis sostiene que, en realidad, la infraestructura empleada por DeepSeek para entrenar su modelo de IA aglutina aproximadamente 50.000 GPU de NVIDIA con microarquitectura Hopper. Según Dylan Patel, AJ Kourabi, Doug O'Laughlin y Reyk Knuhtsen, al menos 10.000 de estos chips son GPU H100 de NVIDIA, y como mínimo otros 10.000 son GPU H800. Los chips restantes, según estos analistas, son las GPU recortadas H20.

El modelo 's1' echa más leña al fuego

El pasado 31 de enero un grupo de investigadores de la Universidad Stanford y la Universidad de Washington, ambas en EEUU, publicó en el repositorio de artículos científicos de acceso abierto arXiv un texto en el que asegura haber logrado entrenar un modelo de IA con capacidad de razonamiento y unas prestaciones equiparables a las de los modelos o1 de OpenAI o R1 de DeepSeek afrontando una inversión de algo menos de 50 dólares.

En Xataka

Hito en física cuántica: el MIT ha medido por primera vez la geometría de los electrones en el mundo cuántico

A bote pronto parece imposible. Con ese dinero a priori es absolutamente inviable entrenar un modelo de inteligencia artificial. Y menos uno avanzado y capaz de competir de tú a tú con los de OpenAI o DeepSeek. Sin embargo, es cierto. Para entender cómo lo han logrado es necesario que indaguemos en la estrategia que han ideado. Por un lado, esos 50 dólares representan el coste del alquiler de la infraestructura de computación en la nube a la que han recurrido para llevar a cabo el entrenamiento. Tiene sentido si el tiempo invertido es muy moderado.

's1' ha sido elaborado a partir del modelo de IA gratuito Qwen2.5-32B desarrollado por el laboratorio chino Qwen

Pero hay algo más. Algo muy importante. Su modelo de razonamiento, al que han llamado s1, ha sido elaborado a partir del modelo de inteligencia artificial gratuito Qwen2.5-32B desarrollado por el laboratorio chino Qwen, que pertenece a Alibaba. Y su proceso de razonamiento está inspirado en el modelo Gemini 2.0 Flash Thinking Experimental de Google. No han partido de cero en absoluto. Un apunte interesante: el modelo s1 está disponible en GitHub junto con los datos y el código utilizados por estos científicos para entrenarlo.

Por otro lado, el proceso de entrenamiento duró menos de 30 minutos empleando tan solo 16 chips H100 de NVIDIA pertenecientes a la red de computación en la nube utilizada por estos investigadores. De aquí sale el coste de algo menos de 50 dólares. No obstante, hay otro dato que merece la pena que no pasemos por alto: el modelo de razonamiento de s1 ha sido generado mediante destilación del modelo Gemini 2.0 Flash Thinking Experimental.

La destilación es, a grandes rasgos, una técnica de aprendizaje automático que permite transferir la base de conocimiento de un modelo grande y avanzado a otro mucho más pequeño y eficiente. Esta estrategia permite ahorrar muchísimos recursos, aunque no sirve para crear modelos desde cero. Más allá de los cacareados 50 dólares de coste lo realmente importante es que, como acabamos de comprobar, es posible poner a punto modelos de IA muy competitivos afrontando una inversión mucho más comedida que las realizadas por las grandes compañías de tecnología hasta ahora.

Imagen | Luis Gomes

Más información | arXiv | GitHub

En Xataka | Samsung se está preparando para dar un zarpazo a TSMC donde más le duele: la fabricación de los chips para IA