La publicación del modelo V3 de la inteligencia artificial (IA) DeepSeek como código abierto es una bendición. Y lo es debido a que poco a poco vamos conociendo con detalle la estrategia que han pergeñado los ingenieros de esta compañía china para poner a punto un modelo de IA tan eficiente. Antes de seguir adelante con este artículo es importante que tengamos presente que DeepSeek asegura que ha entrenado su modelo utilizando tan solo 2.048 chips H800 de NVIDIA.
Algunos analistas defienden que, en realidad, su infraestructura aglutina 50.000 GPU H100 compradas a través de intermediarios, pero por el momento es solo una conjetura. Este chip es más potente que el H800, pero es perfectamente creíble que DeepSeek se haya visto obligada a conformarse con este último debido a que las sanciones del Gobierno de EEUU han impedido el acceso de las empresas chinas a la GPU H100. De hecho, desde noviembre de 2023 NVIDIA tampoco puede entregar a sus clientes chinos su chip H800.
Una de las claves del éxito de DeepSeek se llama PTX
En la receta del trepidante crecimiento que ha experimentado NVIDIA durante los últimos cinco años no intervienen solo sus GPU; la tecnología CUDA (Compute Unified Device Architecture) también tiene un rol esencial en su negocio. La mayor parte de los proyectos de IA que se están desarrollando actualmente están implementados sobre CUDA. Esta tecnología aglutina el compilador y las herramientas de desarrollo utilizados por los programadores para desarrollar su software para las GPU de NVIDIA, y reemplazarla por otra opción en los proyectos que ya están en marcha es un problema.
Huawei, que aspira a hacerse con una porción importante de este mercado en China, tiene CANN (Compute Architecture for Neural Networks), que es su alternativa a CUDA, pero por el momento CUDA domina el mercado. Además, esta herramienta de NVIDIA pone en las manos de los programadores un lenguaje de alto nivel que les permite acceder al hardware de la GPU de una manera asequible. Aun así, y llegamos al corazón de este artículo, los ingenieros de DeepSeek no han empleado CUDA para desarrollar su IA: han utilizado PTX (Parallel Thread Execution).
Los ingenieros de DeepSeek han decidido utilizar PTX para sacar el máximo partido posible a las GPU H800 que tenían en su poder
Este lenguaje es similar al ensamblador. De hecho, de alguna manera es el ensamblador que propone NVIDIA a los desarrolladores que utilizan sus GPU y necesitan implementar optimizaciones de bajo nivel en su código. Programar con PTX es más difícil y laborioso que hacerlo con CUDA, pero conlleva la ventaja de que permite a los desarrolladores escribir un código más eficiente, y, por tanto, capaz de aprovechar mejor los recursos que les ofrece el hardware de la GPU.
Presumiblemente los ingenieros de DeepSeek han decidido utilizar PTX para sacar el máximo partido posible a las GPU H800 que tenían en su poder. Una de las estratagemas que han ideado ha consistido en asignar solo 20 SM (Streaming Multiprocessors) de cada GPU a la comunicación entre los servidores, lo que les ha permitido dedicar los 112 SM restantes de cada chip a procesos de cálculo. En esencia, DeepSeek ha sido construido desde cero recurriendo a este tipo de optimizaciones, lo que en gran medida explica por qué este modelo de IA es tan eficiente.
Los programadores de esta compañía china objetivamente han materializado un logro en el ámbito de la ingeniería que con toda probabilidad va a tener un impacto profundo en la forma en que los desarrolladores de modelos de IA van a afrontar sus proyectos en el futuro. Esta es la prueba palpable de que China se está adaptando con éxito a la escasez de GPU que han desencadenado las sanciones de EEUU en sus empresas.
Imagen | NVIDIA
Más información | Mirae Asset Securities Korea
Ver 25 comentarios
25 comentarios
sergiorivera1
Yo solo diré que es bueno tener otras alternativas y en GPU es bueno que vayan viéndo también es peligroso solo depender de un proveedor y amarrarse al hardware el día de mañana te revienta el precio en X3 X10 lo que ellos quieran y listo me vas a comprar si o si porque no tienes otra opción
Avengis
Buen artículo, gracias
xevi.lopez.79
Ok, da a entender que con PTX, debes ser un programador de los de verdad, nada de librerías compiladas por terceros que son más fáciles de usar, pero posiblemente peores en rendimiento y así conseguir mejor resultado
BiggaBeat
Todavía no lo he usado mucho, pero por favor preguntadle a Deepseek quienes son sus creadores jajajajaja
jesusmartinezzarate1
Los programadores chinos que no sabían programar muy bien en PTX estuvieron ayudándose de Ghatgpt para crear código y sacar Deepseek, una jugada maestra.
adomargon
🤣🤣🤣 programando en ensamblador como en los 70s u 80s
deskrado
Bueno por lo menos sabemos cómo lo han hecho y los demás seguro que ya están trabajando en ello... Y venga a destilar modelos piratillas ahi que ya hay tropecientos y es todo un mareo. En el movil tengo 4 modelos en local para comparar y ahora esta quen...con ChatterUI. Recomiendo
MDEBARCELONA
El éxito de esta IA china es evidente e inegable pero pienso también que la empresa que la creó es una humilde y pequeña sociedad pantalla del gobierno chino que puso todo su talento estratégico y sus formidables informaticos a nivel nacional para crear esa IA.
deadcrowd
Deepseek es una mierda, estuve varios días para que me dejase loguearme, y cuando ya me deja usarlo, cada dos o tres preguntas me dice que el serve está saturado y no puede contestarme
alcyone
PTX es de NVIDIA
fomlimalma
Si todo eso es cierto. O sea la culpa de que entrenar IA salga caro la tiene el mismo Nvidia
neohubemx
Eso es mentira todo mundo sabe que el fondo de inversión propietario de esta IA compró miles de chips de Nvidia desde que comenzaron los rumores del bloqueo y aún más a través de terceros Ya estando el bloqueo.
Eso de que la entrenaron con chips de tostadoras de los años 80 es más propaganda china que otra cosa.