La GPU para inteligencia artificial (IA) B200 está dando a NVIDIA algunos quebraderos de cabeza. Demasiados, quizá. Cuando la compañía liderada por Jensen Huang dio a conocer este chip en marzo de este año era evidente que tenía entre manos una auténtica bestia. Sus características son de las que quitan el hipo: 208.000 millones de transistores, arquitectura 'Blackwell' de última generación, 20 petaFLOPS máximos de rendimiento en operaciones FP4 si está acompañado de refrigeración líquida, puede trabajar codo con codo con un mapa de memoria de hasta 192 GB de VRAM y alcanza un ancho de banda de 8 TB/s.
La industria de la IA parecía estar expectante, pero, sorprendentemente, esta GPU ha tardado en llegar. Más de lo que cabía esperar en un principio. De hecho, las primeras unidades de este chip han sido entregadas por NVIDIA a sus clientes durante las últimas semanas. En agosto NVIDIA confesó que el rendimiento de sus procesos de fabricación era inferior al esperado, lo que obligó a sus ingenieros a rediseñar algunas capas del chip con el propósito de subsanar un problema que ha demorado la entrega de las primeras unidades.
"Nos vimos obligados a introducir un cambio en la máscara de la GPU Blackwell para mejorar el rendimiento de la producción", admitió NVIDIA en un comunicado. En estas circunstancias Jensen Huang no escurrió el bulto: "La culpa fue de NVIDIA al 100%. Tuvimos un fallo de diseño en Blackwell. Era un chip funcional, pero el defecto provocaba un bajo rendimiento [...] Los informes que describen tensiones entre NVIDIA y TSMC son falsos". Presumiblemente este problema ya está resuelto, pero acaba de aparecer otro. Y sí, está vinculado a la GPU B200.
Algunos clientes de NVIDIA se quejan debido al sobrecalentamiento de la GPU B200
Según Reuters algunos de los primeros clientes de NVIDIA que han recibido servidores equipados con la GPU B200 han notificado que estos equipos se sobrecalientan cuando se instalan juntos en racks diseñados para aglutinar hasta 72 chips. En estas instalaciones es normal instalar racks que incorporan grandes cantidades de chips de alta integración con el doble propósito de aprovechar el espacio disponible al máximo e incrementar la potencia de la infraestructura tanto como sea posible. No obstante, como podemos intuir, uno de los desafíos que conlleva la puesta a punto de una instalación como esta no es otro que garantizar la correcta refrigeración de todos los componentes.
NVIDIA ha reconocido que el problema existe. De hecho, ha pedido a sus proveedores, de nuevo según Reuters, que cambien el diseño de los racks varias veces con el propósito de optimizar el sistema de refrigeración. "NVIDIA está trabajando con los principales proveedores de servicios en la nube como una parte integral de nuestro equipo y nuestro proceso de ingeniería. Las iteraciones en el ámbito de la ingeniería son normales y previsibles", ha asegurado un portavoz de la compañía liderada por Jensen Huang en un claro intento de transmitir confianza.
Ya van dos tropiezos en relativamente poco tiempo, y no es habitual en una empresa que no suele dar una sola puntada sin hilo. Como acabamos de ver, NVIDIA está trabajando mano a mano con sus proveedores y clientes para resolver los problemas de refrigeración de los servidores equipados con la GPU B200, y con toda probabilidad lograrán su objetivo.
Pese a todo es inevitable observar que probablemente la altísima demanda de chips para IA está provocando que NVIDIA se precipite. Presumiblemente los dos fallos de los que hablamos en este artículo podrían haberse evitado con unos procesos de desarrollo, verificación y test más minuciosos y lentos. El mercado manda, sí, pero las prisas a menudo desencadenan errores que pueden evitarse cuando los procesos de ingeniería y los tiempos se respetan de una forma escrupulosa.
Imagen | NVIDIA
Más información | Reuters
En Xataka | Huawei quiere devorar a NVIDIA en el mercado chino. Para lograrlo trabaja en una nueva GPU para IA
Ver todos los comentarios en https://www.xataka.com
VER 5 Comentarios