A las GPU se les da bien la inteligencia artificial (IA). Extraordinariamente bien. Mejor, de hecho, que a las CPU. El motivo es que los algoritmos de IA se benefician de una arquitectura que prioriza el paralelismo masivo, que es precisamente lo que nos proponen las GPU, pero no las CPU. Jensen Huang, el director general de NVIDIA, se percató de esto hace mucho tiempo y decidió apostar por poner a punto unas versiones de sus GPU convencionales que reforzaban aún más aquellos bloques funcionales que tienen un impacto directo en el rendimiento de la IA.
El tiempo le ha dado la razón: hoy NVIDIA acapara aproximadamente el 80% del mercado de los chips para IA. Según la consultora AMR (Allied Market Research) en 2031 el mercado de los chips para aplicaciones de IA tendrá un volumen de facturación de más de 263.000 millones de dólares. Es una auténtica barbaridad, sobre todo si tenemos presente que en 2021 su negocio ascendió a poco más de 11.000 millones de dólares. Esta previsión de crecimiento intimida, y NVIDIA prevé absorber buena parte de este mercado en clara expansión.
Sus previsiones de ventas, de hecho, son tan altas que la compañía liderada por Jensen Huang está negociando con Intel la posibilidad de que se encargue de fabricar una parte de sus GPU en previsión de que TSMC no va a dar abasto y no va a conseguir satisfacer sus necesidades. De una cosa podemos estar seguros: en el futuro van a ser necesarios muchos más chips para IA. Sin embargo, hay algo que a menudo pasamos por alto y que preocupa a los responsables de los centros de datos: la energía que disipan las GPU en forma de calor requiere la puesta a punto de sistemas de refrigeración extremadamente eficaces.
El calor es el gran problema al que ya se enfrentan los centros de datos para IA
Los servidores para aplicaciones de IA integran habitualmente más procesadores de propósito general y más GPU que los servidores tradicionales. No lo decimos nosotros, aunque lo compartimos; lo defiende Chris Wei, un analista de la consultora taiwanesa MIC (Market Intelligence & Consulting Institute). Su arquitectura provoca que estos servidores consuman más energía que los convencionales, y esta característica tiene un impacto directo en dos componentes esenciales: la fuente de alimentación y el sistema de refrigeración.
Una GPU A100 de NVIDIA tiene un TDP de hasta 400 vatios y una GPU H100 roza los 700 vatios
Según Wei "el consumo de energía de un servidor para inteligencia artificial supera las capacidades de los sistemas de refrigeración por aire diseñados para estabilizar máquinas con un consumo de 300 vatios, lo que exige poner a punto tecnologías de refrigeración más sofisticadas y eficientes, como la refrigeración líquida". Tiene sentido. Sobre todo si tenemos presente que una GPU A100 de NVIDIA tiene un TDP de hasta 400 vatios; una GPU H100 roza los 700 vatios, y, por si estas cifras no fuesen ya lo suficientemente mareantes, la GPU de próxima generación B100 alcanzará los 1.000 vatios.
Por otro lado, según Chris Wei la penetración de los servidores para aplicaciones de inteligencia artificial frente al total de estas máquinas pasará del 12,4% actual al 20,9% en 2027. Dadas las circunstancias es evidente que los fabricantes de servidores van a tener que poner toda la carne en el asador para resolver los desafíos que plantea la correcta refrigeración de estas máquinas.
Algunos de ellos, como HP o Dell, ya están recurriendo a sistemas de refrigeración líquida avanzados que, sobre el papel, son capaces de lidiar con el calor que disipan las GPU para IA de última generación. Quién sabe, cabe la posibilidad de que los usuarios de PC podamos a medio plazo beneficiarnos del esfuerzo en innovación que están realizando los fabricantes de servidores en lo que se refiere a la refrigeración. Ojalá sea así.
Imagen de portada | Manuel Geissinger
Más información | Nikkei Asia
Ver 7 comentarios