Los chips de IA de AMD son mejores que los de NVIDIA. El problema no es el hardware, es el software

Parece que hoy en día NVIDIA es la única opción real si alguien quiere entrenar modelos de IA a toda máquina. En realidad hay varias alternativas cada vez más prometedoras, y una de ellas es la que AMD plantea con sus chips MI300X. ¿Pueden esas tarjetas aceleradoras de IA realmente superar la propuesta de NVIDIA?

Una de cal, otra de arena. La respuesta tiene dos caras contradictorias. Lo explican en SemiAnalisys, donde han realizado un extenso análisis de las MI300X frente a las H100 y H200 de NVIDIA. Como explican, en teoría las MI300X debería tener una gran ventaja sobre esas propuestas de NVIDIA, porque sobre el papel las especificaciones son superiores en ámbitos tan importantes como la cantidad de memoria que integran, su ancho de banda o su rendimiento en TFLOPS.

La hoja de especificaciones de los chips de AMD deja claro que sobre el papel esta opción es más interesante que las de NVIDIA. Fuente: SemiAnalysis

El hardware gana, el software no. El problema de AMD no está en sus chips de IA, sino en la plataforma software que trata de sacar provecho de dichos chips. Según SemiAnalysis, "la experiencia software está plagada de errores que hacen que entrenar [modelos de IA] con AMD sea imposible". Aunque los responsables de estos análisis han colaborado con AMD para comunicar fallos y eso ha permitido mejorar sensiblemente la situación, el software de AMD disponible para desarrolladores de IA es hoy por hoy inferior al de NVIDIA.

Los TFLOPS importan tanto como los Mpíxeles. En una analogía interesante, los expertos indican que comparar TFLOPS no sirve de mucho en este ámbito, y es como comparar los Mpíxeles de las cámaras de los móviles. Más no significa necesariamente mejor.

Comparar TFLOPS sin más no sirve de mucho en este ámbito, y es como comparar los Mpíxeles de las cámaras de los móviles. Más no significa necesariamente mejor.

El coste total de propiedad es peor. Las pruebas y benchmarks realizados mostraron cómo el lastre del software hace que el coste total de propiedad (TCO) de las MI300X sea mayor que el de NVIDIA: a una empresa le sale más barato usar chips y software de NVIDIA, aunque eso podría cambiar si AMD logra solventar todos los problemas actuales.

Necesitan muchos más tests internos. Tras el análisis, una de las conclusiones de estos expertos es que AMD necesita hacer "dogfooding", es decir, mucho más pruebas y uso real a nivel interno. Eso permitiría a los ingenieros y desarrolladores de AMD atajar los problemas antes de dar salida a estos chips en el futuro. De hecho, afirman que la MI300 "no es usable al sacarla de la caja, y necesita una considerable cantidad de trabajo y ajuste" para poder ser usada en el ámbito de la IA.

CUDA es mucho CUDA. La gran baza actual de NVIDIA con sus chips de IA no está realmente tan centrada en los chips, sino en CUDA, que se ha convertido en el estándar de facto en la industria de la IA. Empresas y desarrolladores trabajan con esta plataforma que lleva años evolucionando —nosotros ya hablábamos de ella en 2008— y mejorando con nuevas librerías y funciones. La experiencia aquí es un grado, y NVIDIA está sacando mucho partido de esa circunstancia.

(Casi) Todos contra CUDA. Mientras, los competidores de NVIDIA tienen claro que efectivamente esta plataforma es el verdadero rival a batir. Intel de hecho lidera una alianza que persigue arrebatar a NVIDIA el dominio del mercado de la IA, y Pat Gelsinger ya declaró esa ambición a finales de 2013 aunque ahora habrá que ver qué hace Intel tras su salida. Jensen Huang, eso sí, parece tener claro que nadie les bajará de su pedestal.

En Xataka | La carrera de los chips de 2 nm arrancará en 2025. Y será la más encarnizada de todas