China sigue pisando el acelerador con la IA. Lo demuestra el nuevo y gigantesco modelo de DeepSeek

  • Con 671.000 millones de parámetros, es un 60% más grande que el ya de por sí enorme Llama 3.1 405B

  • Ha sido entrenado con una inversión mínima en comparación con la que necesitó GPT-4

  • Pero según sus responsables, compite de tú a tú con él y demuestra el avance de la IA china

Robot1
Sin comentarios Facebook Twitter Flipboard E-mail

Una startup china llamada DeepSeek acaba de lanzar DeepSeek V3, un LLM absolutamente gigantesco que está disponible con una licencia MIT "abierta" que permite a los desarrolladores descargarlo de GitHub y modificarlo para diversos escenarios, incluyendo algunos comerciales.

Rendimiento prometedor. Según las pruebas internas, DeepSeek V3 supera a modelos de IA Open Source como a otros propietarios y que solo pueden usarse a través de una API. En pruebas como la de programación de Codeforces el modelo chino logró superar a Llama 3.1 405B, a GPT-4o y a Qwen 2.5 72B, aunque todos ellos tienen muchos menos parámetros y eso puede influir en el rendimiento y las comparaciones. Solo Claude 3.5 Sonnet parece resistir su capacidad, y superó o igualó al modelo chino en varias pruebas.

Entrenamiento eficiente y barato pero voraz. Según sus responsables, DeepSeek V3 "solo" necesitó 2,788 millones de horas de entrenamiento en 2.048 GPUs H800, las versiones capadas de las H100 de NVIDIA. Según sus responsables el entrenamiento costó tan solo 5,5 millones de dólares, y se estima que para entrenar GPT-4 OpenAI invirtió cerca de 80 millones de dólares. Para entrenarlo utilizaron un conjunto de datos (dataset) con 14,8 billones de tokens, una cifra igualmente enorme: un millón de tokens equivale aproximadamente a 750.000 palabras. Andrej Karpathy, cofundador de OpenAI (desde hace meses fuera de la empresa) se mostró sorprendido por esa eficiencia y reducido coste del entrenamiento.

Un 60% más grande que Llama 3.1 405B. Meta tenía hasta ahora uno de los modelos de IA más grandes del mercado con 405.000 millones de parámetros (405B). El modelo de DeepSeek llega a los 671B, casi un 66% más. La pregunta, claro, es si tantos parámetros sirven de algo.

Cuantos más parámetros, (normalmente) mejor. El número de parámetros suele tener una fuerte relación con la capacidad de los modelos. Los modelos de IA que corren localmente en nuestros PCs o móviles suelen tener muchos menos (3B, 7B, 14B suelen ser sus tamaños) y los que se ejecutan en centros de datos son capaces de ser mucho más grandes y capaces tanto en precisión como en opciones y potencia, como ocurre con DeepSeek V3. Pero claro, cuanto más grandes son más recursos de computación necesitan para ser usados con cierta fluidez.

Dos innovaciones para lograr mejorar. DeepSeek V3 hace uso de una arquitectura Mixture-of-Experts que solo activa algunos parámetros de forma óptima para procesar diversas tareas de forma eficiente. Sus responsables han introducido dos mejoras llamativas en este nuevo modelo. La primera, una estrategia de balanceo de carga que monitoriza y ajusta la carga en los "expertos". La segunda, un sistema de predicción de tokens. La combinación de ambas permite que la generación de tokens triplique la de DeepSeek V2: ahora llega a 60 tokens por segundo al usar el mismo hardware que su predecesor.

China coge carrerilla. Este nuevo modelo "abierto" es la última demostración del gran avance que China está haciendo a pesar de los cortapisas de la guerra comercial con Estados Unidos. DeepSeek ya nos sorprendió hace poco más de un mes con su modelo DeepSeek-R1, capaz de competir con o1 de OpenAI en el ámbito del "razonamiento" por IA. Y otras startups y grandes empresas de tecnología chinas siguen trabajando de forma frenética, y los frutos son visibles y prometedores. Y además, con un enfoque Open Source que los hace especialmente interesantes para investigadores y académicos.

Imagen | Xataka con Freepik Pikasso

En Xataka | China iba a la zaga en IA, pero no para de lanzar modelos cada vez más avanzados. Y muy socialistas

Inicio