Meta lanza MusicGen, una AI generativa que transforma textos y melodías en nuevas canciones. Y es Open Source

Sonata
1 comentario Facebook Twitter Flipboard E-mail

Los modelos de IA generativa nos habían sorprendido hasta ahora por su capacidad para conversar, redactar textos de todo tipo o crear imágenes fantásticas, pero ahora lleva un nuevo sistema que da un paso más en esa ambiciosa conquista del ámbito creativo: la música.

MusicGen. Así se llama el nuevo modelo de IA generativa creado por Meta. Como sucede en otros casos, se basa en la arquitectura Transformer de Google que lo ha cambiado todo en este ámbito. La idea aquí no es predecir la próxima palabra con sentido, como sucede con ChatGPT, sino hacer eso mismo, pero con un fragmento musical.

Cómo funciona. Como señalan en The Decoder, los responsables del estudio explican que el sistema descompone los datos de audio en componentes más pequeños gracias al "tokenizador" de audio de Meta, llamado Encodec. El equipo entrenó al modelo con 20.000 horas de música licenciada, y se basaron especialmente en un conjunto interno de 10.000 pistas de audio de alta calidad, así como datos musicales de Shutterstock y Pond5.

Texto y audio como prompt. En otras plataformas se suele usar el texto para obtener una respuesta, y aquí ocurre lo mismo: basta con que introduzcamos un prompt descriptivo para obtener una pequeña melodía. Podremos además combinar ese texto con una pequeño fragmento musical para un resultado sorprendente. En la página web del proyecto se muestran un buen conjunto de ejemplos con los resultados generados tanto por MusicGen como por sistemas similares.

Limitaciones. Los resultados son, como en el caso de la creación de imágenes en la primera generación de esos modelos, sorprendentes pero no necesariamente espectaculares. Aún así las combinaciones para remezclar son prácticamente ilimitadas, y una vez más usar prompts de textos lo más precisos y completos posibles puede ayudar a obtener pequeñas melodías que pueden servir de inspiración a los artistas. Se pueden hacer experimentos rápidos con HuggingFace, por ejemplo.

Millones y millones de parámetros. Los investigadores de Meta usaron tres modelos con distintos tamaños: 300 millones, 1.500 millones y 3.3 millones de parámetros, y aunque el último fue el que ofreció audio de mejor calidad, el intermedio fue el mejor calificado por los oyentes humanos.

La música generativa avanza. Hay otros modelos como Riffusion o desde luego el conocido MusicLM de Google que ya planteaban este tipo de solución a la creación musical, y según una evaluación que combina métricas objetivas y subjetivas, MusicGen los supera a todos

Open Source. Otro apartado llamativo de MusicGen es que se trata de un desarrollo de código abierto. Tanto el código como los modelos están disponibles en GitHub y se permite el uso comercial. Meta sigue así la misma línea que planteó con LLaMA, aunque en este último caso el modelo —competidor de GPT-3 y GPT-4— estaba teóricamente restringido al ámbito académico.

Más problemas para la industria. Este tipo de sistemas vuelven a plantear una amenaza para la industria musical, que podría verse afectada por la capacidad creativa de estas plataformas. Hace unas semanas hablábamos del tema musical imitando el estilo de Drake y The Weeknd y cómo aquello sacudió las redes sociales: con MusicGen tenemos al alcance otra herramienta que desde luego puede ayudar a plantear cambios en el proceso creativo, ahora más accesible que nunca al gran público. La artista Grimes incluso se anticipó y aseguró que cualquiera podía usar su música para entrenar sistemas de IA mientras luego quien lo hiciese repartiese ingresos al 50% con ella.

Imagen | Xataka con Midjourney

En Xataka | La nueva inteligencia artificial de Google permite crear música a partir de órdenes escritas. El resultado es fascinante

Comentarios cerrados
Inicio