MelNet, la red neuronal creada por Facebook para generar voces humanas que imita a la perfección la de Bill Gates

MelNet, la red neuronal creada por Facebook para generar voces humanas que imita a la perfección la de Bill Gates
5 comentarios Facebook Twitter Flipboard E-mail

Dos investigadores de inteligencia artificial de Facebook han logrado desarrollar una IA sintetizadora de voz capaz de copiar el sonido y entonación de la voz de cualquier persona con una precisión sencillamente asombrosa.

Al final del artículo podréis encontrar a Bill Gates pronunciando una serie de frases inconexas. Os dejamos un momento para que escuchéis los clips. ¿Ya? Pues bien, la voz que habéis escuchado no ha sido la del fundador de Microsoft, sino una generada por MelNet, la IA creada por Sean Vasquez y Mike Lewis.

Y Gates no ha sido el único que ha perdido la exclusividad de su voz por obra y gracia de la inteligencia artificial: Vasquez y Lewis también han hecho públicos clips de similar calidad con la voz de personajes como George Takei, Jane Goodall o Stephen Hawking. Una particular selección de referencias que se debe a que MelNet fue entrenada usando un dataset compuesto por 425 horas de charlas TED, además de por numerosos audiolibros.

El secreto está en los espectrogramas

Antes de la aplicación de la IA al campo de la generación de voz mediante ordenador, los sintetizadores de voz no generaban audio, tan sólo iban 'pegando' fonemas pregrabados. Pero todo empezó a cambiar cuando, en 2016, Google DeepMind presentó al mundo WaveNet, la tecnología basada en machine learning responsable de generar la voz del Asistente de Google.

Pero ¿qué ha cambiado desde entonces? ¿Qué es lo que permite que MelNet suponga un salto cualitativo a la hora de imitar la voz humana? La clave de esta nueva tecnología radica en utilizar una red neuronal que ha sido entrenada usando espectogramas de alta resolución en lugar de los típicos diagramas de formas de onda.

Espectrogramas vs. formas de onda Espectrogramas a la izquierda vs. formas de onda a la derecha.

Esto proporciona una representación más detallada y compacta de las frecuencias de audio, al lograr representar los patrones sutiles y característicos que diferencian unas voces de otras; y permite a la IA analizar los patrones del sonido de la voz y reproducirlos de un modo más realista de lo que era posible hasta ahora.

Nos quedaremos (por ahora) sin duscursos: en su lugar tendremos deep fakes

Sin embargo, MelNet sufre alguna limitación que no afectaba a sus antecesores: no puede replicar de forma realista el modo en que la voz humana va variando a lo largo de un discurso. Esa es la razón por la que los creadores de MelNet han expuesto únicamente frases breves.

Curiosamente, los generadores de textos basados en IA sufren del mismo problema: es notablemente difícil mantener la coherencia del texto a lo largo de varios párrafos, incluso cuando se logra que las frases individuales la mantengan sin problemas.

Este avance es, sin embargo, revolucionario. Y, como toda revolución, no expone a beneficios (sistemas mejorados de apoyo para personas con problemas de habla, toda clase de aplicaciones en cine y TV...) y a peligros.

Pensemos por un momento en toda la clase de graves equívocos que surgirán ahora que no podemos fiarnos ni de lo que oyen nuestros oídos; en todas las noticias falsas que se difundirán manipulando las palabras de líderes políticos y celebridades.

Vía | The Verge

Imagen | Kees de Vos

Comentarios cerrados
Inicio