Tan "humano" que inquieta: este algoritmo es capaz de imitar voces logrando un resultado muy natural

21 comentarios Facebook Twitter E-mail

3 Mayo 2017 Actualizado 5 Mayo 2017, 04:51

Anna Martí

Uno de los retos a conseguir en los asistentes de voz es que suenen lo más humanamente posible. Se ha progresado mucho en este sentido y vemos proyectos como el de Nadia, que aparentemente ha conseguido que voz y apariencia sean bastante naturales, pero lo que ahora han logrado otros investigadores es un algoritmo que clona voces añadiendo un plus emocional al resultado.

Este algoritmo es una creación de Lyrebird, una empresa canadiense centrada en la inteligencia artificial, y logra imitar una voz hasta el punto de poder leer un texto aplicando tanto el tono como** los matices de las emociones al hablar**. Algo que además logra con una muestra relativamente reducida de la voz original.

¿Que Obama dice qué?

Como decíamos, con los asistentes de voz actuales (Siri, Cortana, etc.) no es fácil olvidar que estamos dirigiéndonos a algo artificial, dado que la pronunciación aún es a golpes (pese a haber mejorado mucho en la entonación de las frases). Esto se debe a que lo que éstos pronuncian es el resultado de frases y palabras pre-grabadas, y ese puzzle en ocasiones es lo que produce esa pronunciación tan artificial y con parones.

Lo que ocurre con el algoritmo de Lyrebird es que aprende a reconocer los patrones de la pronunciación de una voz para reproducirlos tal cual con cualquier frase, basándose en redes neuronales artificiales. El resultado está bastante conseguido, sobre todo en esta muestra en la que han imitado a varios políticos estadounidenses (la prueba de que el algoritmo trabaja aparentemente bastante bien es oírlo sin ver de quién se trata, son tres políticos bastante conocidos a nivel mundial, ya teníais un spoiler en el título de este punto).

No hay Valle Inquietante, pero puede haber malos usos

Lo que quieren conseguir es que una voz artificial suene lo menos robótica posible, pero aquí nos encontramos con algo que resulta un poco alarmante: que se pueda copiar una voz perfectamente (y sobre todo el mal uso que eso pueda tener). Sobre esto, Jose Sotelo (miembro de Lyrebird) explica a Gizmodo que su propósito es que haya un buen uso, como ayudar a gente que haya perdido la voz por enfermedad, etc., y que el hacerlo público es una manera de ayudar a prevenir y a estar preparados ante estos malos usos, como también explican en su web en un apartado que habla de la ética.

Por ahora vemos que van por buen camino dado el resultado, dentro de lo complejo que es humanizar una voz artificial y aplicarla a un nuevo texto (sin palabras o frases pre-grabadas), y que su sistema además trabaja a tiempo real necesitando una fuente de datos relativamente pequeña (algunas docenas de segundos de voz). De momento siguen mejorando el resultado y recaudando fondos, con la intención de empezar a corto plazo los tests de la versión beta.

Más información | Lyrebird
En Xataka | Nadia, una "inteligencia emocional" muy "humana", es un chatbot programado para entender palabras y gestos faciales