Uno de los retos a conseguir en los asistentes de voz es que suenen lo más humanamente posible. Se ha progresado mucho en este sentido y vemos proyectos como el de Nadia, que aparentemente ha conseguido que voz y apariencia sean bastante naturales, pero lo que ahora han logrado otros investigadores es un algoritmo que clona voces añadiendo un plus emocional al resultado.
Este algoritmo es una creación de Lyrebird, una empresa canadiense centrada en la inteligencia artificial, y logra imitar una voz hasta el punto de poder leer un texto aplicando tanto el tono como** los matices de las emociones al hablar**. Algo que además logra con una muestra relativamente reducida de la voz original.
¿Que Obama dice qué?
Como decíamos, con los asistentes de voz actuales (Siri, Cortana, etc.) no es fácil olvidar que estamos dirigiéndonos a algo artificial, dado que la pronunciación aún es a golpes (pese a haber mejorado mucho en la entonación de las frases). Esto se debe a que lo que éstos pronuncian es el resultado de frases y palabras pre-grabadas, y ese puzzle en ocasiones es lo que produce esa pronunciación tan artificial y con parones.
Lo que ocurre con el algoritmo de Lyrebird es que aprende a reconocer los patrones de la pronunciación de una voz para reproducirlos tal cual con cualquier frase, basándose en redes neuronales artificiales. El resultado está bastante conseguido, sobre todo en esta muestra en la que han imitado a varios políticos estadounidenses (la prueba de que el algoritmo trabaja aparentemente bastante bien es oírlo sin ver de quién se trata, son tres políticos bastante conocidos a nivel mundial, ya teníais un spoiler en el título de este punto).
No hay Valle Inquietante, pero puede haber malos usos
Lo que quieren conseguir es que una voz artificial suene lo menos robótica posible, pero aquí nos encontramos con algo que resulta un poco alarmante: que se pueda copiar una voz perfectamente (y sobre todo el mal uso que eso pueda tener). Sobre esto, Jose Sotelo (miembro de Lyrebird) explica a Gizmodo que su propósito es que haya un buen uso, como ayudar a gente que haya perdido la voz por enfermedad, etc., y que el hacerlo público es una manera de ayudar a prevenir y a estar preparados ante estos malos usos, como también explican en su web en un apartado que habla de la ética.
Por ahora vemos que van por buen camino dado el resultado, dentro de lo complejo que es humanizar una voz artificial y aplicarla a un nuevo texto (sin palabras o frases pre-grabadas), y que su sistema además trabaja a tiempo real necesitando una fuente de datos relativamente pequeña (algunas docenas de segundos de voz). De momento siguen mejorando el resultado y recaudando fondos, con la intención de empezar a corto plazo los tests de la versión beta.
Más información | Lyrebird
En Xataka | Nadia, una "inteligencia emocional" muy "humana", es un chatbot programado para entender palabras y gestos faciales
Ver 21 comentarios
21 comentarios
virusaco
Justo ayer vi el capítulo de Black Mirror de la segunda temporada "Ahora mismo vuelvo".
Salu3
pabloj
Los que deben de tener miedo son los actores de doblaje, si esto llega a perfeccionarse no me imagino lo barato y rápido que podría ser doblar cualquier serie o película a cualquier idioma del mundo, aunque el trabajo necesario para la localización seguiría necesitando de un humano.
alons0
Pues me estaré volviendo loco, pero yo aquí veo otra forma de identificación biometrica.
Si bien es sabido que la voz es algo personal e inconfundible, más lo es la forma de hablar, acentuar y expresarse. Usando la voz y la forma de hablar se podría tener una huella digital fonética.
Y si se aplicarán este tipo de algoritmos para ello, quizá la siguiente forma de autenticarnos, desbloquear el teléfono o autorizar un pago sea tan simple como decir "hola".
Exos
Mola mucho, a ver si algún gigante tecnológico les inyecta el capital que necesiten y se acaba integrando en gps, traductores, asistentes y demás.
Usuario desactivado
Qué bueno
whisper5
Esto es inquietante. Estamos en los inicios, pero cuando la calidad sea indistinguible de la realidad tendremos muchos problemas. Las fotografías pueden ser manipuladas a nuestro antojo. ¿Qué valor probatorio podrá tener una fotografía en un juicio cuando no pueda probarse que es sintética? En algunas películas ya hemos visto actores fallecidos actuando como si estuvieran vivos. Es cierto que no son actuaciones digitales perfectas, pero es cuestión de tiempo. Cuando sean perfectas los vídeos podrán dejar de tener valor en un juicio. Y ahora la voz. ¿Qué valor podrá tener una grabación con una voz artificial si no se puede distinguir de la real?
rebootedc
Se me ocurren cosas tan perversas que me doy miedo a mí mismo.
franafv
El hecho de imitar voces conocidas puede ayudar a creer que estamos ante un buen concepto. Me gustaría ver una comparación Cortana/Siri original con frases compuestas por palabras sueltas pregrabadas vs. la voz imitada que crea este sistema a partir de las frases/respuestas pregrabadas de los asistentes de voz.
vitirr
Por lo pronto pueden irse al paro unos cuantos humoristas de esos que se ganan la vida haciendo llamaditas graciosas :p
Aparte de todas las maldades que todos hemos pensado, una aplicación práctica directa sería en los videojuegos. Nunca más juegos sin voces, o en el que todo dios habla menos el prota (porque es personalizable incluyendo entre otras cosas el género). Ahora podrás personalizar la voz del personaje y ponerle desde la voz de chiquito a la de Constantino Romero.
luizja
Ya quiero tener mi asistente personal con la voz de Scarlett Johansson :3
ruybv111
Pues a mí, así de primeras, se me ocurren unas cuantas buenas bromas de Whatsapp
Usuario desactivado
Yo me conformaría con que Google Maps no me hablase como si tuviera 3 años (eso sí que es inquietante)