Investigadores del MIT han creado una inteligencia artificial capaz de imaginar el rostro de un individuo a partir de una grabación de su voz. Este algoritmo de aprendizaje automático, llamado Speech2Face (algo así como 'De habla a cara'), fue entrenado usando millones de clips de audio de más de 100.000 hablantes distintos, muchos de ellos procedentes de vídeos educativos de Youtube.
Según explican los investigadores, esta IA utiliza este dataset para determinar el vínculo existente entre las señales vocales y determinados rasgos faciales. Y es que ambos vienen determinados por factores como la edad, el sexo, la estructura ósea de la nariz, la forma de la boca o el tamaño de los labios.
El funcionamiento del algoritmo gira en torno al uso de dos componentes: un codificador (que extrae y guarda el espectograma de las ondas de audio, reconociendo una serie de características clave del mismo) y un decodificador (que en base a las mencionadas características genera una imagen del rostro, representado de frente y con gesto neutro).
Speech2Face no hace milagros
Por supuesto, cuanto más tiempo permanece a la escucha de una voz humana, más sencillo será para la IA adivinar el rostro de alguien. Pero Speech2Face no puede hacer milagros: aunque, al basarse en fotos, sus representaciones son fotorrealistas, también son demasiado genéricas como para soñar con identificar a una persona específica.
Pero sí permite establecer con suficiente precisión un perfil con el etnia, sexo y edad del sujeto. Ya existía tecnología capaz de estimar estos dos últimos factores, pero el componente étnico es una novedad de Speech2Face.
Sin embargo, el algoritmo todavía presenta algunos sesgos que evidencian que el dataset en el que se ha basado su entrenamiento es algo incompleto. Por ejemplo: Speech2Face genera imágenes de hombres blancos cuando oye asiáticos hablando inglés, pese a que cuando éstos pasan a hablar chino, sí identifica su etnicidad correctamente.
"Si cierto idioma no aparece en los datos de entrenamiento, nuestras reconstrucciones no capturarán bien los atributos faciales que podrían estar correlacionados con ese lenguaje".
También hay cierta polémica en torno al hecho de que el algoritmo identifique como femeninas las voces de niños u hombres con un tono especialmente agudo; una polémica que los investigadores han trato de cortar recordando que resulta imposible que Speech2Face sea capaz de "representar por igual a toda la población mundial".
Se especula con que un posible uso comercial de este algoritmo sería la posibilidad de generar una imagen representativa de nuestro interlocutor cuando estemos manteniendo una llamada telefónica.
Vía | Smithsonian Mag
Ver 3 comentarios