Investigadores del Centro Samsung de Inteligencia Artificial de Moscú y del Instituto Skolkovo de Ciencia y Tecnología han creado un nuevo sistema que puede transformar imágenes fijas de rostros en secuencias de vídeo de cabezas parlantes de gran realismo.
El sistema desarrollado se basa en la aplicación de puntos de referencia de los movimientos de un 'rostro objetivo' sobre los de un 'rostro fuente', permitiendo en la práctica que el primero controle el modo en que se mueve el segundo.
En el vídeo en que se explica el funcionamiento del sistema (ver más abajo), el ingeniero Egor Zakharov afirma que "el modelo generado puede servir como avatar realista de una persona".
De hecho, según Samsung, esta tecnología tendrá aplicaciones prácticas tanto para la industria de los efectos especiales como en el ámbito de la telepresencia (sobre todo en videoconferencias y videojuegos multijugador).
Las redes generativas antagónicas vuelven a poner a prueba nuestra credulidad
Los deepfakes de vídeo no son, a estas alturas, algo novedoso, pero la nueva tecnología de Samsung sí destaca por dos aspectos fundamentales: no requerir el uso de modelado 3D, y poder utilizar una única fotografía para crear un modelo parlante de una cara (por supuesto, a mayor número de fotos disponibles aumenta tanto el realismo del modelo como sus posibilidades de personalización).
Samsung explica que esta capacidad para crear vídeos realistas a partir de un único fotograma se debe a su gran base de datos de cabezas parlantes con muy distinta apariencia. Gracias a eso, el sistema puede recurrir a una GAN (red generativa antagónica) que vaya generando varios modelos, que va modificando hasta que detecta que uno de ellos es lo bastante realista (es decir, que la propia IA lo confunde con un vídeo real).
Según explican los investigadores en el paper recientemente publicado, "Few-Shot Adversarial Learning of Realistic Neural Talking Head Models",
"El sistema es capaz de inicializar los parámetros, tanto del generador como del discriminador, de un modo específico para cada persona, por lo que el entrenamiento puede basarse en tan sólo unas pocas imágenes y realizarse de manera rápida pese a la necesidad de ajustar decenas de millones de parámetros".
En el citado vídeo de presentación de la IA, podemos desfilar rostros conocidos como los de Marilyn Monroe o Albert Einstein, animados a partir de una única foto... pero quizás el más chocante de ellos sea una Gioconda parlante, animada -claro está- a partir del famoso cuadro de Leonardo Da Vinci conservado en el Louvre.
Y no es el único ejemplo incluido de un rostro animado a partir de un cuadro: si la apariencia del rostro es lo bastante realista, los puntos de referencia de otro rostro humano seguirán pudiéndose usar en él.
En el lado negativo, parece que la amenaza de las manipulaciones de la opinión pública mediante deep fakes, tan temida por las fuerzas de seguridad de los países democráticos, no hace sino que reforzarse en estos últimos meses.
Vía | VentureBeat
Ver 4 comentarios