EMO es la impresionante IA que viene de China: vídeos a partir de una sola imagen y un archivo de voz

  • Alibaba presenta un nuevo modelo de IA generativa capaz de crear vídeos ultrarrealistas de retratos en movimiento

  • Tanto la sincronización de los labios como las expresiones tienen un nivel que no se había visto hasta ahora

Enrique Pérez

Editor Senior - Tech

Editor especializado en tecnología de consumo y sociedad de la información. Estudié física, pero desde hace más de diez años me dedico a escribir sobre tecnología, imagen y sonido, economía digital, legislación y protección de datos. Interesado en aquellos proyectos que buscan mejorar la sociedad y democratizar el acceso a la tecnología. LinkedIn

Cada día es una historia nueva con la IA. Si hace unas semanas era Sora, ahora es EMO la inteligencia artificial generativa que nos deja impresionados. Y al contrario de lo que suele ser habitual, en este caso no viene ni de OpenAI ni de Google ni de ninguno de los grandes actores del panorama. La nueva IA viene de China, pues ha sido presentada por Alibaba

Emote Portrait Alive (EMO) es una IA generativa que permite generar vídeos de retratos a partir de una imagen y un archivo de voz. Pero lo más llamativo es el resultado. La sincronización labial es excelente, pero también lo son las expresiones, que se adaptan en función del tono de voz

Como siempre con la IA, más vale ver los ejemplos directamente. En la página del proyecto en Github podéis encontrar múltiples ejemplos. 

Tenemos por ejemplo a Audrey Hepburn cantando Perfect de Ed Sheeran o a la mujer del vídeo de Sora hablando con la voz de Mira Murati, en lo que es claramente una referencia interna entre los equipos que se dedican a la inteligencia artificial. 

EMO ha sido desarrollado por Linrui Tian, Qi Wang, Bang Zhang y Liefeng Bo, del Instituto de Inteligencia Computacional del Grupo Alibaba. Como ocurre con Sora, por el momento se trata de una herramienta dedicada a investigación y no está disponible al público para ser utilizada. Sí comparten múltiples ejemplos con las distintas posibilidades. Además de ver cantar o hablar, también encontramos ejemplos donde a partir de una misma imagen se obtiene un vídeo de la persona enfadada, contenta o reflexiva. 

EMO puede generar vídeos de retrato de distinto tiempo, en función de la duración que tenga el archivo de audio a partir del cual se genera. Según explican los investigadores, la consistencia del personaje se mantiene durante todo el vídeo. 

Viendo los resultados es fácil pensar en el impacto que puede tener para múltiples actores. Durante la huelga se discutió sobre los derechos de imagen, pero EMO también pone el foco en la voz. Una característica igualmente única y a partir de la cual se pueden conseguir efectos impresionantes. 

En Xataka | 19 páginas y servicios para crear imágenes desde cero utilizando inteligencia artificial

Ver todos los comentarios en https://www.xataka.com

VER 22 Comentarios

Portada de Xataka