Es cuestión de tiempo que la inteligencia artificial generativa aterrice en Facebook e Instagram. Sabemos desde finales del mes pasado que Meta tiene en mente renovar sus redes sociales con “funciones creativas” impulsadas por IA. Ahora, ha sido el propio Mark Zuckerberg el que ha dado más detalles de lo que está por venir.
La compañía está trabajando en dos enfoques para la edición de imágenes y creación vídeos a partir de indicaciones de texto. Por un lado tenemos a Emu Edit, un modelo de edición de imágenes que promete transformar elementos, eliminar o añadir fondos, transformar colores, entre muchas otras cosas de manera muy sencilla.
Editar de forma avanza y solo con indicaciones de texto
Uno de los aspectos más curiosos de Emu Edit es que, al menos por lo que hemos visto, no existen herramientas de selección. La única herramienta que tienen los usuarios para editar las imágenes es un cuadro de texto, y el modelo es aparentemente lo suficientemente bueno como para hacer muchas tareas avanzadas por sí mismo.
En el vídeo de demostración, Zuckerberg pide algo tan simple como “convierte el perro en un panda” y ¡voilà! Adiós perro, hola panda. El modelo es capaz de hacer muchas otras cosas, como reemplazar un objeto por otro, cambiar el color de determinados elementos e incluso agregar texto a objetos complejos, como una gorra.
Emu Edit ha sido entrenado con un conjunto de datos que contiene 10 millones de muestras, cada una con una imagen de entrada, una descripción de la tarea y una imagen de destino. “Creemos que es el conjunto de datos más grande de su tipo hasta la fecha”, afirma la compañía en una publicación de blog de Meta AI.
Por otro lado tenemos a Emu Video. Como lo sugiere su nombre, estamos frente a un modelo que hace vídeos a partir de indicaciones de texto y se presenta como una evolución sustancial en relación a Make-A-Video de la misma compañía anunciado el año pasado. Meta ha implementado un enfoque de creación por etapas. Veamos.
Emu Video no permite generar un vídeo con único prompt. La compañía explica que su enfoque consiste en primero generar una imagen y después animarla para convertirla en un vídeo. Este enfoque “factorizado” promete ser más eficiente de cara al usuario ya que evita empezar desde cero en caso de no obtener el resultado deseado.
Por lo general, imaginamos, alguien hará varios intentos hasta conseguir la imagen deseada. Con esa etapa del proceso completada, pasará a la siguiente que será hacer otros intentos hasta conseguir una animación a su gusto. Bajo un enfoque tradicional esto sería algo más complicado, ya que no existe el paso intermedio entre la imagen y el vídeo.
Como podemos ver, estos modelos todavía tienen aspectos que mejorar, pero no podemos negar que se trata de un avance muy interesante. La IA, de momento, está evolucionando a pasos agigantados y, si continúa a este ritmo, no tardaremos en ver como la calidad de los resultados de Emu Edit y Emu Vido mejora.
En relación a la llegada de estos modelos a Facebook e Instagram, Zuckerberg no ha dado fechas, así que toca ser pacientes. Recordemos, además, que otras funciones basadas en IA están en camino a estas redes sociales, como los bots asistentes de inteligencia artificial de Meta (chatbots de IA) con distintas personalidades.
Imágenes: Meta
Ver 2 comentarios