DALL-E 2 ha sido lo más llamativo en el campo de la inteligencia artificial de los últimos meses. Pero Google no ha dicho su última palabra. Hoy han decidido presentar IMAGEN, su nueva IA capaz de crear imágenes ultrarrealistas a partir de una breve descripción. Una alternativa a la herramienta de OpenAI que, según las pruebas y las investigaciones de Google, consigue unos resultados más precisos.
Al contrario que DALL-E 2, que este verano ha prometido liberar su herramienta a más usuarios, Google ha presentado IMAGEN como una investigación, argumentando que por motivos éticos es mejor que siga sin ser un producto comercial y se mantenga como una herramienta para académicos y expertos.
Llevando el fotorrealismo con IA a nuevas cotas
El funcionamiento de IMAGEN es similar al de DALL-E 2. La IA convierte un pequeño texto en una imagen con todo lujo de detalles que coincide con lo descrito. Las combinaciones son casi ilimitadas y en la mayoría de ocasiones, DALL-E 2 conseguía ofrecernos una imagen muy parecida a lo que le pedimos. Ahora Google asegura que ha resuelto algunas de las lagunas de la herramienta de OpenAI y ha logrado generar imágenes que los humanos prefieren.
AI can unlock joint human/computer creativity! Imagen is one direction we are pursuing:https://t.co/LTlE3pqq4W
— Jeff Dean (@🏡) (@JeffDean) May 24, 2022
"A high contrast portrait of a very happy fuzzy panda dressed as a chef in a high end kitchen making dough. There is a painting of flowers on the wall behind him." pic.twitter.com/SrqEv9jeHf
IMAGEN se basa en el modelo Transformer T5, presentado en 2020. Originalmente la IA produce imágenes de 64 x 64 píxeles, pero luego son escaladas a 1.024 x 1.024 píxeles. La misma resolución que DALL-E 2. Esta idea de escalado es la que permite aliviar la potencia de cálculo y permitir la generación de imágenes en pocos segundos.
Para comprobar qué IA es la que logra producir mejores imágenes, desde Google han creado el benchmark 'DrawBench'. Según los resultados mostrados por el paper, la IA de Google comentió menos errores de comprensión a la hora de construir la imagen. Un ejemplo lo ponen con "Un panda haciendo latte art". La IA de Google entendió que era el animal quien debía realizar la acción, mientras que DALL-E 2 puso directamente un café con la cara de un panda.
Jeff Dean, VP de Google AI, ha publicado en su perfil de Twitter varios ejemplos de lo que es capaz IMAGEN. Adicionalmente, los usuarios tenemos una pequeña demo interactiva de cómo funciona esta IA, pudiendo intercambiar entre distintos animales, ropa, vehículo y fondo.
Lamentablemente Google sigue preocupada por los malos usos de esta IA, algo que también ocurre con DALL-E 2, y por ello ha decidido no ponerla a disposición de los usuarios, por el momento. Pese a todo, es fascinante comprobar cómo la IA está mejorando poco a poco. A este ritmo, quién sabe qué podremos hacer dentro de unos años.
Ver 20 comentarios