DALL-E 2 ha sido lo más llamativo en el campo de la inteligencia artificial de los últimos meses. Pero Google no ha dicho su última palabra. Hoy han decidido presentar IMAGEN, su nueva IA capaz de crear imágenes ultrarrealistas a partir de una breve descripción. Una alternativa a la herramienta de OpenAI que, según las pruebas y las investigaciones de Google, consigue unos resultados más precisos.
Al contrario que DALL-E 2, que este verano ha prometido liberar su herramienta a más usuarios, Google ha presentado IMAGEN como una investigación, argumentando que por motivos éticos es mejor que siga sin ser un producto comercial y se mantenga como una herramienta para académicos y expertos.
Llevando el fotorrealismo con IA a nuevas cotas

El funcionamiento de IMAGEN es similar al de DALL-E 2. La IA convierte un pequeño texto en una imagen con todo lujo de detalles que coincide con lo descrito. Las combinaciones son casi ilimitadas y en la mayoría de ocasiones, DALL-E 2 conseguía ofrecernos una imagen muy parecida a lo que le pedimos. Ahora Google asegura que ha resuelto algunas de las lagunas de la herramienta de OpenAI y ha logrado generar imágenes que los humanos prefieren.
AI can unlock joint human/computer creativity! Imagen is one direction we are pursuing:https://t.co/LTlE3pqq4W
— Jeff Dean (@🏡) (@JeffDean) May 24, 2022
"A high contrast portrait of a very happy fuzzy panda dressed as a chef in a high end kitchen making dough. There is a painting of flowers on the wall behind him." pic.twitter.com/SrqEv9jeHf
IMAGEN se basa en el modelo Transformer T5, presentado en 2020. Originalmente la IA produce imágenes de 64 x 64 píxeles, pero luego son escaladas a 1.024 x 1.024 píxeles. La misma resolución que DALL-E 2. Esta idea de escalado es la que permite aliviar la potencia de cálculo y permitir la generación de imágenes en pocos segundos.

Para comprobar qué IA es la que logra producir mejores imágenes, desde Google han creado el benchmark 'DrawBench'. Según los resultados mostrados por el paper, la IA de Google comentió menos errores de comprensión a la hora de construir la imagen. Un ejemplo lo ponen con "Un panda haciendo latte art". La IA de Google entendió que era el animal quien debía realizar la acción, mientras que DALL-E 2 puso directamente un café con la cara de un panda.

Jeff Dean, VP de Google AI, ha publicado en su perfil de Twitter varios ejemplos de lo que es capaz IMAGEN. Adicionalmente, los usuarios tenemos una pequeña demo interactiva de cómo funciona esta IA, pudiendo intercambiar entre distintos animales, ropa, vehículo y fondo.
Lamentablemente Google sigue preocupada por los malos usos de esta IA, algo que también ocurre con DALL-E 2, y por ello ha decidido no ponerla a disposición de los usuarios, por el momento. Pese a todo, es fascinante comprobar cómo la IA está mejorando poco a poco. A este ritmo, quién sabe qué podremos hacer dentro de unos años.
Ver 20 comentarios
20 comentarios
p2dzca
Qué peligro tienen estas tecnologías que pueden generar, en un instante, textos, fotos o vídeos de aspecto muy real si se usan para crear noticias falsas y pruebas falsas, para manipular, etc.
Tenemos miedo a que la inteligencia artificial alcance el nivel de la inteligencia humana o la sobrepase, cuando es algo que queda lejos, y, en cambio, no nos damos cuenta o no nos preocupa el peligro de la actual inteligencia artificial para manipularnos, controlarnos y discriminarnos (con sus sesgos).
"A la gente le preocupa que las computadoras se vuelvan demasiado inteligentes y se apoderen del mundo, pero el verdadero problema es que son demasiado estúpidas y ya se han apoderado del mundo."
Pedro Domingos
Profesor de la Universidad de Washington
kevinbnz
y como DALLE-2, tampoco se puede usar.
TOVI
Preparensen para avalanchas de fakenews, y luego querran libertad para engañar.
opineitor
Mindjourney también hace algo similar. Y otro que hace obras de arte también que no me acuerdo ahora el nombre. Volgan o algo así se llama.
snoopy_
qué ganas de probarlo. creo que no están haciendo públicas las betas porque es algo tan rompedor que aún no saben las consecuencias o malos usos que se puedan derivar.
Espero que tengan una versión gratuita y no todo sean api's privadas. también molaría que algún crack hiciera una versión de código libre como pasó con los deep fakes.