Estamos presenciando en directo la evolución de los generadores de imágenes impulsados por inteligencia artificial (IA). No solo hay cada vez más propuestas de este tipo, sino que muchas de ellas están traspasando la barrera de la investigación, llegando a estar disponibles para todos los usuarios. Hace poco más de un mes se anunciaron las betas abiertas de Midjourney y DALL-E 2. Ahora es el turno de Stable Diffusion.
Puede que no hayas oido hablar de Stable Diffusion, pero se trata de un modelo difusión capaz de generar imágenes fotorrealistas a partir de cualquier texto desarrollado por una startup llamada Stability AI junto a investigadores de la Universidad de Heidelberg (Alemania). Las imágenes que genera esta alternativa tienen un nivel de detalle impresionante, y se asemejan más a DALL-E 2 que a otras propuestas como Midjourney, cuya esencia es más artística y menos realista.
StableDiffusion, disponible para todos
Al igual que otras propuestas, StableDiffusion fue entrenada con datos provenientes de Internet. En este caso se utilizó LAION-Aesthetics, un conjunto con millones de imágenes filtradas y clasificadas por IA con el que le enseñaron al modelo a aprender las asociaciones entre conceptos escritos e imágenes. Desde la compañía afirman que si bien esta técnica es muy efectiva, está expuesta a "los sesgos sociales y el contenido no seguro disponible en la red", por lo que piden que sea usada responsablemente.
Después de estar disponible inicialmente para colaboradores del proyecto e investigadores seleccionados, ahora todos pueden acceder a StableDiffusion. La versión estable está disponible a través de DreamStudio, un front-end y una API de pago. La buena noticia es que el registro es gratuito, y al iniciar sesión recibes 200 créditos para la generación de imágenes. Aunque, eso sí, 1 crédito no siempre equivale a una imagen. Veamos.
Al ingresar a DreamStudio encontrarás una interfaz sencilla y amigable. Para generar una imagen simplemente debes introducir el texto deseado (en inglés) en el cuadro con la leyenda "I want to dram of..." y ajustar el ancho de la imagen, la altura, y otros parámetros de generación. A medida que muevas los controles aumentará o disminuirá la cantidad de créditos que tendrás que pagar.

En nuestra prueba, por ejemplo, hemos pedido "una metrópolis futurista, con coches voladores y rascacielos de cristal", con los ajustes que puedes ver en la captura de pantalla. DreamStudio ha "cotizado" su trabajo en 11 créditos. Nos ha parecido bien, hemos hecho clic en Dream y ha arrojado la imagen superior. Pero esta no es la única opción disponible.

La compañía también ha liberado públicamente una demostración que es mucho más fácil de utilizar. En este caso solo debes introducir el texto y hacer clic en Generate image. Aquí hemos probado con "un día soleado con una casa con un enorme jardín", y el resultado ha sido bastante realista. Como podemos ver se trata de una herramienta más para dar rienda suelta a nuestra creatividad y evaluar el progreso de estos sistemas.
Cabe señalar que los creadores de StableDiffusion aseguran que seguirán trabajando para mejorar las capacidades del modelo, entre ellas las capacidades para eliminar resultados no deseados. Más adelante lanzarán una versión que podrá ejecutarse de manera local. Aunque eso sí, necesitará como mínimo tarjetas gráficas como la Nvidia GeForce GTX 1660.
Si te parece que hay muchas IA's disponibles y no sabes por dónde empezar, te recomendamos ver este interesante hilo de Twitter del investigador Fabian Stelzer, que ha comprado los resultados de DALL-E 2, Midjourney y Stable Diffusion.
DALL-E 2 vs Midjourney vs StableDiffusion mega thread: photography, illustration, painters, abstract
— fabian (@fabianstelzer) August 20, 2022
these image synths are like instruments - it's amazing we'll get so many of them, each with a unique "sound" 🤯
rules: same prompt, 1:1 aspect ratio, no living artists pic.twitter.com/47syy7uPJJ
Ver 11 comentarios
11 comentarios
Antonio
Cuando llegue el generador de películas por inteligencia artificial nos vamos a cagar.
Hazel7
La imagen de la chica en la portada se parece a Sarah Kerrigan, versión anime quizás
reiizumi
Estaba pensando en cuál es la utilidad final de estas cosas, si no me equivoco, no es que una "IA" genere las imágenes en tiempo real, si no que tiene millones de imágenes pre-indexadas y a partir del texto que le das, intenta encontrar aquella que se parezca más a lo que tu estás buscando.
Siendo así, ¿qué tipo de copyright tienen esas imágenes? Quiero decir, ¿yo puedo "pagar" por utilizar esta aplicación, buscar una imagen que me interesa y utilizarla para lo que yo quiera, o estaría incumpliendo el copyright original de esa imagen?
Usuario desactivado
Yo participé en la beta y es el generador de imágenes mas avanzado de los que hay ahora mismo pero con diferencia. Más que Dall-e, Midjourney y Nightcafe, los cuales también probé en su momento.
A Stable le puedes pedir casi cualquier cosa e interpreta muy bien y además los resultados son visualmente muy avanzados. Dall-e también interpreta muy bien pero es mas dificil conseguir buenos resultados, con stable es más asequible y sabe imitar muy bien cualquier estilo.
nasy13
Buenas,
He creado una interfaz para utilizar Stable diffusion en español. Se llama Generador De Imágenes.
Dejo el enlace por si os interesa:
generadordeimagenes.com
Agradecería vuestro feedback!
Saludos
t_r_a
"un conjunto con millones de imágenes filtradas y clasificadas por IA con el que le enseñaron al modelo a aprender las asociaciones entre conceptos escritos e imágenes", JA, y un mojón,. vamos que han cogido una base de datos y han indexado los metadatos de las imágenes, ahora a eso se le llama IA