El nuevo experimento de Google Labs es Whisk, que permite generar imágenes por IA, pero permitiendo usar imágenes en lugar de texto como punto de partida. Un giro que puede democratizar un poco más la creación sintética.
Por qué es importante. La IA visual está dominando la conversación, sobre todo con las mejoras en generadores de imágenes y la llegada gradual de generadores de vídeos. Justo aquí llega Google simplificando el arte del prompting.
Entre bambalinas. Whisk usa dos motores de IA. En primer lugar, Gemini traduce las imágenes que el usuario cargue a descripciones muy detalladas. En segundo lugar, Imagen 3 las transforma en nuevas creaciones combinando sujeto, fondo, estilo...
No es que Whisk quiera replicar de forma exacta la imagen original, más bien busca capturar su esencia e inspirar con ella esas nuevas creaciones.
En detalle. El proceso es simple:
- Arrastra imágenes a Whisk para definir sujeto, escena y estilo.
- La IA genera variaciones.
- Es posible refinar los resultados mediante, ahora sí, instrucciones de texto.
De momento solo está disponible en Estados Unidos, y según Google, genera los resultados en "segundos". También permite usar varias imágenes como referencia y parte de tres estilos predefinidos: sticker, pin brillante y peluche.
Profundiza. Whisk no busca ser un editor de imágenes al uso, su fortaleza está en generar rápidamente ideas visuales. Va más por la conceptualización y las primeras pruebas que por la edición o los diseños finales.
Sobre todo es perfecta para iterar conceptos rápido a partir de una primera creación inspirada en otras obras. Eso sí, dista de la perfección y la propia Google reconoce limitaciones, empezando por la disparidad entre expectativa inicial y resultado final.
En Xataka | Guía práctica para escribir los mejores 'prompts' en Midjourney y crear imágenes alucinantes
Imagen destacada | Xataka con Whisk
Ver 2 comentarios