Google anuncia Veo e Imagen 3 para crear imágenes y vídeos por IA. No es una revolución, pero sigue la estela de Midjourney y Sora

Veo e Imagen 3 son las evoluciones de los modelos de texto a imagen y texto a vídeo de Google, con ejemplos más que prometedores y fotorrealistas

14 mayo 2024, 19:57

Javier Lacort

Google ha aprovechado su evento I/O 2024 para anunciar nuevas herramientas de IA generativa: sus nombres son Veo e Imagen 3, y hacen lo que presuponen sus nombres. La primera genera vídeo, la segunda genera imágenes.

Entran así a competir con Midjourney, el futuro Sora y compañía, llevando al territorio creativo sus logros hasta la fecha con Gemini. Ninguno es particularmente revolucionario, pero permite a Google dar un gran paso para mantenerse en la carrera de la generación multimedia sintética.

Un vistazo a…

10 APLICACIONES de GOOGLE que PODRÍAN HABER TRIUNFADO

Imagen 3. El modelo de texto a imagen más avanzado de la empresa, la evolución de Imagen 2.0, puede producir imágenes fotorrealistas, según su presentación y los ejemplos compartidos. Ha mejorado la interpretación del lenguaje natural, y sobre todo, la capacidad de añadir detalles muy específicos a partir de prompts muy extensos.

Esto, según indica Google, permite ofrecer una gama de estilos más amplia y una mayor precisión en la representación visual de la solicitud del usuario. También ha perfeccionado la representación de texto en imágenes para poder lanzar mensajes personalizados con una palabra, una marca, una frase...

Veamos algunos ejemplos mostrados por Google:

Un elefante amigurumi caminando por la sabana creado con Imagen 3. Imagen: Google.

Un paisaje fotorrealista. Imagen: Google.

Otra imagen fotorrealista, esta vez de un lobo, creada con Imagen 3. Imagen: Google.

Texto representado con plumas en Imagen 3. Imagen: Google.

Veo. El modelo de vídeo generativo más grande de Google, claramente evolucionado desde sus orígenes, permite crear clips en resolución 1080p de más de un minuto de duración. Google ha destacado una comprensión profunda del lenguaje natural y de la semántica para producir vídeos que reflejen con precisión lo que el usuario demanda.

También es capaz de entender y aplicar términos cinematográficos, como "timelapse" o "tomas aéreas de paisajes". Es decir: no solo crea el contenido que pidamos, sino que también aplica las técnicas y estilos que deseemos. Y algo más: da un salto importante en cuanto a simulación de la física del mundo real. También renderiza mejor las secuencias en alta definición.

Algunos ejemplos mostrados por Google durante la presentación de Veo. Imagen: Google.

El aspecto ético y legal. Google asegura haber implementado varias medidas de seguridad, filtros y directrices para garantizar que el desarrollo y despliegue de sus modelos sean "responsables".

Por ejemplo, usando SynthID, una herramienta desarrollada por la propia Google que incorpora marcas de agua digitales e imperceptibles para etiquetar el contenido generado por IA.

Disponibilidad. Tanto Veo como Imagen 3 están disponibles en un acceso anticipado privado para algunos creadores seleccionados en VideoFX e ImageFX, existiendo una lista de espera para acceder a ellas. Google planea expandir capacidades de Veo a YouTube Shorts y otros productos.

Esto implica una fuerte vocación de satisfacer a creadores y ofrecerles sus propios productos integrados en estas plataformas.

Google también ha dejado ver un pequeño anticipo de su Music AI Sandbox, un conjunto de herramientas para la creación de canciones y ritmos, apuntando directamente a los artistas.

En Xataka | 36 funciones y cosas que puedes hacer con Google Gemini

Imagen destacada | Google, Mockuuups Studio, Xataka

Ver todos los comentarios en https://www.xataka.com

VER 4 Comentarios

Portada de Xataka