Veo e Imagen 3 son las evoluciones de los modelos de texto a imagen y texto a vídeo de Google, con ejemplos más que prometedores y fotorrealistas
Google ha aprovechado su evento I/O 2024 para anunciar nuevas herramientas de IA generativa: sus nombres son Veo e Imagen 3, y hacen lo que presuponen sus nombres. La primera genera vídeo, la segunda genera imágenes.
Entran así a competir con Midjourney, el futuro Sora y compañía, llevando al territorio creativo sus logros hasta la fecha con Gemini. Ninguno es particularmente revolucionario, pero permite a Google dar un gran paso para mantenerse en la carrera de la generación multimedia sintética.
Imagen 3. El modelo de texto a imagen más avanzado de la empresa, la evolución de Imagen 2.0, puede producir imágenes fotorrealistas, según su presentación y los ejemplos compartidos. Ha mejorado la interpretación del lenguaje natural, y sobre todo, la capacidad de añadir detalles muy específicos a partir de prompts muy extensos.
Esto, según indica Google, permite ofrecer una gama de estilos más amplia y una mayor precisión en la representación visual de la solicitud del usuario. También ha perfeccionado la representación de texto en imágenes para poder lanzar mensajes personalizados con una palabra, una marca, una frase...
Veamos algunos ejemplos mostrados por Google:
Veo. El modelo de vídeo generativo más grande de Google, claramente evolucionado desde sus orígenes, permite crear clips en resolución 1080p de más de un minuto de duración. Google ha destacado una comprensión profunda del lenguaje natural y de la semántica para producir vídeos que reflejen con precisión lo que el usuario demanda.
También es capaz de entender y aplicar términos cinematográficos, como "timelapse" o "tomas aéreas de paisajes". Es decir: no solo crea el contenido que pidamos, sino que también aplica las técnicas y estilos que deseemos. Y algo más: da un salto importante en cuanto a simulación de la física del mundo real. También renderiza mejor las secuencias en alta definición.
El aspecto ético y legal. Google asegura haber implementado varias medidas de seguridad, filtros y directrices para garantizar que el desarrollo y despliegue de sus modelos sean "responsables".
Por ejemplo, usando SynthID, una herramienta desarrollada por la propia Google que incorpora marcas de agua digitales e imperceptibles para etiquetar el contenido generado por IA.
Disponibilidad. Tanto Veo como Imagen 3 están disponibles en un acceso anticipado privado para algunos creadores seleccionados en VideoFX e ImageFX, existiendo una lista de espera para acceder a ellas. Google planea expandir capacidades de Veo a YouTube Shorts y otros productos.
Esto implica una fuerte vocación de satisfacer a creadores y ofrecerles sus propios productos integrados en estas plataformas.
Google también ha dejado ver un pequeño anticipo de su Music AI Sandbox, un conjunto de herramientas para la creación de canciones y ritmos, apuntando directamente a los artistas.
En Xataka | 36 funciones y cosas que puedes hacer con Google Gemini
Imagen destacada | Google, Mockuuups Studio, Xataka
Ver todos los comentarios en https://www.xataka.com
VER 4 Comentarios