El gran proyecto de Google donde la IA entiende e interactúa con lo que ve es muy real
Estará integrado en la app de Gemini a finales de año
En comparación con las demos de GPT-4o, las respuestas no son tan fluidas
Olvidad los prompts por escrito. La IA ahora es multimodal. Esto significa que podemos interactuar con ella hablando, como si fuera un asistente de voz, o a través de vídeo, pudiendo reconocer todo lo que tiene enfrente de la cámara. Google lo ha llamado Project Astra y desde Xataka ya hemos podido probar su versión experimental, directamente desde en el Google I/O, su gran evento anual.
Aunque Project Astra está previsto que llegue a móviles y la app de Gemini a finales de año, lo cierto es que ya funciona perfectamente. La versión multimodal de Gemini 1.5 Pro ya está lista, aunque la demo que nos ha enseñado Google nos confirma que todavía faltan algunos flecos por pulir.
Project Astra: un impresionante asistente, con algunas mejoras por delante
Project Astra es una especie de versión super vitaminada de Google Lens. Enfocamos con la cámara algo y la IA lo reconoce y nos ofrece respuestas en base a ello, en tiempo real. Lo que tenemos es una sala con varios objetos, una pantalla y una cámara en el techo apuntando justo abajo de la pantalla.
Durante la demostración podíamos seleccionar varios peluches y colocarlos debajo para que se monte su propia historia. Por ejemplo un dinosaurio, un donut, una barra de pan o un instrumento. Podemos preguntarle cualquier cosa sobre ellos y nos contesta. Si ponemos un objeto nuevo, inmediatamente nos habla sobre él.
Las respuestas son en tiempo real y funcionan como uno podría esperar. La espectacularidad de Project Astra está en el hecho de comprobar sus inmensas posibilidades. De ver cómo colocamos un objeto y nos lo reconoce. Que ponemos uno al lado y nos los dice. Con la función 'Storyteller', Astra se va inventando una historia en base a los objetos que ve delante.
Es solo un ejemplo, pues también podríamos pedirle que nos vaya diciendo todo el rato cuál es el más grande; que nos cuenten anécdotas sobre ellos; que nos diga sus propiedades físicas o que nos diga su color. Tantas ideas como posibles prompts.
Una de las características de Project Astra es que "tiene memoria". En el vídeo de demostración oficial es genial cuando la persona pregunta dónde se ha dejado las gafas. Esta función también la hemos podido comprobar. Con Astra podemos enseñarle un objeto; quitarlo, preguntarle otras cosas y luego hacerle recordar qué le habíamos dicho sobre el primer objeto.
Según describen desde Google, la memoria solo dura durante la sesión abierta. Y aquí ya entramos en una cuestión de procesamiento. Las demostraciones actuales de Project Astra están pensadas para unos pocos minutos y se da el caso que a medida que se alarga la demo, la velocidad de respuesta es considerablemente más difícil de mantener.
Aunque ya hay prototipos de Astra funcionando en un Pixel 8 Pro, no será hasta finales de año cuando técnicamente estará integrado en la app de Gemini. Habrá que ver entonces hasta qué punto la experiencia no se vuelve demasiado lenta si la sesión dura demasiado.
Otra demostración divertida de Project Astra es poder jugar al Pictionary con la IA. No hemos comprobado si Project Astra es capaz de reconocer la dignidad, pero sí acierta con 'Tiburón', al dibujarle una aleta o con 'Titanic', al dibujar un barco y un iceberg. Es curioso ver que Project Astra va hablando y preguntándote sobre lo que está viendo a medida que dibujas. Pero justo aquí es donde el nivel de latencia podría ser más alto. Astra habla cuando aprecia un nuevo elemento relevante en la pantalla, pero este debe ser suficiente claro.
Project Astra es la evolución que todos esperábamos de Assistant. Una IA capaz de darnos feedback si le hablamos de cualquier cosa y donde podamos aprovechar la cámara del móvil para enseñarle cosas. Es una interacción muy natural y esto es precisamente lo que lo convierte en algo tan de ciencia ficción.
Google perdió hace tiempo el factor sorpresa
Al contrario que en las demostraciones de OpenAI con GPT-4o, la voz de Astra ha sido establecida por defecto por Google y tiene un tono de voz más didáctico y menos seductor. Algo que personalmente agradezco. No es tan 'Her', pero es igualmente útil. La demostración de Google con Astra es llamativa por la enorme innovación que representa, pero se nota que al final la idea es que pronto todos lo tengamos en el móvil y nos parezca trivial.
En comparación con GPT-4o, Project Astra carece de ese factor sorpresa. A la práctica es una IA multimodal y hace lo mismo, pero los ejemplos elegidos en la demo y la cadencia de respuesta no impacta tanto como lo visto con la herramienta de OpenAI. Mientras GPT-4o habla de una latencia promedio de 320 milisegundos, Google no comparte cifras. Todo sea dicho, no sería de extrañar que esta carrera por la rapidez se decante de un lado a otro en función de cuánto se esté dispuesto a pagar.
Nos quedamos con la idea final que el formato que hemos podido probar de Project Astra no es el más adecuado para ver todas sus posibilidades. En este Google I/O, directivos de Google han dejado entrever la llegada de unas futuras gafas. Tras haber visto esta demo, tengo claro que es un formato que encaja a la perfección con las IA multimodal, unas que están preparadas para sorprendernos del mismo modo que lo hicieron los chatbots hace menos de dos años.
Ver todos los comentarios en https://www.xataka.com
VER 5 Comentarios