El nuevo Gemini demuestra una ambición de Google: que hablemos sin parar con nuestro móvil

  • La compañía del buscador estrena un modo de conversación por voz al más puro estilo ChatGPT

  • Aterriza en Gemini, el asistente de IA para teléfonos Android que, además, estará disponible en iOS

  • También llega Pixel Screenshots, una función para aprovechar al máximo las capturas de pantalla

Gemini Voz Android
4 comentarios Facebook Twitter Flipboard E-mail

Google ha presentado este martes una renovada familia de teléfonos Pixel. Después de varios rumores y filtraciones, los Pixel 9, Pixel 9 Pro y Pixel 9 Pro XL ahora son oficiales. La compañía del buscador, no obstante, no se ha olvidado de la inteligencia artificial (IA), y ha dado a conocer varias novedades relacionadas a Gemini.

El mencionado asistente de AI abraza un sistema multimodal llamado Gemini Live que añade una serie de mejoras interesantes. Una de las más interesantes es un modo de voz que, en cierto modo, nos recuerda a lo último de ChatGPT. La promesa es que podremos conversar de manera natural con Gemini e incluso interrumpirle.

Gemini, el asistente de AI de Google, tiene un nuevo modo de voz

Antes de este lanzamiento ya podíamos hablarle a Gemini, pero el nuevo modelo quiere destacar por elementos como la fluidez (con baja latencia) y la multimodalidad. En primer lugar, el asistente promete entender el contexto y tiene cierta información sobre nosotros que puede ayudarle a hacer mejor las tareas que le pidamos.

Por ejemplo, podremos pedirle a Gemini en lenguaje natural que cree un nuevo recordatorio y añada un evento a nuestro calendario. Aquí hay dos ventajas evidentes. Si bien podíamos hacer esto antes con Google Assistant, teníamos que limitarnos a utilizar un lenguaje muy estructurado, comandos para que el móvil nos entendiera.

Captura De Pantalla 2024 08 13 A Las 14 30 13

Esta limitación está desapareciendo con el nuevo modelo. Por otra parte, la versión de Gemini que podíamos utilizar hasta este momento no nos permitía realizar acciones sobre el sistema. Era básicamente un espejo de lo que podíamos hacer en la versión web. Ahora, no obstante, asume el rol de un verdadero asistente en nuestro móvil.

Captura De Pantalla 2024 08 13 A Las 14 46 45

Gracias a su integración con Android, Gemini promete hacer mucho más que simplemente leer la pantalla: permite interactuar con varias de las aplicaciones que utilizamos a diario. Por ejemplo, tendremos la capacidad de arrastrar y soltar imágenes generadas por Gemini directamente en aplicaciones como Gmail y Mensajes.

A nivel de multimodalidad, Gemini ahora puede entender una imagen y, producto de esta capacidad, puede conversar con nosotros sobre ella. En este caso podremos tomar una fotografía de una cita médica y pedirle al asistente que creen un evento en relación a la información que ve en la fotografía. Parece algo realmente práctico y útil.

Gemi Live también deja atrás las voces con ciertas características robóticas y da paso a 10 nuevas voces que suenan mucho más naturales. Cabe señalar que esta novedad está disponible, al menos de momento, en idioma inglés para los usuarios de Android que pagan por Gemini Advanced. Google dice que "en las próximas semanas" llegará a iOS.

Pixel Screenshots, un aliado de las capturas de pantalla

La mayoría de las veces que hacemos capturas de pantalla buscamos conservar cierta información para utilizarla más tarde. Esto no es ningún secreto. Google, a través de una función llamada Pixel Screenshots, quiere que sea más sencillo utilizar esta información. Se trata de una novedad que está impulsada por Gemini Nano completamente en local.

Gemini Pixel 1

Cada vez que guardemos una captura de pantalla en un teléfono Pixel, el equipo extraerá toda la información que encuentre, como direcciones, artículos y precios. También asociará los metadatos que le acompañan, como la aplicación o la página web a la que corresponde la captura y la fecha en la que fue realizada. Todo quedará almacenado en Pixel Screenshots.

Al abrir la aplicación Pixel Screenshots nos encontraremos con varias opciones que nos invitarán a aprovechar la información obtenida a través de las capturas de pantalla. Por ejemplo, los algoritmos nos permitirán agruparlas por ideas o temas. También podremos añadirles etiquetas para identificarlas fácilmente más tarde. Las capturas parecen estar evolucionando.

La aplicación, impulsada por Gemini, también nos permitirá interactuar con la información de nuestras capturas de pantalla. Si queremos encontrar el número de seguimiento de un paquete simplemente deberíamos hacer una pregunta en lenguaje natural para obtener lo que deseamos, siempre acompañado de la imagen original de donde proviene la información.

Imágenes | Google

En Xataka | Prompt Poet es la última herramienta que ha comprado Google. La ingeniería de 'prompts' sube enteros

Inicio