Bienvenidos a la era de la IA de bolsillo: Google plantea toda una revolución con Gemini Nano

Había muchas expectativas con el lanzamiento de Google Gemini, y tras el anuncio de ayer al fin sabemos lo que tenemos entre manos: no uno, sino tres modelos multimodales de IA que competirán con ChatGPT.

El primero de ellos, Gemini Pro, ya está disponible a través de Google Bard, y aunque el más ambicioso es Gemini Ultra, hay especial interés con el pequeño de la familia, Gemini Nano. La razón es importante: abre la puerta a una nueva era en la que contaremos con esa "IA de bolsillo", o 'on device', que gracias a nuestros móviles estará disponible en todo momento y que además será independiente de la nube.

Bienvenidos a era de la IA "on device"

Con Gemini Nano Google ha querido ofrecer un modelo mucho más eficiente y específicamente orientado a poder funcionar directamente en local, en nuestros dispositivos, y sin necesidad de conectarse a la nube. Esa es la principal y gran diferencia con modelos como ChatGPT o Bard, que ciertamente podemos usar desde el móvil —a través de un navegador— pero que funcionan desde la nube en grandes servidores que se encargan de procesar y generar las respuestas.

Captura De Pantalla 2023 12 07 A Las 9 49 05

¿Para qué contestar a los WhatsApp cuando puede hacerlo la IA?

Con Gemini Nano todo ese procesamiento y generación de texto se produce directamente en nuestros dispositivos, y eso plantea beneficios importantes. Entre ellos, que los datos que utilizamos no abandonan el dispositivo y no se comparten con terceros, al menos, hasta donde sabemos. Estamos, pues, ante modelos de IA de bolsillo que pueden ejecutarse directamente en nuestros smartphones incluso sin que estemos conectados a redes de datos.

Como explican los responsables de Google en el blog de desarrolladores Android, eso permite que con Gemini Nano podamos crear "resúmenes de textos de alta calidad, respuestas inteligentes contextuales —como el ejemplo de WhatsApp de la imagen justo encima de estos párrafos— y corrección gramatical y de pruebas avanzada". Los desarrolladores interesados en crear aplicaciones que aprovechen la potencia de Gemini Nano pueden registrarse en la plataforma de Google.

En Xataka

Google lanza PaLM 2 con un objetivo claro: lograr cambiar las tornas y ganarle la batalla a ChatGPT y GPT

El debut de Gemini Nano y de la era de la IA de bolsillo se ha producido en el Pixel 8 Pro, el buque insignia de la compañía. Este smartphone contará con opciones de IA generativas como la capacidad de resumir por puntos una conversación de teléfono pregrabada.

Un modelo más eficiente y con Android AICore como componente clave

Estamos ante el modelo más eficiente de los tres que ha presentado Google, algo obvio si tenemos en cuenta que su destino es poder correr no en servidores, sino en nuestros móviles. Como los propios responsables de Google explican en el informe de producto, hay dos versiones distintas de Nano. La primera es Nano-1, con 1.800 millones de parámentros (1.8B). La segunda es Nano-2, con 3.250 millones de parámetros (3.25B).

Además el modelo está cuantizado en 4 bits para su despliegue. Esa cuantización se refiere a un proceso de reducción de la precisión de los pesos y las activaciones del modelo de valores de coma flotante de 32 bits a enteros de 4 bits.

Este proceso de cuantificación reduce significativamente la huella de memoria del modelo, por lo que es más adecuado para su despliegue en dispositivos con recursos limitados, como smartphones o dispositivos IoT. Aún así, aseguran en Google, este modelo cuantizado alcanza un rendimiento comparable o incluso superior al modelo original de 32 bits del que se parte.

En el centro de este despliegue está Android AICore, un nuevo servicio de sistema que es el que permite hacer uso de los modelos fundacionales como Gemini Nano directamente en nuestros móviles Android.

En Xataka

He pasado tres días de retiro científico con la élite de la investigación en IA en España. Esto me han contado

Este nuevo componente de Android 14 es además "privado por diseño", y entre otras cosas habilita los procesos de ajuste fino a través del llamado Low Rank Adaptation (LoRA), una técnica que adapta grandes modelos de lenguaje (LLMs) como el propio Google PaLM 2 para que se ajusten a tareas específicas y todo ello en dispositivos "limitados" como nuestros smarpthones.

Esto es solo el principio

El lanzamiento de Google Nano es prometedor, pero es cierto que hoy por hoy sus prestaciones y aplicaciones prácticas son limitadas. La realidad es que solo una pequeña parte de los usuarios —los que tengan un Pixel 8 Pro— podrán comenzar a usarlo y solo podrán hacerlo en un par de escenarios muy concretos. Resumir conversaciones o contestar a mensajes de forma automática es interesante, pero ciertamente queremos mucho más de estas IAs de bolsillo.

De hecho, este despliegue no significa de momento que vayamos a contar con un "ChatGPT de bolsillo" o un "Google Bard de bolsillo": las prestaciones del modelo no están destinadas de momento a sustituir al buscador de Google —puede que nunca lo estén, eso sería tirarse piedras contra su propio tejado—, sino a proporcionar formas de aprovechar mejor nuestro dispositivo y de ganarle tiempo al tiempo.

Los modelos de IA generativa en la nube como ChatGPT o Bard no parecen por tanto estar amenazados por esta nueva era de IA de bolsillo: estamos más bien ante compañeros de viaje que actuarán como "copilotos" —como le gusta decir a Microsoft— de esa experiencia, pero directamente desde el móvil, como si fueran aplicaciones independientes y separadas.

A partir de aquí, eso sí, las posibilidades parecen enormes, y estamos solo ante el principio del camino. Uno que puede acabar siendo una pequeña revolución en sí misma.

En Xataka | Meta, IBM y otras forman The AI Alliance. Su objetivo: defender el desarrollo de modelos de IA Open Source