Google anuncia Gemini 1.5: nueva arquitectura, ventana de contexto descomunal y mayor eficiencia para destronar a GPT-4

Hace poco más de dos meses asistimos al lanzamiento Gemini, el modelo de inteligencia artificial “más grande y capaz de Google”. Este movimiento se produjo en medio de una feroz competencia entre el gigante del buscador y la compañía de IA respaldada por Microsoft, OpenAI, que impulsa el famosísimo ChatGPT.

Ahora, el propio Sundar Pichai ha anunciado la próxima generación de su modelo de lenguaje. Estamos hablando de Gemini 1.5, una propuesta que promete dar un salto significativo en sus capacidades con el claro objetivo de ponerse a la altura del modelo más famoso de la actualidad, GPT-4. Veamos sus novedades.

Google se entusiasma en la carrera por liderar la IA

No es ningún secreto que Google no lo está teniendo nada fácil en la carrera por liderar el mundo de la inteligencia artificial. Si bien la compañía de Mountain View tiene bajo su paraguas a algunos de los laboratorios de investigación de este sector más reputados, sus intentos por posicionarse no parecen estar dando los resultados esperados.

Gemini 1.5, aparentemente, busca llevar lo mejor de Google en este campo tan competitivo a usuarios, desarrolladores y empresas. El modelo está llegando inicialmente a estos dos últimos grupos, con un lanzamiento previsto para dentro de poco tiempo para el público en general. Esto quiere decir que pronto podríamos utilizarlo.

En una publicación de blog, la compañía presenta a Gemini 1.5 como una solución que es un asistente personal y una herramienta de negocios. Resulta interesante esta definición sin tenemos en cuenta que, como cuenta nuestro compañero Ricardo Aguilar, Gemini 1.0 no era el mejor reemplazo para el Asistente de Google en Android.

Cuando hablamos de Gemini, en cualquiera de sus versiones, nos encontramos con tres ediciones diferentes. Nano, que ha sido diseñada para ejecutarse localmente dentro de un dispositivo; Pro, que es la versión gratuita disponible para todos los usuarios, y Ultra, que se presenta como Gemini Advance y se accede a ella pagando.

Familia Google Gemini

Pues bien, una de las mejoras más notables de Gemini 1.5 es que su edición Pro está a la altura de edición Ultra de Gemini 1.0 (la más avanzada hasta hace minutos). En otras palabras, los usuarios tendremos a nuestra disposición un modelo avanzado cuya barrera de acceso era la suscripción Google One AI Premium de 19,99 dólares al mes.

Gemini 1.5, al igual que la versión anterior, es multimodal. Esto quiere decir que tiene capacidades que van más allá de lo simplemente textual. Puede, por ejemplo, entender imágenes. Ahora bien, este modelo llega con una arquitectura mejorada denominada Mixture-of-Experts (MoE), como la que anteriormente hemos visto en el modelo Mixtral de Mistral AI.

La principal ventaja de los MoE es que adoptan un enfoque mucho más eficiente para modelos grandes de lenguaje. Con el enfoque anterior, cuando había una pregunta, en líneas generales, todo el modelo se ponía a trabajar para brindarnos una respuesta. Ahora, Gemini 1.5 tiene “expertos” que se activan según el tipo de consulta que hagamos.

Así que, si estamos haciendo consultas relacionadas a temas literarios, solo se activarán los expertos literarios del modelo. Otros expertos, como los que están especializados en la programación, el reconocimiento de imágenes y demás tareas no estarán activos. Esto supone un ahorro importante a nivel de inferencia y promete ser mucho más rápido para los usuarios.

Otra de las mejoras notables que llegan con Gemini 1.5 es su ventana de contexto. El nuevo modelo de Google llega con una ventana de contexto estándar de 128.000 tokens, aunque “un grupo limitado de desarrolladores y clientes empresariales” tendrán acceso a una ventana de contexto de 1 millón de tokens a través de las herramientas AI Studio y Vertex AI.

Si comparamos esto con la propuesta de OpenAI identificamos una mejora notable. La versión estándar de GPT-4 ofrece una ventana de contexto de 8.000 tokens, aunque también hay una versión especial de 32.000 tokens y la llamada GPT-4 Turbo de 128.000 tokens. Estas últimas también limitadas a desarrolladores o clientes empresariales de pago.

En Xataka

Sam Altman habló de invertir siete billones de dólares en chips. Es una barbaridad, pero ha explicado mejor la cifra

Los tokens son la forma que tenemos de medir la cantidad de información que el modelo de inteligencia artificial puede recibir de una vez, algo así como leer varias páginas de un libro al instante. A mayor cantidad de tokens, mayor cantidad de datos podremos suministrar. 1 millón de tokens, según Google, equivale a 1 hora de vídeo, 11 horas de audio o 700.00 palabras de texto.

Imágenes: Nguyen Hung Vu | Google

En Xataka: La polémica de Estopa y su portada apunta hacia un debate mayor: cuánta IA vamos a permitir en las ilustraciones