Alexa lleva años conviviendo en los hogares de muchas personas. Desde su concepción, cada vez son más los que se decantan por crear un ecosistema inteligente en casa, siendo una de las primeras decisiones escoger un asistente de voz como Alexa, Siri, o el propio Asistente de Google para lanzar los comandos de voz. Amazon le ha dedicado grandes esfuerzos a su producto, el cual cada vez va contando con nuevas e interesantes características. Sin embargo, estamos a nada de descubrir un cambio significativo a la hora de interactuar con este asistente.
No es ninguna sorpresa el hecho de que Amazon esté trabajando en una versión de Alexa que se nutra de las capacidades de un modelo de lenguaje. OpenAI agitó a toda la industria con el lanzamiento de ChatGPT, y si bien las grandes tecnológicas escogieron ser cautas con el lanzamiento de un producto similar, durante los últimos meses la cosa se ha agilizado en gran medida. Y ahora tenemos a empresas como Microsoft, Google o Meta en un juego de tira y afloja por el dominio de este sector aún en pañales.
Amazon dota a Alexa de nuevos superpoderes
No obstante, Amazon también lleva un tiempo haciendo sus deberes en todo esto de la inteligencia artificial generativa, y si bien la compañía ya nos dio pistas de qué le depara a Alexa en el futuro, ha sido durante su último evento en Washington D.C. donde pudimos ver materializado parte de ese futuro. Porque sí, Alexa también va transformarse en una especie de ChatGPT por voz.
La transición ya ha comenzado en Estados Unidos, país donde se ha anunciado esta nueva versión de Alexa, y que irá llegando poco a poco a todos los dispositivos que integren este asistente de voz. Sin embargo, su funcionamiento tiene algunos matices interesantes que nos ha aclarado Carlos Pérez, máximo responsable de Alexa en las Américas. Y es que esta nueva versión de Alexa utilizará las capacidades del modelo de lenguaje de Amazon, aunque de momento en determinadas ocasiones.
Durante la presentación de Amazon, la compañía anunció varios dispositivos, entre ellos una nueva generación de Fire TV Stick 4K y 4K Max, un nuevo Echo Show 8, y la guinda del pastel de todo entorno domótico que se precie: un panel de control para colocar en la pared (o en una mesa con un soporte adaptado) que esté siempre a nuestra disposición para gestionar todos los dispositivos inteligentes del hogar. Un dispositivo al que han llamado Echo Hub y que ofrece una interfaz más sencilla y adaptada a la gestió.
Para Amazon, el alma de todos los dispositivos mostrados, junto a los que ya conocemos, siempre ha sido Alexa. Y por tanto, viendo hacia qué lado está virando el sector, era necesario un cambio. Es por ello que han decidido nutrir a Alexa de un modelo de lenguaje al más puro estilo GPT-4 para que el usuario pueda conversar por voz de forma más natural y sin tener que activar al asistente mediante la wake word.
Amazon mostró varios ejemplos de esta nueva tecnología en su presentación, así como en las demos que nosotros mismos pudimos probar en el evento. Por un lado, el modo ‘Let’s talk’ permite a los usuarios poder conversar con Alexa de la forma que lo haríamos con ChatGPT, aunque en este caso con la particularidad de que utilizaríamos nuestra propia voz para interactuar con el asistente. Esto ya es un gran paso, puesto que se trata de una interacción más “orgánica” que estar bombardeando a texto al chatbot de turno. Además, no solamente nos puede valer para tener una conversación con el asistente, sino que también prometen que influirá en la manera con la que controlamos nuestros dispositivos o realizamos determinadas acciones.
No solamente de conversar va la cosa
Amazon también ha preparado algunas aplicaciones en sus dispositivos y en Alexa para que sus usuarios vayan conociendo las capacidades de su LLM (Large Language Model). Quizás las más llamativas se encuentren precisamente en los dispositivos Fire TV. Por ejemplo, con los “fondos ambientales” podremos escoger entre una biblioteca de cientos de imágenes y obras de arte para colocar de salvapantallas en nuestro Fire TV o compartir con otras personas. Sin embargo, esta función también nos permite generar una imagen con IA de lo que nosotros queramos, directamente desde el mando del Fire TV. Incluso también podemos modificar alguna de las que tengamos en la galería dándole a la IA las indicaciones necesarias.
Otra de las funciones que los usuarios podrán aprovechar de Alexa se encuentra en el propio buscador del Fire TV, donde podremos conversar con Alexa e indicarle el tipo de película, serie u otro contenido que nos apetezca ver. Por ejemplo, si nos gustó la película ‘Interstellar’, pero no nos acordamos del nombre de Christopher Nolan, podemos indicarle al asistente que nos muestre todas las películas disponibles “del tío que hizo Interstellar”. También podemos decirle al asistente qué nos apetece ver con detalle y Alexa intentará acercarse lo máximo posible a nuestras indicaciones.
Estos dos ejemplos, aunque no sean la cúspide de la innovación, son básicos para que el usuario pueda entender a lo que se está enfrentando con la nueva versión de Alexa basada en un LLM. Y es que parece que poco a poco la compañía irá mostrando todas sus capacidades mediante ejemplos similares. No obstante, aunque la biblioteca de fondos ambientales sí llegue a los nuevos Fire TV Stick 4K Max, las funciones de IA se reservan para un lanzamiento a futuro, ya que de momento todo se queda en una demostración.
En cuanto a las capacidades de Alexa con LLM detrás, fue el mismo Dave Limp, actual vicepresidente de los dispositivos y servicios de Amazon, el que nos ofreció algunos ejemplos de lo que esta nueva versión del asistente es capaz.
Según Limp, Alexa podrá entender todo tipo de frases conversacionales y responder, e interpretar el contexto de forma eficaz. De hecho, según Pérez, que Alexa interprete una conversación en tono sarcástico ha sido uno de los grandes retos, ya que en una conversación hay todo tipo de factores que se deben de tener en cuenta para que el asistente pueda ofrecer una respuesta de manera ágil y con sentido.
"Cuando Dave estaba en el escenario, se movió del dispositivo, empezó a hablar con nosotros y el dispositivo seguía activo," comentaba Pérez. "Es decir, tenía que distinguir que no le estaba hablando a Alexa y cuando regresó a hablarle en ese momento reactiva la conversación porque te estás dirigiendo al dispositivo," continuaba. "Esto es super complejo de lograr sobre todo por cómo dividir las ideas, cómo darle la atención al modelo, cuándo lo necesitas y cuándo no lo necesitas," añadió Pérez.
Otra de las grandes características que Amazon promete con su nuevo modelo de lenguaje, es el hecho de que podamos hacer que Alexa realice varias acciones a la vez con tan solo un comando de voz. Por ejemplo, podríamos indicarle a Alexa que nos encienda o apague varias luces de la casa simultáneamente, u otro tipo de dispositivos o electrodomésticos inteligentes que tengamos conectados en el ecosistema, entre otras tareas similares. Esto es útil, ya que no tendremos que estar mencionando la palabra 'Alexa' constantemente para realizar cualquier acción.
Además, los desarrolladores de terceros también le podrán echar el guante a estas nuevas capacidades. Para ello, Amazon pondrá a disposición de los desarrolladores una serie de APIs que podrán aprovechar para integrar comportamientos adicionales a su LLM. De esta forma, sería posible interactuar con Alexa de forma personalizada en base a las acciones que le pidamos para el control de ciertos dispositivos. Aunque claro, este comportamiento personalizado dependerá de la implementación por parte de los desarrolladores y su apertura a compañías de terceros.
Durante la presentación, se mostraron las capacidades adicionales integradas por la compañía especializada en iluminación GE Cync. De esta manera, al decir ‘Alexa, pon un ambiente espeluznante aquí,’ la bombilla pasaba a tomar un color algo más tétrico, encajando con la temática de Halloween.
Así pues, Amazon promete que los desarrolladores contarán con herramientas para modificar el comportamiento de sus dispositivos y que éstos se adapten al modelo de lenguaje de Alexa. Amazon aseguró estar trabajando con empresas como GE Cync, Philips, iRobot, Roborock, y Xiaomi, aunque abrirá el programa para más compañías y que las capacidades de su LLM se puedan extender también al resto de dispositivos de terceros.
Para Alexa, así como para cualquier otro producto similar, la IA generativa podría significar el renacer de los asistentes de voz inteligentes. Si bien llevamos años en los que parece un sector totalmente estancado, las posibilidades que alberga la integración de un LLM puede hacer que al menos no se le empiecen a ver las costuras a dichos asistentes.
El modelo de lenguaje ha sido optimizado para la interacción por voz y respuestas rápidas
Sin embargo, según Amazon, Alexa aprovecha las capacidades de su modelo de lenguaje de una manera optimizada para el uso por voz. De esta forma, la compañía ha querido priorizar las respuestas rápidas y que puedan generar una conversación fructífera con el asistente, por lo que no deberíamos encontrarnos con una respuesta extremadamente larga basada en un párrafo de Wikipedia.
Hay que tener en cuenta que, el asistente debe de ser eficaz y a la vez ágil con las respuestas para que la conversación sea todo lo “natural” posible. Para Amazon esto es un gran reto y Carlos Pérez nos ha puesto al corriente de cuál ha sido la visión de la compañía para abordar el problema.
"Es una tecnología específicamente diseñada para operar con la voz, y esto es gran parte de lo que queremos resaltar," afirmaba Pérez. "Esto es totalmente diferente a lo que están haciendo otras compañías con chatbots o con avances en navegadores, porque esto está pensado y optimizado para trabajar con la voz," continuaba. "Necesitas que las experiencias sean cortas, que si le preguntas a Alexa no quieres que te responda con un ensayo de 30 minutos, quieres que sea útil, que tome acciones correctas, que no alucine y esté encendiendo la luz equivocada de tu hogar," añadió.
Alexa se reservará las respuestas impulsadas por su LLM para determinados momentos. Es decir, que si queremos poner una alarma, o cualquier otra tarea cotidiana que no requiera de demasiado esfuerzo por parte del asistente, es muy posible que Alexa funcione como de costumbre. Es por ello que veremos este nuevo nivel de Alexa solamente en ocasiones que lo requieran, como el hecho de querer tener una conversación con el asistente, querer gestionar múltiples acciones de nuestros dispositivos inteligentes, o interactuar con alguna aplicación en específico impulsada por su LLM.
Por el momento, las capacidades que nos mostrará esta nueva versión de Alexa serán conversacionales. Aquí hay grandes ventajas, ya que le diremos adiós al hecho de estar constantemente activando el asistente al decir ‘Alexa’, y también tendremos la oportunidad de poner a prueba al asistente en situaciones difíciles de captar para una IA por el tono de la conversación o el contexto. Por ejemplo, si queremos encender el aire acondicionado, podemos simplemente decirle al asistente ‘Alexa, tengo calor,’ o también, ‘Alexa, quiero que mi habitación parezca el Círculo Polar Ártico,’ etc.
Los riesgos que conlleva esta nueva versión de Alexa
Sin embargo, integrar un LLM en un asistente de voz también conlleva sus riesgos. Entre ellos está la posibilidad de que la IA alucine, como hemos vivido ya con ChatGPT, Bard y similares. En este caso es todavía más peligroso, pues actuar de una manera que no deba en situaciones críticas, podría significar en una pérdida de confianza por parte del usuario, como el hecho de añadir una alarma en una hora equivocada, o que el asistente se invente la información.
Desde Amazon aseguran haber hecho grandes esfuerzos para que su IA no alucine, o al menos en las indicaciones en las que no deba de hacerlo. Para ello habrá que ser escépticos y ver el verdadero funcionamiento de la IA con más tiempo y detenimiento. Carlos Pérez nos ha hablado también sobre la importancia que le ha dado la compañía a este tema y su forma de abarcarlo:
"Para traer la parte de IA generativa a la experiencia directa al consumidor debemos asegurarnos de que no hay alucinaciones, tanto en la casa inteligente como en el contenido que estás buscando en Fire TV o las respuestas que le va a estar ofreciendo a los niños en casa," contaba Pérez. "Nosotros debemos de ser conscientes de que esta tecnología va a estar en el hogar, así que es por ello que hemos estado invirtiendo tanta atención en que esto sea un componente crítico antes de su lanzamiento," continuaba.
Otro tema importante está en la privacidad. Este hecho es vital para garantizar la confianza de sus usuarios, ya que nadie quiere que Alexa escuche y exponga las conversaciones que tengamos en casa. Hablando con Pérez sobre el asunto, nos aseguró que el asistente no recogería nuestras conversaciones para entrenar su nuevo modelo de lenguaje. Eso sí, habrá algunas acciones y ajustes que sí utilizará la compañía para que el LLM en el que está basado esta nueva versión de Alexa nos ofrezca una experiencia personalizada para toda unidad familiar.
"Va a haber ciertas cosas dentro de la experiencia de Alexa que van a servir para entrenar las preferencias específicas de tu perfil, pero lo que es en el entrenamiento del modelo en sí no se va a incorporar las conversaciones privadas que tengas en tu hogar," aseguraba Pérez cuando fue preguntado por cómo utilizaría nuestra información Alexa.
En definitiva, todo indica a que Alexa vendrá con un importante cambio durante los próximos meses, aunque en España tendremos que esperar algo más hasta que el asistente implemente los cambios. Por el momento, la nueva versión de Alexa se ha mostrado en Estados Unidos, por lo que aún queda para que su incorporación se complete. La firma todavía no ha querido dar fechas concretas.
Si bien es un paso lógico para Alexa, todavía es pronto para sacar conclusiones. Sin embargo, está claro que Amazon no quiere quedarse atrás en la carrera de las IAs generativas, y Alexa era el producto que más encajaba en sus planes para poner en marcha este proyecto.
En Xataka | Los mejores 21 juegos para Alexa: lista completa y cómo instalar
Ver 5 comentarios