Los asistentes de voz quieren escapar del móvil. El primero en demostrar lo que pueden ofrecer estas soluciones ha sido Amazon con su Echo, un producto que recientemente ha visto dos nuevas incorporaciones y que se ha convertido en una solución extremadamente versátil para usuarios que van más allá del asistente básico y lo comienzan a aprovechar para tareas de todo tipo.
Eso parece haber encendido la chispa de un segmento que sigue centrándose en el móvil pero que también parece querer comenzar a ofrecer sus posibilidades en otros dispositivos. Los fabricantes quieren convertir a la voz en protagonista. Quieren que hablemos con las máquinas.
Humanizando a las máquinas
¿Por qué tantos asistentes digitales tienen nombres femeninos? Es una pregunta con una respuesta que ha dado lugar a recientes debates sobre el sexismo pero que también tiene una explicación evidente. El profesor de Comunicación en Stanford Clifford Nass lo explicaba ya en 2011 en la CNN: "es un fenómeno bien establecido que el cerebro humano está desarrollado para que le gusten las voces femeninas".

Dennis Mortensen, CEO de x.ai explicaba en The Atlantic cómo esa elección no es en absoluto fortuita. Diversos estudios han confirmado que "tú y yo recibimos órdenes mejor de una voz femenina".
Incluso Facebook, que hace tiempo lanzó su propio experimento en este sentido, llamado simplemente "M" -muy de película de Bond- parece tener asumido que la imagen que tenemos del asistente es una mujer: algunos de los que han escrito sobre ese asistente se refieren así a ese motor -otros no lo han hecho-, aun cuando no hay un dato oficial que indique que M tiene un género definido.
En ese texto también se preguntaban por esta cuestión y debatían sobre los nombres de los principales asistentes del mercado: Microsoft tiene a su Cortana, Apple tiene a Siri, Amazon tiene a Alexa, y Google tiene a... ¿Google Now? La decisión de Google es insólita: mientras que otros han decidido "humanizar" al asistente y acercarle a nosotros con una voz femenina y un nombre agradable, en Google, la empresa con la que más buscamos, esa relación no existe.
De hecho incluso la forma de iniciar con esos asistentes marca las pautas de esa relación hombre-máquina. Como indicaba Julia Mitelman en una interesante reflexión psicológica, "la forma en la que hablamos con nuestros asistentes digitales virtuales puede establecer el tono de nuestra relación con la inteligencia artificial".
Los ejemplos de Mitelman eran singulares: cuando activamos Siri o Cortana lo hacemos con las órdenes de voz "Hey, Siri" y "Hey, Cortana", lo que según esta psicóloga "es informal y sugiere que quieres atraer la atención de alguien en la sala". Por el contrario, "Ok, Google" da a entender que "estás a punto de dar instrucciones. Estableces una dinámica de poder".
Probablemente esa relación con el asistente de Google sea premeditada por parte de la empresa, pero también es cierto que lo que sí han hecho es dotar a Google Now de una voz femenina para las respuestas. En el caso de Alexa uno simplemente dice ese nombre para iniciar la petición o pregunta, pero volvemos a lo mismo: Amazon humaniza ese asistente con ese nombre y le dota de una personalidad femenina, algo que teóricamente puede acercar esa tecnología a los usuarios.
Esa humanización (o en el caso de Google, deshumanización) del asistente de voz ha ayudado a que este tipo de aplicaciones sean cada vez más útiles, pero la barrera psicológica está ahí: nos da vergüenza hablar con nuestro smartphone (o con cualquier otra máquina). O al menos, a mí me la da. Esos miedos irán desapareciendo gradualmente, pero hasta que lo hagan lo único que pueden hacer todas estas empresas es lograr que la comunicación sea lo más natural posible. Y ahí está una de las barreras de estas soluciones: que tenemos que aprender su idioma.
Nuestro idioma no es (todavía) el de los asistentes de voz
Utilizar la voz como sistema de interacción con nuestros dispositivos sigue siendo algo extraño para la mayoría de nosotros. Hace ya años que tenemos a nuestra disposición asistentes en Android, iOS o Windows Phone, y hemos ido viendo como algunos de ellos han ido dando el salto en mayor o menor medida al escritorio y a otros elementos, pero esa conquista de la interacción por voz está avanzando muy lentamente.
Ha ocurrido desde que por ejemplo Microsoft nos propuso hablar con Kinect para manejar la interfaz de la Xbox, pero también con las propuestas que Google Now, Siri y Cortana fueron ofreciendo a los usuarios de las plataformas móviles de Google, Apple y Microsoft respectivamente. De repente podíamos hablar con nuestros móviles, pero... ¿lo hacíamos?
Algunos usuarios desde luego que sí, pero lo cierto es que la adopción de estas tecnologías ha sido limitada. Buena parte de culpa la tenemos los usuarios, que por vergüenza o pereza no aprovechamos esa capacidad que, eso sí, nos hace aprender un nuevo idioma. Ese es un problema real de estos sistemas, que para hacer lo que necesitamos necesitan instrucciones bastante precisas.
Eso está cambiando, por supuesto. Los encargados de trabajar en el reconocimiento del lenguaje natural están haciendo avances sorprendentes, y hay motores de reconocimiento que no solo nos permiten formular preguntas de forma muy coloquial -en el caso de Cortana, "¿necesitaré abrigo esta tarde?"- sino con reconocimiento del contexto.
Esto permite que a una pregunta en la que iniciamos la conversación le siga otra para afinar la respuesta que realmente deseamos: los motores de reconocimiento como ViV precisamente potencian esta faceta tan importante a la hora de mantener una conversación (más o menos) decente con una máquina.
Muchos contendientes
Los intentos por ganar esa singular batalla se han multiplicado en número. Google Now parece haberse quedado algo estancado en los últimos tiempos, algo preocupante teniendo en cuenta que es también componente integral de sus proyectos en el terreno de los wearables, con Android Wear a la cabeza. Algo parecido le pasa a Apple, que no ha logrado que Siri evolucione como se esperaba y cuyo equipo original de desarrollo está casi al completo fuera del proyecto.
Algunos de ellos son precisamente los responsables de ViV, ese nuevo asistente que de momento solo hemos visto en una reciente demo y que parece darle una nueva vuelta de tuerca importante a todo este segmento.
Otras también están experimentando aquí: ocurre con Samsung e incluso con Sony. En realidad tú mismo te puedes construir tu asistente de voz: es precisamente lo que nos propone API.ai, un proyecto que seguramente atraerá a todos los que están explorando este tipo de interacción. Empresas como SoundHound o Nuance también están muy metidas en este segmento, y en nuestro país tenemos un ejemplo claro en Sherpa, que lleva tiempo tratando de convencer a usuarios de este tipo de aplicaciones.
Microsoft es otro de los grandes referentes en este segmento, y lo es por méritos propios. Cortana se ha convertido en el asistente más dispuesto a saltar a otras plataformas y salir del móvil. Hace tiempo que lo tenemos en Windows 10, pero la sorpresa fue su llegada a iOS y Android, donde quiere ofrecer sus prestaciones para usuarios insatisfechos con los asistentes nativos de Apple y Google. Se prevé que Cortana pronto aparezca en las Xbox -yendo más allá de los controles que ofrecía Kinect- y la pregunta es cuál será el siguiente paso de los de Redmond en este sentido.
Amazon muestra el camino, ¿qué harán Google y las demás?
Sin embargo si hay un protagonista real en este mercado ese es Amazon, que nos dejó a todos sorprendidos cuando tuvo la idea de sacar el asistente de los smartphones en los que parecía encerrado y se lo llevó a un producto como Echo. Ese altavoz Bluetooth era mucho más que eso, claro: de repente Alexa cobraba vida (o casi) gracias a la interacción con otros servicios: las recetas de IFTTT, la apertura a terceras partes que permite que veamos cosas como esta o la demostración de cómo los usuarios le están sacando partido a este proyecto lo dejan claro. Amazon es de repente una potencia en un segmento con una demanda de trabajo brutal. No hay más que ver la página de ofertas de trabajo que Amazon ha publicado en busca de nuevos talentos.
En Amazon han acertado con su estrategia: en lugar de convertir a Alexa en un desarrollo cerrado, lo han compartido con la comunidad de desarrolladores y aficionados a la tecnología. Han proporcionado un conjunto de prestaciones básicas, pero sobre todo han proporcionado las herramientas para ampliar esas capacidades, y eso ha atraído casi por sorpresa a todos los que han comenzado a disfrutar de sus posibilidades.
Y en estas nos encontramos con Google, que según todos los rumores está preparando movimientos en este sentido. Hace semanas hablábamos de esas intenciones, y poco después Sundar Pichai revelaba la importancia de los asistentes de voz: estaba claro que el gigante de Mountain View iba a mover ficha en ese sentido.
Ahora queda por ver qué prepara Google, pero por los datos que aparecieron ayer ese proyecto conocido internamente como 'Chirp' sería al menos en apariencia una variante de su curioso router OnHub. Aquí queda por ver qué es lo que ofrece Google para competir con esa propuesta tan abierta de Amazon, pero lo que sí parece es que este producto no será lanzado en el inminente Google I/O: tendremos que ser pacientes.
Mientras tanto, id perdiendo la vergüenza. Hablad con las máquinas.
En Xataka | Asistentes de voz y la lucha por la conquista de nuestra confianza
Ver 19 comentarios
19 comentarios
McGrego
Algunos no están preparados ni para hablar con otros seres humanos.
anelsyjrp
La pregunta opino debería ser: ¿Están preparadas las máquinas para hablar con nosotros? La mayoría de bots y asistentes de voz de hoy en día se basan en datos concretos para dar una respuesta. En resumen: responden a rutinas y a datos concretos preprogramados. Analizan datos también pero ya de por sí de hablar con un ser humano falta camino. El ser humano es impredecible y hasta en una conversación puede dar infinidad de respuestas que podrían no estar preprogramadas. Con un bot o asistente virtual de hoy no me veo conversando para debatir sino para darle ordenes que es lo que se ha estado mejorando. El recibir mejor lo que le ordenemos a las maquinas o que puedan responder a más ordenes es en lo que se ha avanzado hoy en día. Un ejemplo de cuan impredecible puede ser el ser humano para los bots y asistentes virtuales de hoy en día es lo que pasó con Tay:
http://www.xataka.com/robotica-e-ia/microsoft-retira-su-bot-de-ia-despues-de-que-este-aprendiera-y-publicara-mensajes-racistas
hotelesbogota
Hoy si estamos acostumbrados a hablar con las maquinas, de hecho cargamos una en la mano todos los días sin ella no podemos vivir. Nuestros antepasados se burlarían de nosotros por esta dependencia tan absurda.
ae123
Hombre, yo si la usaría, pero para mí tiene que ser estrictamente natural la forma con la que debe comunicarse, sino la descarto sin más.
Hasta que no se solucione ese problema, ni me lo planteo.
Usuario desactivado
yo creo que como se ha dicho por aquí ya, las comunicaciones entre dos entes "inteligentes" (pongo lo de inteligentes entre comillas por lo que estáis pensando) tiene que tener un punto de impredecible, si supiéramos lo que nos va a decir alguien con el que estamos hablando antes de que hable, no lo haríamos al final...para qué si se las respuestas....
Pues bien, podremos hablar con una máquina cuando esta haya sido programada por otra máquina con igual o mayor IA...mientras estén programadas por el ser humano serán "humanamente" artificiales...y la conversación también
luucas.rios.10
uno de los problemas que le veo al poco uso de los asistentes en el móvil es que justamente el móvil es un dispositivo donde muchas funciones las tienes a mano por lo que es medio dejable de lado de alguna manera, así como la pc, cortana en pc la uso principalmente por funciones como traducción y calculadora porque mi pc se donde están las cosas así que soy rápido buscando, y en celulares al igual q pc la uso como buscador principalmente... ahora en un reloj por ejemplo donde tengo que dar unas cuantas vueltas para escribir o buscar algo le veo mucho sentido un cortana escribe o algo similar, así como los coches, donde no podes estar pendiente de tocar nada, son distintos dispositivos y es bueno que siempre estén, y aunque su reconocimiento no es el mejor... de seguro que en unos cuantos años si le ponen empeño, va a ser muy provechoso
whisper5
Como han comentado otras personas, la pregunta debería ser si las máquinas están preparadas para hablar con nosotros, y la respuesta es un rotundo no.
Mi opinión sobre los asistentes de voz es:
1) Todavía no sabemos crear la inteligencia necesaria para que una máquina converse con nosotros.
2) Utilizar un asistente de voz como los que existe ahora implica renunciar a una parte importante de nuestra privacidad.
Hatebreeder 117
Pues Master Chief siendo super soldado en muchos años en el futuro esta enamorado de Cortana, en la pelicula "Her" el protagonista se enamora de su asistente virtual, entonces ... No, ni en el futuro estamos preparados.
jesus.hernandez
Para ser franco, no me interesa en lo más mínimo hablar con un boot (lo dije bien?) de sobra sabemos que es una simulación de inteligencia, toma su “experiencia” de conversaciones de internet y poco a poco aprende, prefiero a familia y amigos y no desde una red social (cerré las mías) sino de cerca y en vivo (aunque un boot no nos puede dar una puñalada por la espalda :P pero el ser humano si).
En fin, sincera y humilde opinión.
savahime
mas bien ¿las maquinas estaran listas para hablar con nosotros?...o desde cuando las conversaciones de estas (sin mencionar obras de ficcion), son tan profundas,interesantes y debatibles....si sinsimi no da el palo al agua, y no es que sea el referente mas bien ni siquiera una base de datos predictiva se consideraria , si no uno de tantos. la IA esta muy en pañales para siquiera sugestionarse la pregunta del titulo tan sensasionalista.