En menos de año y medio, María habló más de 100.000 veces con diferentes usuarios. Una media de casi 200 chats diarios con una duración promedio de más de tres minutos. Los temas principales que trató: sexualidad, aborto, gripe o el calendario vacunal, además de casi 40.000 peticiones de cita médica en Andalucía. Durante el tiempo que estuvo en activo, María no solo presumió de eficiencia sino también de haberse ganado la confianza de los pacientes. Su entidad virtual no fue un inconveniente.
"Fuimos pioneros con la introducción de este asistente personal para manejar el colapso en centros de salud en la campaña de la gripe A", recuerda Pilar Manchón, fundadora de Indisys. Eso fue en 2010, cuando aún nadie hablaba de chatbots. Tres años más tarde, Manchón vendió su empresa a Intel, donde estuvo trabajando hasta 2015. De allí pasó a dirigir el área de Interfaces Cognitivas de Amazon y, hace justo un año, a la vicepresidencia de Roku como directora del área de inteligencia artificial (IA).
La sevillana, afincada en California (EE.UU.), se ha dejado ver en Madrid en un evento del think tank de la Fundación Innovación Bankinter, en una edición de su Future Trends Forum sobre IA. Allí nos cuenta su historia: "Desde pequeña siempre había tenido dos pasiones, por una parte, la lengua; por otra, la ciencia y la tecnología. Después de estudiar Filología y Lingüística seguía con una espinita clavada, con un cierto grado de insatisfacción, hasta que encontré el campo de la lingüística computacional, donde podía aunarlo todo", cuenta.
Se fue a la Universidad de Stanford en 1999 con una beca Fullbright a hacer parte de su doctorado y acabó quedándose tres años. En ese tiempo construyó una interfaz de voz para el periódico Usa Today y trabajó como Arquitecta de Tecnología y Lingüista Computacional Sénior en la entonces start-up NetByTel, centrada en la creación de sistemas de diálogo. Allí le entró el gusanillo del emprendimiento. "Me picó el bicho", bromea.
Con la idea de emprender en la cabeza, Manchón aceptó la invitación del investigador Gabriel Amores para volver a la Universidad de Sevilla a terminar su doctorado y continuar investigando en el grupo de Lingüística Computacional. "Los resultados que conseguimos en el producto e investigación fueron espectaculares", afirma. Se trataba de un sistema de diálogo de iniciativa mixta "que conceptualmente se aproximaba mucho más a una conversación natural de cualquier otra tecnología disponible en ese momento incluso hoy en día". Era capaz -dice- de reducir llamadas de cinco minutos a 30 segundos.
La experta señala que era un avance muy significativo con respecto a los sistemas de respuesta de voz interactiva (IVR), que eran muy rígidos y funcionaban como un árbol de opciones. "El nuestro, que todavía está en el mercado, te permite decir lo que quieres directamente, ya que usa tecnologías de procesamiento del lenguaje natural. Es decir, tiene un gestor de contexto y de diálogo que le permite entender toda la frase y tener una conversación más flexible, sin obligarte a seguir un camino", explica.
La odisea de emprender
Con ese producto entre manos y su conocimiento del mercado de sistemas de diálogo, tras haber pasado año y medio en NetByTel, Manchón vio clara la oportunidad. Lo que no sabía es que esta no venía sola, sino acompañada de palos y muchas piedras en el camino. En 2003 fundó Indisys junto a Gabriel Amores y José Francisco Quesada. "El primer reto fue crear un plan de negocio, que desarrolló gracias a su paso por una especie de MBA acelerado del Instituto Internacional San Telmo.
Con ello, se puso a buscar fondos allá donde quisieran escucharla. "El nivel de inversión en España en aquellos momentos era tristísimo. Las barreras eran muchas y las herramientas pocas o inexistentes", lamenta. En 2004 ganaron el programa de televisión 'Generación XXI', cuyo premio -dice Pilar- eran 700.0000 euros de financiación "que nunca recibimos", una furgoneta y un viaje al Instituto Tecnológico de Massachusetts (MIT).
Cuando Manchón consiguió su primer set de inversores, Quesada, que además de su socio era amigo personal, les dejó. "Nos traicionó. Se llevó nuestra propiedad intelectual, nuestro programa, y se lo ofreció a los inversores que yo había conseguido. Tres meses después, montaron la empresa con mi plan de negocio y con nuestro software, cuyos derechos habíamos comprado a la Universidad de Sevilla", relata.
Manchón y su otro socio no se dieron por vencidos. Consiguieron un par de inversores ángel y buscaron proyectos de investigación becados que les aportaran algo de efectivo. En 2007, recibieron 500.000 euros de Invercaria, la empresa de capital riesgo de la Junta de Andalucía, que posteriormente les traería disgustos, al formar parte de una macrocausa judicial por corrupción.
Poco después, en 2008, sacaron su primer producto y, cuando por fin consiguieron salir de los números rojos, llegó la crisis. "Se paralizaron todos los proyectos que habíamos firmado en 2008 con nuestros clientes y tuvimos que volver a lo de antes: buscar préstamos y cualquier programa de subvenciones", cuenta la lingüista.
Dado que el mercado español estaba imposible, se fue -cual mochilera- a buscar dinero fuera. En 2011 tocaron suelo. "Yo no tenía sueldo y a duras penas llegábamos a pagar al equipo. Se nos fueron dos programadores principales y una chica que rompió el contrato de confidencialidad, se fue a la competencia y les vendió información confidencial. Nos salían rana en todos sitios", se compadece. Además, había ganado un premio para realizar el programa de verano de la Singularity University que finalmente no le permitieron disfrutar. "Me lo quitaron por estar sobrecualificada", afirma.
Finalmente, en 2012, Manchón consiguió el interés de Intel Capital y una inversión del fondo catalán de capital riesgo Inveready. "Ya habíamos conseguido también algunos clientes extranjeros, uno en Chile y otro en Australia, otro en Italia, tras mucho sudor y lágrimas", comenta. Así que, en 2012, Indisys pasó de estar casi en la bancarrota a cerrar una ronda de inversión de cinco millones con Intel e Inveready. Y además la lingüista volvió a ganar el premio para asistir a Singularity University, que esta vez sí pudo aprovechar.
Poco después, en 2013, Intel compró Indisys por 26 millones de euros. Pilar volvió a cruzar el charco y trabajó allí -en la división de Client Computing- hasta 2017. Primero como directora de Operaciones y Desarrollo Técnico de Negocio y luego como directora general de Asistentes Digitales Inteligentes y Voz. En 2017 se unió a Amazon como directora de interfaces cognitivas y en 2018 a Roku, una plataforma de transmisión de contenidos de televisión y reproductor multimedia donde está creando su bebé (del que dice no poder dar detalles) desde cero.
Asistentes virtuales sociales
Con todos estos aprendizajes, ¿qué tiene Manchón que decir sobre las tecnologías lingüísticas, y en especial sobre los asistentes virtuales? ¿Cuáles con su impacto, su potencial y sus aspectos positivos y negativos? "Se trata de un paquete de tecnologías que se han unido bajo una misma categoría pero que en realidad son muy diferentes y tienen requisitos distintos en cuanto a rendimiento, datos, etc.", explica.
Por una parte está el reconocimiento de voz: transcribir el contenido de audio -la voz, lo que dice una persona- a una serie de palabras. Por otra está la comprensión del lenguaje natural, que implica entendimiento del lenguaje, estableciendo correlaciones entre lo que vemos y lo que creemos. Manchón cree que en realidad estos sistemas ejercen una ‘competencia sin comprensión’, un postulado ampliamente compartido -y también discutido- en la comunidad científica, propuesto por el filósofo de la mente y científico cognitivo Daniel Dennett. Se refiere al hecho de que, a nivel funcional, un sistema puede alcanzar un nivel de rendimiento (competencia) que en contextos humanos se atribuiría a la comprensión (es decir, la inteligencia) pero sin comprenderlo.
Otra de las tecnologías implicadas es la gestión del diálogo: "Si quieres tener una conversación, hay que entender los turnos de palabra, saber a quién le toca hablar, cómo consigo relacionar lo que ha dicho la otra persona y la información que hemos compartido con lo que he dicho yo, y hacia dónde va la conversación según lo que ambas partes sepamos", aclara.
También está la generación del lenguaje natural: una vez que tenemos una idea de qué va la interacción y hemos decidido el transcurso de la misma, la máquina debe comunicarse de forma que otro ser humano pueda comprenderla. Generar una tarea, un mensaje, una información, sin importar el qué, en lenguaje natural. "Eso es la generación de lenguaje natural, construir una frase gramaticalmente decente", dice Manchón. La síntesis del habla, por su parte, hace que sea posible generar voz.
¿Y qué es lo próximo? "La multimodalidad y la multitarea multimodal. Vamos a dejar atrás la voz y el texto, pensad en una visión más completa de un asistente virtual que pueda ver y sentir y sepa acerca de otras cosas aparte de lo que tú le dices. Si digo algo como 'Enséñame eso' o 'Sube esa persiana de allí', ese asistente virtual tendría que saber, literalmente, a qué estoy señalando para entender lo que le digo", describe. Así que, además del lenguaje, está la interacción de todas estas modalidades contextuales que necesitamos poner en común para saber cuál es la verdadera intención según el contexto en el que ocurran.
"Además de toda esta inteligencia funcional, tenemos un componente social y emocional porque los seres humanos somos criaturas muy necesitadas. Para depositar nuestra confianza en una entidad semiinteligente que desempeña un papel en nuestra vida, tenemos que tener algún tipo de conexión emocional. Si no, se la atribuiremos igualmente", explica Manchón. Pone como ejemplo de ello el caso de María, la asistente virtual desarrollada para la Junta de Andalucía: "Los usuarios decían sentirse más cómodos ante la máquina a la hora de realizar consultas de información sexual porque no se sienten juzgados, pero a la vez hablaban de ella como si fuera una persona", afirma.
Otro componente -añade la experta- es la detección de personalidad: nuestra capacidad para detectar el tipo de personalidad que uno tiene a través del lenguaje. Y luego está la sintonización, que tiene más que ver con tener un comportamiento coherente para que las expectativas del usuario en cuanto a la interacción no se desajusten.
Vigilancia a la vista
La complejidad de los asistentes virtuales y las necesidades técnicas que requiere afrontarlas chocan con aspectos delicados. Estos están presentes en todos los ámbitos de nuestra vida. "Alexa, Google Home, Cortana, Siri, etc. están en casa, en el coche, en la oficina... podrían estar en cualquier parte, así que saben mucho de nosotros", afirma Manchón. La propiedad de datos, la gestión de datos, quién posee esos datos, cuántos datos estamos compartiendo, si estamos compartiendo más de lo que queremos, cómo dices lo que dices, cuándo lo dices, a quién se lo dices, en qué tono se lo dices...
"Cuando un asistente virtual nos ofrece recomendaciones, ¿en interés de quién son esas recomendaciones realmente?"
Pero claro, el aprendizaje automático aprende por observación. "Una vez que se observa un patrón, ¿cómo te digo que no me gusta eso, que no lo quiero, que es incorrecto? Cuando pedimos una recomendación a Alexa, nos dirá lo mejor para nosotros o para las empresas que han pagado por aparecer ahí? Cuando un asistente virtual nos ofrece recomendaciones, ¿en interés de quién son esas recomendaciones realmente?", cuestiona.
La lingüista computacional asegura que hay empresas que utilizan las conversaciones que tenemos, por ejemplo, con una empresa de telecomunicaciones, para determinar nuestro perfil: qué tipo de persona eres, si pueden ofrecerte sus productos con éxito, si pueden venderte algo o hacer venta cruzada contigo, si eres una persona que se enfada fácilmente...
"Crean un perfil sobre ti y tú no sabes a dónde va a parar ese perfil. Podría afectar una solicitud de trabajo, una solicitud para una hipoteca, para la universidad, o tu seguro, o tus decisiones financieras. Por tanto, las empresas, sociedades, y servicios que están fuera de tu alcance te juzgan como usuario basándose en información que no puedes controlar. Ni están cualificados para hacerlo, ni tienen permisos ni hay nada que valide esa información", sostiene.
Por otra parte, estos sistemas pueden usarse con fines loables como detectar comportamientos de depredadores sexuales en la red, sobre todo con niños; o detectar acoso o cómo se manipula a la gente a través de las redes sociales. Las tecnologías lingüísticas también se pueden aplicar al análisis y clasificación de documentos y para ayudar en materia de educación, para hacerla accesible y más fácil para que ellos que no pueden estudiar. Manchón considera fundamental "extraer la complejidad de la inteligencia artificial a través del lenguaje para empoderar a otros y que puedan utilizarla, y así crecer más rápido y mejor", concluye.
Ver 4 comentarios