Mi problema con los asistentes de voz es su problema con los acentos

Dos escoceses entran a un ascensor. No es un ascensor cualquiera: no tiene botones, sino que está equipado con reconocimiento de voz. Quieren ir a la planta once ("eleven"), pero rápidamente se dan cuenta de que la máquina no entiende su acento. Elevin, ileven, oleven... prueban a decirlo de todas las formas posibles, pero el ascensor se limita a decir "perdona, no te he entendido". La situación se vuelve cada vez más tensa hasta que, como no podía ser de otra manera, acaban gritando 'Freedom' al más puro estilo de William Wallace.

Es un skecht de 'Burnistoun', un programa de la BBC de finales de la década pasada, pero podría haber ocurrido ahora mismo. De hecho, estos días ha circulado mucho un vídeo sobre los problemas que una señora (también escocesa) tenía para que Alexa le pusiera una canción. Y pasará más porque, si, como parece, la voz es la siguiente gran plataforma, los acentos se han convertido en uno de los problemas tecnológicos del momento.

¿Hay un problema con los acentos?

Hace unos días, contábamos nuestras primeras impresiones de Google Home en Español. Home viene con tres españoles el de España, el de México y el de EEUU; de la misma forma, viene con muchos ingleses (americano, británico, canadiense, australiano, indio o singapurense). No es casualidad: los acentos son importantes.

En 2017, había 24,5 millones de dispositivos basados en voz solo en Estados unidos y, según ComScore, se espera que para 2020 la mitad de las búsquedas que hagamos serán vía voz. Sin embargo, como los mismos fabricantes reconocen, hay muchos frente abiertos.

Rachael Tatman, data scientist en Kaggle y y doctora en lingüística por la Universidad de Washington, ha estudiado con mucho detalle el reconocimiento automático del habla de varias variantes del inglés. Utilizando el subtitulador automático de Google y el Bing Speech de Microsoft, averiguó que efectivamente había diferencias muy importantes entre acentos.

El escocés era el acento que peor se entendía (Google no llegaba a reconocer ni la mitad de las palabras) seguido de cerca de los acentos sureños de Estados Unidos. También trabajaban peor con mujeres y niños (posiblemente por lo agudo de sus voces).

Es decir, sí, hay un problema con los acentos. Los desarrolladores suelen defender que lo único que garantiza un entendimiento correcto es el uso del dispositivo porque, la inmensa mayoría de ellos, aprenden progresivamente de nuestra dicción, pronunciación y giros lingüísticos. Pero, claro, es difícil (incluso exasperante) hablar con dispositivos que no nos entienden. ¿Por qué tienen tantos problemas?

Lost in translation

Básicamente porque no hay datos. Más allá de las 7.000 lenguas vivas que hay en el mundo, si nos fijamos en las 10 ó 12 lenguas más habladas, el número de acentos es inmanejable. Sobre todo, porque la mayor parte de las grabaciones que tenemos a mano son de idiomas estandarizados, cultos y alejados del día a día. Históricamente, la mayoría de estos sistemas se ha entrenado en entornos universitarios (muchas veces de élite). Algo que en EEUU es casi garantía de escasa diversidad lingüistica y social.

Para solucionarlo, los desarrolladores tiraban de bases de datos poco actualizadas como las de 'Call Home', un proyecto de los años noventa en la que se realizaron cientos de llamadas a numerosos sitios de Estados Unidos para grabar, transcribir y estudiar los acentos regionales de todo el país. Es mejor que nada, pero con la evolución enloquecida de los dialectos (sobre todos los urbanos) 'Call Home' ya se ha quedado corta (y muy desactualizada).

Más allá de eso, el "problema de los acentos" es uno de los asuntos más interesantes que se están desarrollando hoy por hoy. No sólo por el desarrollo en sí mismo, sino porque va de la mano de un cambio fundamental en el seno de la concepción que la sociedad tiene de la lengua: la idea de que no hay acentos "correctos" e "incorrectos". No hay un solo español, como no hay un solo inglés.

Un futuro lleno de incertidumbre lingüística

La gran esperanza de los investigadores son las plataformas que recogen mejor el habla real de la gente. Youtube, Twitch y las plataformas de podcasts permiten analizar muchísimos contenidos menos estandarizados que la televisión y la radio convencionales. Sin embargo, el proceso es lento y la presión por adoptar este tipo de dispositivos es fuerte.

Por eso, los lingüistas empiezan a temer que el proceso sea el contrario. Es decir, que se conviertan en elementos de estandarización que resuelven el "problema del acento" incentivando a los hablantes para que se ajusten al acento estándar (y ayuden a asentar prejuicios sobre el uso del idioma). Le he preguntado a mi Google Home cuál será el futuro y, por lo pronto, hace como si no me hubiera entendido.

Imágenes | David Goehring

Ver todos los comentarios en https://www.xataka.com

VER 44 Comentarios

Portada de Xataka