Toda la investigación y tecnología necesarias para intentar acabar con la torre de Babel

28 mayo 2014, 17:31

Juan Carlos González

Comunicarse a veces es realmente difícil, incluso cuando hablamos nuestro propio idioma. La tecnología lo ha visto como un reto desde una perspectiva que no sólo busca entenderlo, con teorías matemáticas como la de Shannon, pero también hacer hacer una traducción eficaz entre diferentes idiomas. Si las telecomunicaciones han logrado romper la barrera de distancia el próximo objetivo es el de las lenguas.

¿Llegará un momento donde todos nos podremos entender en términos lingüísticos? Estamos detrás de conseguir esta especie de piedra Rosetta digital para acabar con aquel castigo divino que sufrimos al intentar construir la torre de Babel. Microsoft ha dado un paso muy importante con su anuncio hoy pero no son los únicos trabajando en esta dirección.

De las máquinas de traducción a las redes neuronales artificiales

Ahora hablar de cosas como la traducción simultánea y usar la tecnología para tal propósito nos parece algo muy innovador. Sin embargo tiene ya unos cuantos años de historia. Ya en 1951 se empezó a gestar la primera máquina de traducción, tres años más tarde se hizo la primera demostración pública en la universidad de Georgetown.

El trabajo de investigadores como Yehosha Bar-Hillely Warren Weaver nos demostraba que una máquina podía decodificar el texto, interpretarlo y hacer una traducción no sólo literal sino también del significado que tenía originalmente. Más que una solución final fue una tecnología que empezó a atraer el interés de muchos otros científicos para sumarse a este campo.

Se llegaron a fundar academias en Estados Unidos relacionadas con la tecnología de la computación lingüística y se lograron hacer progresos significativos. Sin embargo, un informe de 1966 tiró las expectativas por los suelos ya que el progreso había sido insuficiente. De golpe se perdió mucha de la fe que se había depositado en este proyecto.

Aún con eso no se perdió el interés por este proyecto y en Europa se presentó en 1970 un software capaz de traducir el texto de los papers a diferentes idiomas. Un proyecto ambicioso pero bastante realista para demostrar que se podía hacer. ¿Por qué? Muy sencillo: el lenguaje de los papers es bastante aséptico lo cual facilita pasar de un idioma a otro en comparación con otro tipo de textos.

Pasaron los años y mientras la tecnología se hacía más económica empezaron a aparecer compañías dedicadas a la traducción. La primera fue Trados, 1984, aunque el primer software para el usuario final fue desarrollado en la Universidad del estado de Kharkov y era capaz de manejarse con ruso, inglés, alemán y ucraniano. De ahí ya saltamos a la web con SYSTRAN, que además era gratuito y Altavista Babelfish en 1997.

Lo cierto es que sería injusto atribuirle todo el mérito a las máquinas de traducción a la hora de derribar esa torre de Babel. Su éxito a día de hoy es también el de otras tecnologías que han servido para que podamos disfrutar de servicios como el que usan Microsoft y Google a día de hoy.

Los sistemas de reconocimiento de voz tienen un peso muy importante. De hecho, lo que ha presentado hoy Microsoft está basado en el estudio de un algoritmo basado en la red neuronal artificial.Un paradigma convencional de programación con el que se modelan los problemas para posteriormente buscar una solución mediante un algoritmo codificado para buscar una respuesta.

Y Skype se convirtió en algo más que una herramienta de videoconferencia

Cuando Microsoft compró Skype, muchos creyeron —con bastante atino— que la adquisición iba enfocada a reforzar la posición de los de Redmond en el mundo de la mensajería y dar carpetazo a la era MSN Messenger. Así fue, pero hay una realidad menos conocida que nos enseña que esta operación escondía otros intereses que empiezan a ver la luz .

Durante décadas, se ha utilizado la tecnología para desarrollar herramientas de traducción de todo tipo. No sólo para ayudar a las personas sino también para entender el lenguaje humano y poder comprenderlo a un nivel que nos permita comunicarnos con cualquier persona independientemente de nuestro idioma. Microsoft no ha escatimado en recursos y ha puesto todo los medios necesario para presentar por fin sus sistema de traducción simultánea en tiempo real.

El trabajo que hoy presenta la división de investigación de Microsoft es el fruto de muchos años buscando una herramienta no sólo de traducción sino enfocada al habla. El reto ha sido crearla pero también perfeccionarla para que sea útil y no una mera demostración técnica de lo que se podía hacer. Querían hacer algo que fuera útil para las personas, para quienes nos comunicamos día a día.

Hace unos meses empezó una beta en un pequeño grupo cerrado. Hoy, nuestros compañeros en Genbeta nos enseñan un vídeo para ver cómo funciona. Es el trabajo de más de diez años de investigación por parte de Microsoft y la colaboración con Skype ha sido clave para poder llevar a cabo este proyecto.

Todo empezó en un centro de investigación en Beijing donde se empezaron analizando secuencias de conversaciones de 24 horas. Con el tiempo y según se refinaba la tecnología se iban procesando cadenas cada vez más larga para seguir mejorando la eficacia de este sistema.

pasaron los años y fue en 2010 desarrollaron lo que se conoció como Translating! Telephone. Fue la base para seguir avanzando en el proyecto que tenían en mente tanto Skype como Microsoft para llevar a cabo su último gran anuncio: un teléfono que nos permita hablar con otra persona independientemente del idioma que hable.

Uno de los problemas que tuvo que afrontar este grupo de investigadores fue la obtención de conversaciones para analizar. Se obtuvieron muchos resultados de las redes sociales, que además incluían el reto de ser una forma de hablar diferente a la que normalmente usamos cuando tenemos a una persona delante nuestra.

Sin embargo el gran obstáculo fue hilar las palabras para darle un sentido. Este ha sido el verdadero desafío para todos los sistemas de traducción, independientemente de su naturaleza. No sólo vale con hacer una consulta rápida en el diccionario sino que hay que respetar una serie de reglas gramaticales sencillas o complejas, en función del idioma, para dar sentido a toda una oración.

A todo esto hay que sumarle el reto de la interpretación de la voz. Es cierto que este tipo de tecnologías han evolucionado mucho y a día de hoy asistentes como Siri, Cortana o el de Google Now nos parecen de lo más normal y eficaces, aunque sus defectos tienen por supuesto. Según añadimos variables al sistema que propone Microsoft más nos damos cuenta de lo difícil que es el reto tecnológico para entender diferentes lenguas.

Si tenéis acceso, algo caro la verdad, merece la pena echarle un vistazo a algunos de los papers que han publicado los investigadores que han trabajado con Microsoft. Por ejemplo, en este documento escrito por Yu y Deng hablando por primera vez de la red neural profunda, un concepto que luego se ha utilizado posteriormente en muchos trabajos de sistemas de reconocimiento de voz.

Google, de Translate a Word Lens

Todos aquellos que vivieron los primeros años de la popularización de Internet recordarán traductores como el de Babylon. Herramientas que nos permitían de forma algo tosca traducir fases. Es cierto que no servía para textos largos pero para sacar las ideas claves a veces era más que suficiente.

Con el tiempo Google, en la época donde no paraba de ampliar servicios web lanzó Translate: un traductor de diferentes idiomas que suponía un paso adelante respecto a lo que habíamos visto. Es cierto que no era, ni sigue siendo, perfecto pero para salir del paso era más que suficiente.

Con la llegada de Android, en Mountain View decidieron integrar su servicio de traductor no sólo a través de la aplicación web en sí sino también a través de una aplicación que permitía traducir los textos de fotos. ¿Os acordáis de todos aquellos captchas que ponéis día sí y día también en las diferentes web? Bien, gracias a vuestro trabajo introduciendo textos con tipografías deformadas se ha mejorado muchísimo los algoritmos para que se puedan reconocer sin necesidad de que le digamos nosotros qué pone.

El último paso de Google ha sido comprar la aplicación para móviles Word Lens. A través de la realidad aumentada, este traductor es capaz de interpretar el texto con ayuda de la cámara y hacernos una traducción al momento. Lo interesante es que funciona sin conexión por lo que tendremos que reservar un poco de memoria en el teléfono pero podremos usarla en cualquier lugar independientemente de que tengamos conexión o no.

La adquisición por parte de Google, que se produjo hace menos de dos semanas, debería servir como impulso para ayudar a mejorar el funcionamiento de este servicio de traducción. Es una aproximación diferente pero igualmente interesante a la que propone Microsoft. Ojo también al futuro a través de Google Glass. Mountain View va a por los textos y en Redmond están centrados en la voz y las conversaciones.

El próximo paso: la estabilidad

¿Cuál es el próximo reto para las herramientas de traducción? Creo que todas las herramientas relacionadas con la comunicación, en todas sus vertientes, tienen el mismo problema: que deben ser fiables siempre para que sigamos usándolas. Somos pacientes, uno más que otros, pero nos gusta usar herramientas que sean eficaces y que no tengamos que estar repitiendo el proceso varias veces con cierta frecuencia.

Si hablamos de los problemas de los sistemas de reconocimiento de voz vemos que los avances que se han hecho en los últimos años son pequeños incrementos que apenas se notan de un avance a otro. Eso sí el objetivo parece el mismo para la mayoría de los investigadores: que el rendimiento sea mucho más robusto tanto a la hora de reconocer acentos como para eliminar el ruido del ambiente.

Los traductores en cambio tienen mucho más trabajo por delante ya que tienen que lidiar con el hecho de que los lenguajes sean entes vivos que cambian, se transforman y crecen. Al final hablar de forma estándar se ajusta a varias situaciones pero hacer traducciones de jergas o palabras que no siempre tienen una traducción precisa son problemas muy difíciles de afrontar.

También se habla de la importancia de la inteligencia artificial para dar más valor a los traductores. Un algoritmo que sea capaz, por ejemplo, de diferenciar entre diferentes significados de una palabra entendiendo el contexto. Es más, que pudiera traducir documentos tomando como referencia otros textos para que fuera más preciso. Quizá sea el futuro pero va ser un camino arduo.

Va ser difícil, nadie dijo lo contrario, pero de conseguirlo supondría un paso muy importante dentro del acercamiento de la tecnología al lenguaje y la traducción. De momento los dos principales proyectos que hay en el frente son realmente esperanzadores y sobre todo útiles. A los que hay que sumarles también, aunque su naturaleza sea distinta, el trabajo de empresas como Duolingo que quiere enseñarnos idiomas de todo tipo.

Ver todos los comentarios en https://www.xataka.com

VER 15 Comentarios

Portada de Xataka