Meta, la empresa antes conocida como Facebook, se propone crear una plataforma de traducción de idiomas basada en inteligencia artificial. La novedad esencial no es esa, sino el soporte de un montón de idiomas que hasta ahora no habían sido contemplados por otras herramientas de este tipo.
200 idiomas. El sistema desarrollado por Meta, llamado NLLB-200, (de "No Language Left Behind", es decir, "Ningún idioma quedará olvidado") es especialmente ambicioso por su soporte en 40.000 direcciones distintas gracias a la combinación de esos 200 idiomas distintos soportados. Google Translate soporta 133, por ejemplo.
"Idiomas de bajos recursos". En esa oferta se incluirán idiomas mucho menos habituales en los traductores y que tienen menos de un millón de pares de frases traducidas disponibles para entrenar al sistema. Entre ellos están diversos idiomas que se hablan en África o India y que no están soportados por herramientas de traducción comercial.
Inteligencia artificial + validación humana. El sistema de Meta AI, descrito en un estudio científico, explica cómo en NLLB han combinado un sistema de validación humana (FLORES-200) de la traducción con un mecanismo de creación de frases de entrenamiento y diversas técnicas de modelado para mejorar la traducción.
¿Cómo lograr una traducción decente? Los sistemas de traducción automática suelen cometer errores notables. Para evitar problemas, en Meta crearon un conjunto de datos de prueba con 3001 pares de frases en cada idioma cubiertas por el modelo, cada una de las cuales se tradujo desde el inglés al idioma destino no por la máquina, sino por traductores profesionales humanos que no solo lo eran, sino que hablaban ese idioma destino de forma nativa.
Los resultados prometen. A partir de ahí compararon la traducción automática con las referencias humanas usando un benchmark popular en este ámbito, el llamado BLEU (BiLingual Evaluation Understudy). Esa prueba ofrece puntuación a las traducciones y dejó claro que el modelo de Meta mejora en un 44% los resultados de los mejores sistemas automáticos de traducción que existían hasta ahora.
Pero cuidado con la traducción automática. El resultado es prometedor, pero como indicaba un experto de Microsoft en este ámbito, no son definitivos. En traducciones con idiomas con pocos recursos los errores de traducción pueden ser difíciles de detectar —por ejemplo, afirmar con seguridad algo como verdadero aunque no lo sea—, y por tanto será importante tomar esas traducciones con cierta perspectiva. También es importante integrar listas de toxicidad para detectar y evitar groserías y contenido potencialmente ofensivo.
Un proyecto Open Source. Otra de las características destacadas de este sistema es que el código estará abierto y se publicarán las herramientas de investigación, lo que podría hacer que incluso más idiomas acabaran siendo añadidos a ese motor de traducción.
Más conocimiento para todos. La aplicación práctica de este sistema de traducción es obvia: que más y más personas tengan acceso a contenido en internet que estaba en idiomas que no manejan. La Wikipedia es un buen ejemplo, y de hecho Meta se asoció con Wikimedia Foundation para tratar de apoyar los sistemas de traducción de la enciclopedia online.
Ver 4 comentarios