Cuando se entrena un sistema de inteligencia artificial para transcribir de voz a texto es necesario usar muchos pares de audio y texto. Es decir, le damos a la IA el sonido "esto es un gato" y ese mismo sonido transcrito, de forma que sea capaz de asociar cada palabra a un sonido. Eso es perfecto para lenguajes muy extendidos, como el inglés o el español, pero no para los idiomas más minoritarios. Facebook, sin embargo, asegura haber encontrado una solución: wav2vec-U, con "U" de "Unsupervised".
¿Qué es wav2vez-U? Es una forma de construir un sistema de reconocimiento de voz que no requiere ningún tipo de par transcrito. Simplemente aprende del audio y de texto desemparejado, lo que elimina por completo la necesidad de tener audio transcrito. Para ello, el sistema se vale de una GAN (red generativa antagónica) que, de acuerdo a Facebook, compite de tú a tú con los mejores sistemas supervisados de hace unos años.
Un mundo de posibilidades para transcribir lenguajes minoritarios
Tal y como detallan Alexei Baevski, Wei-Ning Hsu, Alexis Conneu y Michael Auli en el blog de Facebook AI, su método comienza con el aprendizaje de la estructura del habla a partir de audio sin etiquetar. Usando su modelo anterior, wav2vec 2.0, segmentaron la grabación de voz en unidades de voz que se corresponden con sonidos individuales. Por ejemplo, "cat", gato en inglés, tiene tres sonidos: "/K/", "/AE/" y "/T/".
Para enseñar al sistema a entender las palabras en un audio, usaron una GAN que, como todas las GAN, consiste en un generador y un discriminador. El generador selecciona cada fragmento de audio, predice el fonema correspondiente al sonido en cada idioma e intenta engañar al discriminador. Este es, en sí mismo, otra red neuronal que ha sido entrenada con las salidas de texto del generador y texto real de diferentes fuentes dividido en fonemas. Esto es importante: texto real de diferentes fuentes, no transcripciones del texto que estamos intentando transcribir.
La labor del discriminador es evaluar si las secuencias de fonemas predichas ("/K/", "/AE/" y "/T/" si hablamos de "cat") parecen realistas. Las primeras transcripciones del generador son malísimas, pero con tiempo y el feedback de discriminador, se vuelven más y más precisas. Y es todo un logro, ya que el sistema en sí no sabe que "gato" se transcribe como "gato", sino que entiende que, por los sonidos que componen la palabra, debe escribirse así.
Para poner a prueba el sistema, Facebook usó los tests TIMIT y Librispeech y asegura que "wav2vec-U es tan preciso como el estado del arte de hace solos unos años, sin utilizar ningún dato de entrenamiento etiquetado. Todo sea dicho, estos dos benchmarks miden el rendimiento en habla inglesa, un idioma con mucho corpus de texto hablado y tranascrito. El sistema de Facebook, sin embargo, es más interesante para idiomas minoritarios, como el suajili, el tártaro o el kirguís, cuyo corpus de datos es más reducido.
Es, sin duda, un gran paso adelante en lo que a transcribir voz se refiere. Ahora tocará ver cómo lo implementa Facebook, si es que llega a hacerlo. Por otro lado, la compañía de Zuckerberg ha publicado el código necesario para construir este sistema de reconocimiento de voz. Puede encontrarse en Github y cualquier persona puede acceder a él para trastear y probarlo.
Más información | Facebook AI
Ver todos los comentarios en https://www.xataka.com
VER 1 Comentario