El Barcelona Supercomputing Center (BSC) y la Biblioteca Nacional de España han presentado hoy un nuevo proyecto que combina inteligencia artificial y el estudio de nuestro idioma. Se trata de MarIA, un modelo de IA disponible en abierto que tiene como objetivo mejorar el uso del idioma español por parte de otros sistemas de inteligencia artificial.
El proyecto ha sido entrenado en el superordenador MareNostrum y se han utilizado archivos de datos de la Biblioteca Nacional. Un trabajo para el que se han utilizado fondos del Plan de Tecnologías del Lenguaje y ha sido liderado por la investigadora Marta Villegas, del grupo de minería de textos del BSC-CNS.
Procesando 59 TB del archivo de la Biblioteca Nacional
Las posibles aplicaciones de MarIA van desde "los correctores o predictores del lenguaje, hasta las aplicaciones de resúmenes automáticos, chatbots, búsquedas inteligentes, motores de traducción y subtitulación automática, entre otros", explican los responsables del proyecto. Estamos ante un modelo abierto que puede servir para entrenar a otros sistemas a mejorar su uso del idioma español, básicamente permitiéndoles "acceder" a todo el conocimiento ya procesado por MarIA.
Esto es así porque mientras MarIA sí se ofrece de manera abierta, muchos de los textos y archivos en los que se basa no lo están. No es sino este proyecto una manera de la Biblioteca Nacional de flexibilizar el acceso a sus sistemas para aquellos profesionales o proyectos que busquen ofrecer respuesta en español.
Nace MarIA, un sistema de IA experto en comprender y escribir español. Ha sido entrenado en MareNostrum con datos de la @BNE_biblioteca y ha contado con financiación del Plan-TL @SEDIAgob @carmeartigas @_minecogob y del Future Computing Center 👉🏻 https://t.co/S87I6j3hD7 pic.twitter.com/RH4Q4CsznQ
— BSC-CNS (@BSC_CNS) July 28, 2021
MarIA es un conjunto de redes neuronales entrenadas para comprender la lengua, su léxico y los mecanismos para expresar el significado. Según describen, el modelo logra "trabajar con interdependencias cortas y largas y son capaces de entender, no sólo conceptos abstractos, sino también el contexto de los mismos".
Para desarrollar este modelo se utilizaron 59 terabytes del archivo web de la Biblioteca Nacional. Se procesaron para eliminar números de páginas, gráficos, oraciones que no terminan, codificaciones erróneas, oraciones duplicadas y frases en otros idiomas y se enviaron al superordenador MareNostrum para pasarlo a limpio tras 6.910.000 horas en paralelo de los procesadores. El resultado fueron 201.080.084 documentos limpios que ocupan un total de 570 gigabytes de texto limpio y sin duplicidades.
Según defienden los responsables, este modelo es varias ordenes de magnitud más grande y mejor que los modelos de la lengua española disponibles en la actualidad. Una vez obtenido el archivo se utilizó tecnología basada en Transformer, ya probada con el inglés, para que la IA aprenda a adivinar el contexto de cada palabra. MarIA dispone, en sus dos modelos liberados, de hasta 125 y 355 millones de parámetros.
Tras crear este modelo, el trabajo del equipo de investigación pasa por ampliar la fuente de archivos con textos y archivos adicionales, como las publicaciones científicas del CSIC. Adicionalmente está prevista la creación de un modelo parecido en catalán, gallego, euskera, portugués y español de Hispanoamérica. Habrá que ver qué curioso nombre reciben en cada uno de ellos.
Imagen | Gabriel Sollmann
Ver 10 comentarios