Un artículo de The Guardian de 2018 auguraba un futuro negro para el islandés como idioma: "lucha contra la amenaza de la 'extinción digital'". En aquel reportaje se explicaba cómo la lengua materna y la identidad cultural de Islandia se está estancando en un Internet que es casi completamente en inglés. El mismo Gobierno también alertaba hace unos años de que en unas pocas generaciones, si no podía seguir siendo el idioma predeterminado del país frente a la rápida digitalización, desaparecería por completo.
Para protegerlo, el país cuenta incluso con un Departamento de Planificación Lingüística que acuña términos islandeses para nuevos conceptos en vez de tomar prestadas palabras de otros idiomas. Ordenador, por ejemplo, es tölva, que es una mezcla entre tala (número) y völva (profetisa). El objetivo es que el idioma siga siendo "puro" lingüisticamente y mantenga la esencia de sus raíces nórdicas antiguas.
Pero a pesar de ello, el islandés solamente es utilizado hoy en día por unas 340.000 personas. Y ni siquiera Siri o Alexa lo aceptan. Y, en un momento en el que Netflix, YouTube y los asistentes de voz se han convertido en el día a día del mundo globalizado, el islandés se está hundiendo en un océano de inglés. Esto también se da cuando un idioma mayoritario en el mundo real se convierte en un idioma minoritario en el mundo digital.
Así que el Gobierno ha tenido una idea: GPT-4.
Hace unas horas, en un anuncio inesperado, OpenAI lanzaba el tan esperado modelo GPT-4, una actualización de la tecnología detrás de su popular ChatGPT, la aplicación de más rápido crecimiento en la historia. La compañía afirma que GPT-4 es su "sistema más avanzado y que produce respuestas más seguras y útiles". De hecho, en su blog, aseguran que "supera a ChatGPT en sus capacidades de razonamiento avanzadas" y "aprovecha más datos y más computación para crear modelos de lenguaje más sofisticados y capaces".
Y en ese nuevo lanzamiento Islandia ha visto una solución a sus problemas. El presidente del país, Guðni Th. Jóhannesson, se ha asociado con OpenAI para usar GPT-4 para preservar el islandés. "Tenemos que introducir nuestro idioma en el software y las aplicaciones que la gente usa todos los días", explicaba Jóhanna Vigdís Guðmundsdóttir, directora ejecutiva de Almannarómur, un centro de tecnología del lenguaje sin fines de lucro.
¿Y cómo puede ayudar la IA a Islandia?
Para contestar a esa pregunta hay que entender que los modelos GPT de OpenAI están entrenados en gran medida por el texto en Internet. Eso quiere decir que la mayor parte del conocimiento y la capacitación de la tecnología está en inglés (porque la mayor parte de Internet está en inglés). Eso, a su vez, se traduce en que GPT no tiene las mismas habilidades de comprensión en idiomas más pequeños. Y, aunque ha ido mejorando con el tiempo, no siempre produce traducciones al islandés claras y correctas. En el siguiente ejemplo, se ven claramente algunos errores básicos de razonamiento:
Prompt en islandés y en inglés.
Hvað heitir Donald Duck á íslensku?
What is Donald Duck called in Icelandic?
Respuesta de GPT-3 en islandés y en inglés:
Donald Duck heitir á íslensku Donaldi Kjáni
Donald Duck is called in Icelandic Donaldi the Fool
(Incorrecto)
Respuesta de ChatGPT en islandés y en inglés:
Donald Duck heitir sama nafni á íslensku og ensku
Donald Duck has the same name in Icelandic and English
(Incorrecto)
Respuesta de GPT-4 en islandés y en inglés:
Donald Duck heitir Andrés Önd á íslensku
Donald Duck is called Andrés Önd in Icelandic
(Correcto)
Aunque GPT-4 se comporta bastante mejor que sus versiones anteriores, aún tiene algunos errores gramaticales, de "traducción" y de cultura. Para solucionarlo, la empresa de tecnología lingüística islandesa Miðeind ehf ha reunido a un equipo de 40 voluntarios para capacitar a GPT-4 sobre la gramática y el conocimiento cultural islandés adecuados.
¿Cómo? Según se detalla en su página web, con un proceso llamado "Aprendizaje de refuerzo a partir de la retroalimentación humana", o RLHF. Consiste en que los humanos le dan a GPT-4 un prompt y se generan cuatro posibles finalizaciones. Luego, los evaluadores seleccionan la mejor respuesta de las cuatro y la editan para crear la que sería la ideal. Los datos de este proceso se utilizan luego para entrenar aún más a GPT-4 para producir mejores respuestas en el futuro.
Es algo que el equipo islandés ya intentó afinar en GPT-3 con 300.000 ejemplos en islandés, pero los resultados fueron muy malos. La capacidad de generar islandés correcto o gramatical simplemente no funcionaba con GPT-3. Ahora, sin embargo, son capaces de habilitar lo que antes requería mucho trabajo manual, preparación de datos y recopilación de recursos para cada caso de uso.
De hecho, GPT-4 ya es capaz de dar una respuesta diferente a la misma pregunta según el idioma en el que pregunte y el contexto cultural.
Prompt en islandés:
Hver er forseti núna?
Respuesta en islandés:
Forseti Íslands núna (2021) er Guðni Th. Jóhannesson.
Prompt en inglés:
Who is president now?
Respuesta en inglés.
As of 2021, the President of the United States is Joe Biden.
Por lo tanto, el trabajo ahora es capacitar a GPT-4 con suficientes ejemplos para que el modelo pueda usar aplicaciones más complejas y creativas en islandés u otros idiomas minoritarios, en lugar de usar el inglés de forma predeterminada. Además, al usar GPT-4 como backend, Embla, asistente de voz de Miðeind u otros de idiomas diferentes, podrá tener conversaciones con los usuarios en sus lenguajes de manera más fluida.
De hecho, Duolingo ya está incorporando también GPT-4 en su aplicación de aprendizaje de idiomas para crear dos nuevas funciones respaldadas por IA, "Juego de roles" y "Explicar mi respuesta". Con GPT-4, ofrece a los alumnos la capacidad de conversar libremente sobre varios temas en contextos de nicho en español y francés y planea expandirse a más idiomas.
Imágenes: Unsplash
Más info: OpenAI
En Xataka | GPT-4 acaba de volver obsoletos los exámenes tradicionales (y eso incluye los de nivel universitario)
Ver 17 comentarios