En los últimos años hemos visto avances impresionantes en el mundo de la inteligencia artificial y, particularmente, en la rama del procesamiento del lenguaje natural. GPT-3 es el mejor ejemplo de ello, pero también BERT. El "problema" es que, mientras estos modelos brillan en las tareas de lenguaje natural, siguen a la cola en razonamiento cuantitativo. En mates, por ejemplo.
Resolver preguntas matemáticas y científicas no solo es procesar lenguaje, sino que requiere analizar enunciados, notación matemática, aplicación de fórmulas y uso de símbolos. Es complejo, sin duda, pero unos investigadores de Google han publicado el que, dicen, es un "modelo de lenguaje capaz de resolver cuestiones matemáticas y científicas mediante el razonamiento paso a paso". Su nombre: Minerva.
Un tren sale de Madrid a una velocidad de 250 km/h y otro de Barcelona a...
Según explican Ethan Dyer y Guy Gur-Ari, investigadores a cargo del paper "Solving Quantitative Reasong Problemos with Language Models", Minerva resuelve problemas de razonamiento cuantitativo generando soluciones que incluyen cálculos numéricos y manipulación simbólica sin depender de herramientas externas, como una calculadora.
El modelo analiza y responde a las preguntas matemáticas combinando lenguaje natural y notación matemática, de forma que el resultado es una explicación completa y entendible del problema. Para muestra, el problema bajo estas líneas, aunque en GitHub se pueden encontrar otros tantos de diferentes ámbitos.
Minerva está basado en PaLM (Pathaways Language Model), al cual se ha sumado un entrenamiento adicional consistente en 118 GB de artículos científicos de arXiv y páginas webs que contienen expresiones matemáticas en LaTeX y MathJax, entre otros formatos. Básicamente, el modelo ha aprendido a "conversar utilizando la notación matemática estándar", según los investigadores.
El funcionamiento, por lo demás, es bastante similar a otros modelos del lenguaje: se generan varias soluciones y Minerva asigna probabilidades a los distintos resultados. Todas las soluciones llegan (casi siempre) a la misma respuesta, pero con pasos distintos. Lo que hace el modelo es usar la votación por mayoría para elegir el resultado más común y darlo como respuesta final.
En la imagen superior, publicada por Google, puede verse el resultado de Minerva en diferentes benchmarks STEM (Math, MMLU-STEM y GSM8k). De acuerdo a Google, "Minerva obtiene resultados de vanguardia, a veces con un amplio margen". Sin embargo, el modelo no es perfecto y también comete errores.
Según detallan desde Google, Minerva se equivoca de vez en cuando, aunque sus errores son "fácilmente interpretables". En palabras de los investigadores, "aproximadamente la mitad son errores de cálculo, y la otra mitad son errores de razonamiento, en los que los pasos de la solución no siguen una cadena lógica de pensamiento". Otra opción es que el modelo consiga la respuesta correcta con un razonamiento defectuoso (falso positivo). A continuación hay un par de ejemplos.
Finalmente, los investigadores señalan que el modelo tiene algunas limitaciones, como que las respuestas del modelo no pueden ser verificadas automática. El motivo es que Minerva genera respuestas usando lenguaje natural y expresiones matemáticas LaTeX, "sin una estructura matemática subyacente explícita".
Más información | Google
Ver 9 comentarios