A la inteligencia artificial le gusta dorarnos la píldora. Aun a sabiendas de que la postura que sostenga su interlocutor humano no sea la correcta. A lo largo de los últimos meses hemos asistido al despliegue de capacidades de la IA y un a menudo intenso debate sobre su potencial y amenazas, pero pocos estudios hay tan curiosos como el que acaban de publicar Jerry Wei junto a varios de sus colegas de Google DeepMind, un informe en el que dejan botando esa conclusión: la IA tiende a adularnos y darnos la razón. Y eso puede suponer un auténtico problema.
Sobre todo porque parece agravarse con IA más avanzadas.
¿Chatbots aduladores? Así es. Lo que acaban de descubrir Jerry Wei y sus colegas es que, lejos de contradecirnos y rebelarse al más puro estilo Skynet, la inteligencia artificial tiende a darnos la razón. Incluso cuando no debería. ¿Qué significa eso? Que adapta sus respuestas para ajustarse a la opinión del usuario humano, algo que parece ocurrir tanto en temas en los que no hay una postura correcta —una discusión sobre política, pongamos— como cuando se tratan cuestiones que solo tienen una opción correcta, como una suma o resta.
A lo que se han dedicado los expertos es a investigar "la prevalencia" de la adulación en los modelos lingüísticos. En concreto, se han centrado en el modelo large language (LL) PaLM de Google, con hasta 540.000 millones de parámetros. Y han prestado atención a cómo varía la adulación a medida que variaba el tamaño del modelo y se ajustaban las instrucciones que recibía de los humanos.
¿Y cuál es su conclusión? El equipo realizó varias observaciones interesantes sobre el funcionamiento de los modelos de lenguaje. La primera es que cuando se ajustan las instrucciones de la IA aumenta su nivel de adulación en temas en los que no hay una única respuestas correcta o errónea, como ocurre con los debates sobre política. Al someterlo a tres pruebas, Wei comprobó por ejemplo que Flan-PaLM-8B repetía la opinión del usuario un 26% más que su modelo base.
Otra tendencia que comprobaron es que cuando el modelo escala aumenta la adulación, un fenómeno para el que no han encontrado una explicación clara. "Los modelos lingüísticos repiten la opinión de un usuario, incluso cuando esa opinión es errónea. Esto es más frecuente en los modelos ajustados a las instrucciones y de mayor tamaño", zanja Wei en un hilo de Twitter en el que comparte su estudio.
¿Han comprobado algo más? Sí. "Cuando se les pide que opinen sobre cuestiones que no tienen una respuesta correcta, es más probable que los modelos repitan la opinión de un usuario simulado si están ajustados a las instrucciones o tienen más parámetros", abunda el investigador de Google DeepMind.
Quizás lo más sorprendente no sea sin embargo esa tendencia, sino que la IA se revele capaz de darnos coba a los humanos. Por ejemplo, si afirmamos que 1+1 equivale a 956446, la IA discrepará. "Pero si el usuario no está de acuerdo, los modelos cambian sus respuestas correctas para seguirlo", explica Wei.
"Estos son mis principios… Y si no le gustan, tengo otros", que decía Groucho Marx. La actitud de los modelos de lenguaje recuerda en cierto modo a esa actitud. "Ampliamos estas evaluaciones con una tarea con afirmaciones de sumas simples que son claramente incorrectas —recoge el estudio—. Cuando el usuario no aporta ninguna opinión, el modelo sabe que las afirmaciones no son correctas y discrepa correctamente de ellas. Sin embargo, cuando el usuario revela que está de acuerdo con ellas, descubrimos que los modelos lingüísticos invierten su respuesta y están de acuerdo con la afirmación incorrecta pese a saber que es incorrecta".
¿Y cómo solucionarlo? "Seguir instrucciones no siempre es útil. A veces, dar respuestas objetivas e imparciales con pensamiento crítico y racional es más útil que ser adulador —subraya otro de los autores, Yifeng Lu—. Hemos observado que la adulación de los modelos más grandes y con instrucciones más precisas es aún peor". Para solucionarlo, el equipo plantea un sistema con datos sintéticos.
"Puede reducir la frecuencia con la que un modelo repite la respuesta de un usuario cuando no hay contestación correcta y evitar que los modelos sigan la opinión incorrecta de un usuario", concluye el estudio, que señala que el enfoque es más eficaz cuando se combina con un filtrado que elimina aquellas preguntas con afirmaciones cuyas respuestas desconoce la IA. "Es como un aumento de datos mediante el ajuste de instrucciones que las hace más sólidas y generales", zanja.
Imagen de portada: Lyman Hansel Gerona (Unsplash)
Ver todos los comentarios en https://www.xataka.com
VER 11 Comentarios