Un estudio sugiere que los chatbots de inteligencia artificial pueden evaluarse entre sí
Las respuestas poco fiables son uno de los grandes problemas de los chatbots de inteligencia artificial. Estas herramientas están evolucionando a pasos agigantados, pero todavía reproducen sesgos y generan alucinaciones. Unos investigadores de la Universidad de Oxford han tenido una particular idea para abordar estas limitaciones: que los chatbots sean supervisados por otros chatbots.
El grupo, integrado por Sebastián Farquhar, Jannik Kossen, Lorenz Kuhn y Yarin Gal, señala que los resultados falsos han impedido la adopción de los chatbots en diversos campos. Ahora bien, el método que han diseñado, afirma, aborda el hecho de que una idea puede expresarse de diversas maneras y ha permitido a los usuarios detectar en qué momentos de la conversación deberían tener especial cuidado.
Utilizando chatbots para supervisar otros chatbots
Los investigadores hicieron una serie de preguntas de trivia y problemas matemáticos a un chatbot. Después, le pidieron a un grupo de humanos y a un chatbot diferente que revisaran las respuestas. Tras comprar las evaluaciones descubrieron que el chatbot estaba de acuerdo con los evaluadores humanos en un 93%. Los evaluadores humanos, por su parte, estaban de acuerdo con el chatbot en un 92%.
Estos hallazgos forman parte de un estudio publicado en la revista Nature titulado “Detección de alucinaciones en grandes modelos de lenguaje mediante entropía semántica”. Como podemos ver, se ha utilizado una metodología bastante manual que puede ser tomada como modelo para inspirar posibles soluciones automatizadas que aborden la falta de fiabilidad de los chatbots de IA que utilizamos a diario.
Las propias herramientas suelen incluir mensajes de advertencia sobre la precisión de las respuestas en la parte inferior de la ventana de chat. “ChatGPT puede cometer errores. Considera verificar la información importante”, dice el chatbot de OpenAI. “Gemini puede mostrar información inexacta, incluso sobre personas, así que vuelve a verificar sus respuestas”, señala la propuesta creada por Google.
Tango OpenAI como Google, y también otras compañías, han dicho que están trabajando para mejorar la fiabilidad y la seguridad de sus productos de IA. De momento, sin embargo, los resultados están lejos de ser perfectos. En muchos casos las respuestas suelen presentar un texto que, a simple vista, parece my coherente, pero puede contener desde pequeñas imperfecciones hasta grandes errores.
Imágenes | Xataka con Bing Image Creator
Ver todos los comentarios en https://www.xataka.com
VER 13 Comentarios