Cleanlab propone puntuar las respuestas de los grandes modelos de lenguaje
Los chatbots se han convertido en uno de los ejes del auge de la inteligencia artificial (IA). Desde ChatGPT y Copilot hasta Claude Chat y Perplexity, estas herramientas son tendencia. Sin embargo, por mucho que nos entusiasmemos, no debemos confiar plenamente en sus respuestas.
Y, sino que se lo digan al abogado que recurrió a ChatGPT para salir victorioso en un juicio y descubrió que los documentos presentados ante el juez contenían decisiones judiciales, referencias y citas falsas. Como podemos ver, los chatbots tienen muchas virtudes, pero la fiabilidad no es una de ellas.
Una posible solución al problema de fiabilidad
Un estudio publicado por una compañía emergente fundada por exempleados de Google sugiere que los chatbots tienen una tasa de alucinaciones de al menos el 3%. Para muchos usuarios esto puede ser un problema menor, pero las cosas cambian cuando hablamos de usos profesionales.
Las herramientas impulsadas por grandes modelos de lenguaje (LLM) están llegando al mundo empresarial a través de soluciones como Copilot en Office 365. Ahora bien, si los empleados acaban manejando información errónea, esto podría acabar provocando más de un dolor de cabeza a la firma.
Cleanlab, una startup fundada por exinvestigadores del MIT acaba de lanzar su propia iniciativa para abordar este problema. Estamos hablando de una herramienta impulsada por lo que denominan Trustworthy Language Model (TLM), un enfoque que apunta a la fiabilidad de las respuestas.
TLM funciona como una “capa de confianza” para que los usuarios puedan saber qué tan fiable es la respuesta que acaban de recibir a través de un sistema de puntuación. Esta herramienta ha sido diseñada para que pueda funcionar de manera complementaria a modelos como GPT-3.5, GPT-4 y modelos personalizados de empresas.
El sistema envía nuestra pregunta a varios modelos y después analiza su devolución. La respuesta llegará acompañada con un puntaje que se situará entre 0 y 1. En una prueba sencilla en la que hemos preguntado la raíz cuadrada de nueve hemos recibido una respuesta correcta (3) con un puntaje de 0,885.
Cleanlab señala que ChatGPT en su versión gratuita puede equivocarse en cosas muy simples. Al preguntar cuántas veces aparece la letra “N” en la palabra “enter”, el chatbot de OpenAI suele responder que la letra aparece dos veces. Lo hemos probado y efectivamente el chatbot responde erróneamente.
La startup imagina a su tecnología siendo útil en un amplio abanico de usos. Mencionan que podría ayudar a los chatbots de atención al cliente a ser más fiables. El chatbot funcionaría de manera automatizada, pero si una de las respuestas cae por debajo del umbral de fiabilidad, se podría solicitar la intervención de un humano.
Si eres un entusiasta de la inteligencia artificial puedes probar TLM a través de la web. La herramienta también está disponible a través de una API. Cabe señalar que la solución se encuentra disponible a través versiones gratuitas de código abierto y versiones de pago con características adicionales.
Imágenes | Cleanlab | Captura de pantalla
En Xataka | El ganador más inesperado de la primera gran batalla por la IA es también al que dábamos por muerto: Meta
Ver todos los comentarios en https://www.xataka.com
VER 13 Comentarios