La inteligencia artificial (IA) ha demostrado ser un valioso recurso para un amplio abanico de aplicaciones. En la actualidad impulsa sistemas de asistencia al conductor como el Piloto automático de Tesla o permite el funcionamiento de chatbots conversacionales como ChatGPT. Sin embargo, aunque resulte sorprendente, no sabemos exactamente cómo funciona. Y esto se presenta como un obstáculo a la hora de mejorar la seguridad de los modelos que utilizamos a diario.
OpenAI ha anunciado nuevos métodos para desenredar el funcionamiento de GPT-4. Para ello, la compañía liderada por Sam Altman está utilizando lo que se conoce como “codificadores dispersos” o "Sparse Autoencoders" en inglés para identificar características y descubrir patrones que puedan ayudar a entender el modelo. Hasta el momento se han encontrado 16 millones de características, pero se trata de un número que debería crecer con el tiempo.
Tratando de entender ‘la caja negra’ de la IA
En el mundo de la IA no todo es una incógnita. Tenemos conceptos muy claros y definidos. Utilizamos enormes conjuntos de datos (datasets) para entrenar las redes neuronales que forman parte de los grandes modelos de lenguaje (LLM). Cuando estos son demasiado grandes y complejos como para funcionar en la infraestructura de cómputo actual recurrimos a técnicas como Mixture of experts (MoE) para dividir la capacidad del modelo en diferentes especialidades.
También somos capaces de crear modelos multimodales como Gemini 1.5 o GPT-4o que pueden procesar entradas de texto, audio e imágenes. Ahora bien, lo que sucede dentro de cualquiera de estos ejemplos es un auténtico misterio. Podemos pedirle a una IA que haga un resumen de un capítulo de un libro. Conoceremos la entrada, que es el capítulo en cuestión, y la salida, el resumen, pero no lo que sucedió dentro de la llamada “caja negra” del modelo.
Podríamos decir que no solo se trata de una caja negra, sino también de una especie de caja cerrada donde es complicado indagar lo que sucede ahí dentro. La razón de esto es que no creamos las redes neuronales artificiales que forman parte del modelo, sino que nos encargamos de entrenarlas a través de algoritmos. Sí, lo sabemos, se trata de una tecnología alucinante que no comprendemos completamente y que, en muchos casos, acaba sorprendiendo a los propios expertos.
Como explica OpenAI, las activaciones neuronales de los modelos tienen patrones impredecibles que dificultan su estudio. Los codificadores dispersos llegan para brindar un poco de luz. Estos son capaces de recuperar decenas de millones de características de los modelos para entenderlos mejor. Si bien muchas de estas características serán abstractas o insignificantes, muchas otras tendrán el potencial de mejorar la seguridad y, por consecuencia, la calidad del modelo.
Es preciso señalar que todavía queda mucho trabajo por hacer, y que la aplicación de los Sparse Autoencoders se encuentra en sus primeras etapas. Por lo pronto, OpenAI espera que los primeros resultados de esta solución se conviertan en recursos para monitorizar y ajustar el comportamiento de sus “modelos de vanguardia”. Cabe señalar que los creadores de ChatGPT no son los únicos trabajando en esto, Anthropic también está enfocada en impulsar los codificadores dispersos.
Imágenes | Xataka con Bing Image Creator
En Xataka | OpenAI acaba de acercarnos más que nunca a 'Her': su nuevo modelo de voz nos acompañará (y quizás enamorará)
Ver 21 comentarios