ChatGPT y otras IAs necesitan enormes conjuntos de datos para evolucionar: se pueden agotar tan pronto como en 2026

La inteligencia artificial (IA) está avanzando a pasos agigantados. En 2022 vimos aparecer generadores de imágenes a partir de texto tan sorprendentes como DALL·E 2, Stable Diffusion 2.0 y Midjourney. Cuando todo parecía que el año iba a cerrar sin más novedades notables en este campo, apareció ChatGPT y generó una auténtica revolución.

Estas herramientas no pasaron desapercibidas y rápidamente empezaron a ser adoptadas en diferentes escenarios. Por consecuencia, el mundo empezó a prepararse para hacer frente a los desafíos que llegan de la mano de la IA, desde las polémicas por el posible incumplimiento de los derechos de autor hasta su uso en ámbitos académicos.

Sin embargo, el aparentemente desenfrenado avance de esta tecnología podría alcanzar un límite pron. Las posibilidades que ofrecen las creaciones de empresas como OpenAI no se producen por arte de magia. El secreto está en enormes conjuntos de datos (datasets), y los estamos consumiendo más rápido de lo que los producimos.

Conjuntos de datos, el secreto detrás de ChatGPT y otras apps de IA

Los conjuntos de datos son esenciales para las tareas de aprendizaje automático. En el caso de ChatGPT, estos proporcionan la información necesaria que le permite producir respuestas coherentes y naturales. Mientras más grandes y variados sean los datasets utilizados, más capaz es el modelo de aprender a producir una amplia variedad de textos.

Si tomamos como ejemplo a DALL·E, en líneas generales, los datasets proporcionan al modelo de IA ejemplos de imágenes y sus correspondientes descripciones. De esta forma, utilizando una red neuronal que ha sido diseñada específicamente para procesar entradas de texto, puede generar imágenes a partir de descripciones textuales.

Puede que te preguntes, entonces, dónde está el problema. Según un grupo de investigadores de Epoch AI, una organización que estudia el desarrollo de la inteligencia artificial, los datasets de alta calidad que se están utilizando para entrenar a los mencionados modelos de lenguaje avanzados se agotarán en 2026, lo que podría perjudicar su desarrollo.

De acuerdo a un documento publicado por los investigadores en el archivo en línea ArXiv, la demanda de conjuntos de datos de alta calidad para el entrenamiento de modelos de lenguaje de IA está creciendo aproximadamente un 50% cada año. La generación de estos conjuntos de datos, en cambio, solo crece a un ritmo del 7% anual.

Ahora bien, el proceso para generar conjuntos de datos de calidad es muy importante. Recordemos que estos recogen información pública y deben ser lo suficientemente grandes como para que el modelo aprenda de forma efectiva. Además, deben ser variados y coherentes. Aquí entra en juego trabajo manual humano, que se encarga de revisar y limpiar los datos.

Este proceso, según explican desde Epoch AI, es lento y costoso. Existen, sin embargo, herramientas que ayudan automatizar algunos procesos de limpieza de los datasets. Incluso, la posibilidad de utilizar la IA para revisar los modelos, pero esto conlleva riesgos, como la proliferación de errores y sesgos que podrían afectar el modelo.

Queda por ver qué es lo que sucederá de aquí a 2026. Si los datasets empiezan a agotarse, como predicen los investigadores, la evolución de la IA podría volverse mucho más lenta a medida que pasa el tiempo. Pero por lo pronto, los entusiastas de la inteligencia artificial esperan con ansias la llegada de GPT-4, la evolución del famoso GPT-3 que da vida a ChatGPT.

Microsoft, que es un socio estratégico de OpenAI (invirtió 1.000 millones de dólares en la compañía y ofrece en exclusividad su servicio de computación en la nube Azure), considera implementar un chatbot de IA para revivir a Bing. Google, por su parte, se prepara para defender su liderazgo en el sector de las búsquedas tras la posible implementación de este tipo de chatbots conversacionales avanzados por parte de la competencia.

Imágenes: Portada generada con DALL·E 2 por Javier Marquez | Captura de pantalla de ChatGPT

En Xataka: He jugado una partida de rol con ChatGPT y se ha montado una película digna de Oscar

Ver todos los comentarios en https://www.xataka.com

VER 12 Comentarios

Portada de Xataka