La inteligencia artificial de OpenAI ya genera imágenes de la nada a partir de un texto que describa lo que queramos ver

OpenAI, una de las entidades que más avances está haciendo en el ámbito de la inteligencia artificial ahora mismo, tiene dos nuevas IAs. DALL-E y CLIP son capaces de encontrar asociaciones entre conceptos visuales y textuales a partir de miles de millones de parámetros GPT-3. ¿Resultado? Le pedimos una habitación con una cama blanca y una pecera y nos crea varias imágenes con una habitación con una cama blanca y una pecera, como se puede apreciar en la imagen siguiente.

OpenAI ha anunciado la creación de dos sistemas de inteligencia artificial multimodal. En ambos casos, se busca realizar una mejor asociación entre conceptos visuales y conceptos textuales. Por una parte tenemos a DALL-E, que es capaz de generar imágenes a partir de una descripción en texto. Por otro lado, está CLIP, una inteligencia artificial capaz de reconocer visualmente las imágenes y categorizarlas de forma instantánea.

Ambas inteligencias artificiales aprovechan la potencia de GPT-3, el modelo de lenguaje de OpenAI presentado durante 2020 y que sorprendió a muchos. GPT-3 es capaz de generar diseños, conversar y debatir o programar como pudimos ver en multitud de ejemplos que salieron.

En Xataka

Tres expertos en inteligencia artificial sobre GPT-3: "avanzando más que nunca a pasos agigantados"

"Crea una imagen de una nuez partida por la mitad"

DALL-E es el primero de estos sistemas de inteligencia artificial multimodal. Su propósito no es otro que generar de la nada imágenes basadas en una descripción dada. Según OpenAI, para ello utiliza una versión de GPT-3 de 12 mil millones de parámetros. Esto le permite crear diferentes versiones de lo que se le pide con una precisión asombrosa en muchas ocasiones.

Lo interesante aquí es que es capaz de generar imágenes de conceptos que existen y otros que no existen también. Por ejemplo si se le pide que cree una imagen de una nuez partida por la mitad lo hace porque sabe cómo es una nuez partida por la mitad. Sin embargo también puede crear un reloj verde con forma de pentágono o un caracol que a la vez es un arpa.

Las imágenes, evidentemente, no tienen la calidad de una fotografía real. Sin embargo en objetos simples y bien definidos la calidad puede llegar a ser asombrosa y pasar desapercibido el hecho de que realmente no exista. Ejemplo de ello es "una tetera con la misma tetera debajo y el texto GPT":

Entendiendo qué hay en una imagen

CLIP por su parte está destinada a realizar un proceso casi contrario. Gracias a que ha sido entrenada con 400 millones de partes de imágenes y texto de Internet, es capaz de reconocer al instante a qué categoría pertenecen las imágenes que se le muestran. El sistema reconoce objetos, caracteres, localizaciones, actividades, sujetos y más.

Con esto a CLIP se le puede dar una imagen para que la describa de la mejor forma posible. La IA devuelve una serie de descripciones indicando qué tanto por ciento está segura de ello.

En Xataka

De qué serán capaces la inteligencia artificial y el machine learning en 10 años: los mayores expertos nos responden

Si bien CLIP puede ser tremendamente competente a la hora de clasificar algunas imágenes, para otras se queda corta. Por ejemplo no tiene problemas para reconocer un avión o un estudio de televisión, pero sí que no entiende muy bien cuando se trata de una imagen satelital o un lince en el campo.

Más información | OpenAI

"Crea una imagen de una nuez partida por la mitad"

Entendiendo qué hay en una imagen

Recibe "Xatakaletter", nuestra newsletter semanal

Explora en nuestros medios