Así funciona GauGAN, la herramienta de Nvidia que permite crear paisajes 'fake' a partir de simples bocetos

En el marco de la GPU Technology Conference (GTC) de Nvidia, la compañía ha presentado una novedosa herramienta llamada GauGAN. El nombre revela que dicha herramienta está basada en el uso de redes generativas antagónicas (GANs) y que sus creadores han querido hacer un guiño al pintos posimpresionista francés Gauguin.

Pero, ¿qué nos permite hacer GauGAN? Este software se basa en una técnica denominada 'normalización espacialmente adaptativa', capaz de generar imágenes fotorrealistas a partir de un determinado diseño semántico, controlado por el usuario.

Dicho diseño 'semántico' (es decir, relacionado con el significado de las palabras) se establece cuando el usuario dibuja, utilizando una herramienta similar al vetusto MS Paint, una tosca viñeta en la que cada color sólo actúa como representación de un tipo de objeto, material o ambiente. Veámoslo en funcionamiento:

Bryan Catanzaro, vicepresidente de investigación aplicada al deep learning de Nvidia, compara esta tecnología con un 'pincel inteligente' capaz de rellenar los datos dentro de mapas de segmentación en bruto. Así, es el usuario quien delimita en cada momento qué área ocupará el cielo, qué parte del mismo estará ocupado por nubes, dónde hay praderas, ríos y montañas.

En base a esa información, según explica Nvidia, si intercambiamos la etiqueta de segmentación 'hierba' por la de 'nieve', la totalidad de la imagen cambiará a una invernal (y, si la escena contenía algún árbol, pasará de estar verde y lleno de hojas a carecer totalmente de ellas). Con el mismo criterio, si convertimos parte de esa nieve en un lago, el árbol desnudo pasará a reflejarse en su superficie.

"Esta tecnología no se limita a unir piezas de otras imágenes, o a cortar y pegar texturas. De hecho, lo que hace es sintetizar nuevas imágenes, de manera muy similar al modo en en que un artista dibujaría algo".

Así, GauGAN también permite a los usuarios aplicar un filtro de estilo, cambiar una imagen ya generada para adaptarse al estilo de un pintor en particular, o mutar una escena diurna para que refleje la puesta del sol.

Una GAN capaz de mucho más que trazar paisajes

Para Catanzaro, GauGAN podría convertirse en una gran herramienta para la creación de mundos virtuales que tanto planificadores urbanos como diseñadores de paisaje o creadores de videojuegos puedan utilizar para realizar cambios rápidos en escenas artificiales y mejorar ideas de prototipos. "Es mucho más cómodo que intercambiar ideas recurriendo a simples bocetos".

El funcionamiento de GauGAN se basa en el mismo mecanismo de todas las GANs: una 'lucha constante' entre dos redes neuronales, una encargada de generar nuevas imágenes y otra de discriminar qué imágenes son o no son lo suficientemente realistas.

Dado que el modelo de deep learning de este software ha sido entrenado con un millón de imágenes reales, es capaz de detectar detalles como que los lagos reales tienen reflejos, y si la imagen ofrecida por la red neuronal generadora no los contiene, la discriminadora la descartará, hasta que la primera ofrezca una sustituta que solvente esa omisión.

Pero, si bien la herramienta hecha pública por Nvidia se centra únicamente en aspectos paisajísticos, la investigación en que se basa ('Semantic Image Synthesis with Spatially-Adaptive Normalization', firmada por investigadores de Nvidia, Berkeley y el MIT), muestra que la tecnología en que está basada ya permite también introducir personas y diversos tipos de animales, alimentos, objetos y medios de transporte.

El resultado es, siempre que el usuario no recurra a trazar formas caprichosas y alejadas del modelo real, sorprendentemente fotorrealista en la mayoría de los casos. Basta ver algunos ejemplos:

Vía | Nvidia

Ver todos los comentarios en https://www.xataka.com

VER 5 Comentarios

Portada de Xataka