Esta red neuronal une varias fotos fijas para hacer una imagen 3D con un realismo asombroso

La detección de profundidad y el avance del software ha permitido a las cámaras y dispositivos en general crear imágenes en tres dimensions cada vez más fácil. Facebook lo hace de forma automática con cualquier imagen en 2D y NVIDIA también ha mostrado de lo que es capaz. No obstante, en ninguno de los casos es tan espectacular como con NeRF, una nueva red neuronal que consigue imágenes en 3D especialmente realistas.

Matthew Tancik, un estudiante de doctorado de la Universidad de Berkley ha publicado junto a su equipo su investigación en Neural Radiance Fields (NeRF). NeRF es una tecnología que, según indican, consigue representar con mayor detalle los movimientos de la cámara suaves, las luces, la translucidez de los objetos y la posición y tamaño de las formas en sí.

Los resultados desde luego son espectaculares. De hecho cuesta imaginar que el resultado se obtenga a partir de varias fotos fijas de diferentes posiciones, parece más bien la grabación de un vídeo moviendo la cámara. Sin embargo, detrás de ello hay entre 30 y 100 fotografías y un (largo) proceso de renderización en el que la red neuronal analiza las fotografías y crea la escena en tres dimensiones.

Más allá de crear estos increíbles efectos, la tecnología también sirve simplemente para que el ordenador pueda entender la profundidad de una escena con sólo analizar una imagen. En uno de los ejemplos muestran una fotografía fija en la que una esfera "entiende" cuál es la profundidad y se desplaza de forma acorde por la imagen:

El truco está en la luz

Para obtener una imagen 3D que de la sensación de ser tan realista hay una serie de factores que influyen. El primero de ellos es la suavidad en la que se desplaza la cámara, para ello se requiere de una gran cantidad de imágenes tomadas desde cada uno de los ángulos en los que se mueve la vista. Por otro lado destaca la gran calidad que mantiene la forma en tres dimensiones del objeto, que se consigue con una buena cantidad de datos de profundidad. Y por último y quizás lo que más "engaña" a nuestro cerebro: las luces y sombras.

Son las luces y las sombras que se generan en una escena lo que nos ayuda a ver un objeto en tres dimensiones, darle profundidad y aportarle un nivel de realismo. Esto es algo que ocurre desde la vida real hasta en pintura o las fotografías. En el caso de NeRF, analiza especialmente bien la luz dinámica de la escena para mover no solamente la cámara sino también cómo se reflejan las luces y cómo se generan las sombras en el objeto y en el entorno donde se encuentra.

Para entender esto mejor en uno de los vídeos de ejemplo muestran cómo modifican la luz y a la vez mantienen el punto de vista para ver la diferencia:

NeRF, en líneas generales, es una red neuronal que ayuda a comprender mejor cómo se comporta la luz sobre los diferentes objetos de una escena. Esto se puede aprovechar para obtener vistosos resultados como estas imágenes en 3D pero también para crear escenas virtuales con mayor realismo en videojuegos por ejemplo. Y más allá del ocio, puede aprovecharse en robótica o coches autónomos para analizar mejor un escenario y posicionar correctamente los objetos del mismo.

Más información | Matthew Tancik