PS5 y Xbox Series X necesitan algo más que gráficos: así funcionan Tempest Engine y Project Acoustics, su sonido por 'ray tracing'

9 Julio 2020 Actualizado 6 Octubre 2020, 12:31

Juan Carlos López

PlayStation 5 y Xbox Series X ya están cerca. Aún tendremos que esperar varios meses para poder hacernos con estas consolas de nueva generación (tanto Sony como Microsoft han asegurado que llegarán a las tiendas antes de Navidad), pero al menos tenemos la información que necesitamos acerca de ambas máquinas para intuir con cierta precisión qué experiencia van a proponernos.

Si nos ceñimos a su hardware y dejamos a un lado los juegos que ya han sido anunciados para ambas consolas hasta ahora observaremos que las características que más ruido están haciendo son su capacidad gráfica y su unidad de almacenamiento SSD. Sin embargo, estos no son en absoluto los únicos subsistemas del hardware de estas máquinas que nos prometen un avance muy significativo frente a lo que nos han propuesto PS4 y Xbox One. En materia de sonido PlayStation 5 y Xbox Series X ponen sobre la mesa unas innovaciones tan atractivas como las que condicionan sus gráficos y el rendimiento de su almacenamiento secundario. Esta es la razón por la que el audio es el auténtico protagonista de este artículo.

Qué tienen en común TrueAudio Next de AMD y el 'ray tracing' para iluminación

Las presentaciones en las que Microsoft y Sony han ido desvelando las características de sus próximas consolas reflejan con claridad que el itinerario de estas dos compañías para la nueva generación concluye en una meta común: la búsqueda del máximo realismo. La técnica de renderizado que recurre al trazado de rayos (ray tracing) ocupa una posición central en lo que se refiere a los gráficos, pero lo curioso es que el sonido de ambas máquinas también se beneficiará de una innovación que tiene mucho en común con el trazado de rayos para iluminación.

Los algoritmos de renderizado mediante trazado de rayos imitan cómo se comporta la luz en el mundo real para generar imágenes bidimensionales a partir de modelos en 3D con un acabado fotorrealista

Los fundamentos de ambas técnicas son tan similares que la mayor parte de los medios de comunicación y los foros se refieren a la que persigue recrear el sonido como ray tracing de audio (incluso NVIDIA lo llama así), cuando, en realidad, lo ideal sería llamarla trazado de ondas de sonido. En cualquier caso, la denominación de esta tecnología no es realmente lo importante. Lo relevante es saber cómo funciona, y, sobre todo, qué impacto pretende tener en nuestra experiencia.

Para que podamos identificar cómo funciona el trazado de ondas de sonido y en qué medida se parece al ray tracing para iluminación nos viene bien repasar brevemente en qué consiste este último. Los algoritmos de renderizado mediante trazado de rayos imitan cómo se comporta la luz en el mundo real para generar imágenes bidimensionales a partir de modelos en 3D con un acabado fotorrealista. En el mundo real la interacción entre la luz y los objetos es compleja, y si queremos que nuestra imagen sea fotorrealista es necesario que nuestro algoritmo imite esta complejidad.

El acabado de la iluminación que es posible recrear utilizando el renderizado de imágenes mediante trazado de rayos es sorprendentemente fotorrealista.

El renderizado mediante ray tracing resuelve este reto recreando unas líneas imaginarias que parten desde el punto en el que está situada la cámara virtual, que es el punto exacto desde el que observamos la escena en 3D. Esas líneas, o rayos, prosiguen su trayectoria hasta «chocar» con alguno de los objetos de la escena tridimensional, y cuando se produce esta colisión el motor de renderizado lleva a cabo unos cálculos matemáticos muy complejos para averiguar cuál debe ser el tono exacto que tiene que tener cada píxel de la imagen. Pero hay algo más.

Para obtener un acabado fotorrealista es necesario que el algoritmo tenga en cuenta que una parte de la luz que incide sobre la superficie de los objetos se refleja, y esa luz reflejada también interacciona con otros objetos del entorno, generando una cascada de interacciones que no es fácil resolver. Cuando un rayo incide sobre la superficie de un objeto puede generar tres nuevos tipos de rayos: refracciones, reflexiones y sombras. La precisión con la que el algoritmo de renderizado resuelve estas interacciones condiciona el acabado final que va a tener el fotograma bidimensional que estamos recreando.

El coste computacional que tiene el 'ray tracing' es muy alto, pero los procesadores gráficos tienen algo a su favor: en su arquitectura prevalece de forma natural el paralelismo a gran escala

El ray tracing aplicado a la iluminación imita de una forma bastante precisa la manera en que funciona nuestro sistema visual, y si está bien implementado puede devolvernos unas imágenes con un realismo asombroso. Para que el resultado esté a la altura es imprescindible resolver otros retos, pero no es necesario que compliquemos más este artículo desarrollándolos. Si os apetece conocer con más precisión cómo funciona el trazado de rayos os sugiero que leáis el artículo en el que lo explicamos de forma pormenorizada.

Todo lo que hemos visto hasta ahora nos permite intuir que el coste computacional que tiene el ray tracing es muy alto. Un procesador de propósito general puede llevar a cabo los cálculos de un algoritmo de trazado de rayos, pero habitualmente su rendimiento será muy bajo y difícilmente nos permitirá disfrutar una cadencia de imágenes por segundo en tiempo real suficiente para que nuestra experiencia con los juegos sea óptima. Sin embargo, los procesadores gráficos tienen algo a su favor: en su arquitectura prevalece de forma natural el paralelismo a gran escala, por lo que es posible introducir unidades específicas para resolver de una forma eficiente los cálculos que requieren los algoritmos de renderizado mediante trazado de rayos. Esto es, precisamente, lo que ha hecho NVIDIA en sus GPU de la familia GeForce RTX. Y también lo que hará AMD en sus próximos procesadores gráficos.

El algoritmo que describe cómo debe implementarse la recreación del sonido mediante trazado de ondas debe tener en cuenta fenómenos físicos tan complejos como son la oclusión, la reverberación, la obstrucción y el decaimiento.

Aunque no hemos indagado en los detalles más complejos, ya conocemos de una forma lo suficientemente certera cómo funciona el ray tracing para iluminación, lo que puede ayudarnos a entender también cómo funciona y qué persigue el trazado de ondas sonoras. Al igual que los motores de renderizado de imágenes que recurren a esta técnica, los algoritmos de renderizado del sonido mediante trazado de ondas aspiran a recrear un campo sonoro envolvente lo más realista posible. Y para lograrlo deben emular cómo se propaga el sonido a través del aire desde la posición de la fuente que lo emite y cómo esas ondas sonoras interaccionan con los objetos y las superficies del entorno, absorbiendo una parte de la energía acústica y reflejando otra parte en una dirección diferente.

Los algoritmos de renderizado del sonido mediante trazado de ondas aspiran a recrear un campo sonoro envolvente lo más realista posible

De nuevo, tal y como sucede cuando tratamos con la luz, la complejidad de este proceso es muy alta. Si el algoritmo de recreación del sonido es capaz de resolver correctamente todas esas interacciones podría ofrecernos un campo sonoro preciso, muy realista y completamente envolvente, pero, al igual que el trazado de rayos, el coste computacional que requiere llevar a cabo todos los cálculos es muy alto para un procesador de propósito general. Afortunadamente, tal y como sucede con el ray tracing, la arquitectura inherentemente paralela de los procesadores gráficos les permite enfrentarse a este reto con muchas más garantías que a los procesadores de propósito general.

Además, al lidiar con el audio hay otro reto en el que aún no hemos indagado: no todos percibimos el sonido exactamente de la misma forma. Las características físicas de nuestra cabeza y nuestras orejas intervienen en la forma en que nuestro sistema auditivo recoge el sonido, lo que también tiene un impacto perceptible en nuestra experiencia que, idealmente, el algoritmo de renderizado de audio debería tener en cuenta.

En Xataka

Entrevista a Jason Ronald, de Xbox Series X: "no creo que las consolas vayan a desaparecer pronto"

Tanto NVIDIA como AMD tienen desde hace tiempo su propia tecnología de renderizado de audio mediante trazado de ondas sonoras. NVIDIA tiene el motor de renderizado de sonido Acoustic Raytracer (NVAR) y el kit de desarrollo de software VRWorks Audio. Y AMD tiene su paquete de desarrollo de software TrueAudio Next como parte de su ecosistema LiquidVR. Ambas compañías están impulsando estas innovaciones como una parte de su estrategia para fomentar la realidad virtual, pero esta tecnología puede utilizarse también para ofrecernos un sonido de más calidad cuando utilizamos videojuegos convencionales. De hecho, esto es lo que persiguen Microsoft y Sony en sus consolas de nueva generación.

Tanto PlayStation 5 como Xbox Series X incorporan una CPU y un motor gráfico de AMD, por lo que los cimientos de estas máquinas en lo que se refiere al renderizado de los gráficos y la recreación del sonido mediante trazado de ondas sonoras están anclados a la tecnología de esta compañía de semiconductores. Aun así, Sony y Microsoft tienen suficiente margen de maniobra a la hora de poner a punto sus algoritmos y sus paquetes de desarrollo de software para que las prestaciones de sus consolas en este terreno no sean idénticas.

Todo lo que hemos visto hasta este momento nos invita a plantearnos un interrogante en el que merece la pena que nos detengamos un momento. Parece razonable pensar que delegar en la GPU una parte importante del estrés impuesto por la generación del sonido podría mermar su rendimiento al lidiar con el renderizado de los gráficos. Pero, sobre el papel, no tiene por qué ser así. La razón es que NVIDIA y AMD han introducido en sus procesadores gráficos unidades de cálculo específicas para llevar a cabo las operaciones que requiere el trazado de ondas de sonido, unas unidades funcionales equiparables a los núcleos RT usados por NVIDIA para resolver el trazado de rayos. Su propósito es que la recreación del sonido tenga un impacto mínimo, o, incluso, inexistente, en las prestaciones gráficas de la GPU.

Tempest Engine: estas son las bazas del motor de procesado de audio de PS5

Las prestaciones sonoras de PlayStation 5 acapararon una parte importante de la presentación en la que Mark Cerny, el principal responsable del diseño de esta máquina, diseccionó con bastante detalle su hardware a mediados del pasado mes de marzo. La nueva consola de Sony recurrirá a la tecnología de audio que acabamos de describir para procesar simultáneamente cientos de fuentes emisoras de sonido, una capacidad que, sobre el papel, colocará a PS5 muy por delante en este terreno de PS4.

Durante su presentación Cerny explicó cuáles son los dos principios en los que han trabajado para poner en las manos de los desarrolladores las herramientas que necesitan para dotar a sus juegos de un sonido con una capacidad de inmersión muy superior a la que nos ofrece la generación actual de consolas. El primero de estos principios es la presencia, y refleja la capacidad que tiene el hardware de sonido de recrear con mucha precisión el escenario sonoro en el que tiene lugar la acción. Este diseñador ilustró esta idea describiendo que su consola será capaz de colocarnos en el centro de una tormenta, de manera que seamos capaces de percibir con claridad y de forma natural cada una de las gotas de agua que golpean los objetos a nuestro alrededor.

El otro principio es la localidad, y persigue que los usuarios seamos capaces de percibir claramente la posición de cada fuente emisora de sonido en el espacio que nos rodea. El problema es que, como he mencionado unas líneas más arriba, cada persona tiene unas características físicas diferentes que condicionan la manera en que percibe los sonidos. Para resolverlo el motor de audio de PS5 recurre a una tabla HRTF (Head-Related Transfer Function) que contiene la información necesaria para simular las decenas, o, incluso, los centenares de fuentes de sonido que puede reproducir esta consola en un instante determinado.

La lógica de procesado de audio reside en la GPU que AMD ha puesto a punto para la consola de Sony, por lo que una gran parte del estrés impuesto por la recreación del sonido recaerá sobre el procesador gráfico de la consola. Cerny reconoció que afinar la tabla HRTF para que ofrezca el resultado óptimo a un abanico muy amplio de personas no es sencillo, por lo que inicialmente PS5 nos propondrá cinco perfiles predefinidos, de manera que podamos elegir aquel que nos ofrece el resultado sonoro más convincente.

Project Acoustics: esto es lo que nos promete el sonido de Xbox Series X

Microsoft también parece haber hecho un esfuerzo muy importante para dotar a su consola de nueva hornada de un sonido de mucha más calidad que el que nos ofrecen las consolas de la actual generación. Durante la presentación del hardware de Xbox Series X Phil Spencer y su equipo explicaron que su máquina será compatible con Dolby Atmos, y, además, incorporará un avanzado motor de audio que utiliza tecnología de trazado de ondas sonoras. Lo han llamado Project Acoustics y, según ellos, utiliza la tecnología Triton desarrollada por los ingenieros de Microsoft para simular con mucha precisión cómo se propagan las ondas sonoras a través del aire y de qué forman interaccionan con los objetos y las superficies que se encuentran a su paso.

En Xataka

El sistema de almacenamiento de la PS5 está "muy por delante de cualquier PC": por qué Tim Sweeney, de Epic Games, puede afirmarlo

La tecnología Triton de Microsoft persigue simular con precisión cómo interaccionan las ondas sonoras con los objetos del entorno

Jason Ronald, Director of Program Management and Xbox Series X, nos explicó durante la charla que mantuvimos con él hace varias semanas que la tecnología que han desarrollado es capaz de recrear con mucha precisión la diferencia que existe cuando una onda de sonido choca sobre una pared de cemento o incide sobre un suelo empapado de agua, entre otras muchas posibilidades. En el mundo real estos dos escenarios provocan que el sonido que percibimos sea muy diferente, y Xbox Series X pretende trasladar esa misma experiencia a la próxima generación de juegos.

Uno de los fenómenos físicos que los ingenieros de Microsoft que han trabajado en Project Acoustics han intentado recrear es la obstrucción, que no es otra cosa que la forma en que interactúa con una onda sonora un objeto colocado en su trayectoria. Este objeto absorberá una parte de su energía acústica y reflejará otra parte en otra dirección, por lo que la forma en que percibiremos el sonido si nos colocamos detrás del objeto que se interpone entre nosotros y la fuente de sonido será muy diferente al sonido que recogerían nuestros oídos si el objeto que se interpone no estuviese ahí.

Otro fenómeno físico que han implementado en su motor de procesado de audio es la manera en que las ondas sonoras se reflejan en las paredes de la estancia en la que residen las fuentes emisoras de sonido. La propagación de una onda se va atenuando a medida que va perdiendo energía, pero en el mundo real cada onda interacciona con muchas superficies antes de «consumirse» completamente, por lo que recrear este fenómeno es crucial cuando se pretende reproducir el sonido de la forma más realista posible.

Aún hay más. El motor de Microsoft también contempla la oclusión, un fenómeno que describe en qué medida la onda de sonido original queda enmascarada por las ondas generadas al reflejarse sobre las superficies del entorno. También tiene en cuenta la reverberación para intentar respetar el tiempo que transcurre desde el instante en el que percibimos el sonido directo y el momento en el que recibimos las ondas reflejadas. Y, por último, la tecnología Triton simula el decaimiento, que, sin entrar en detalles complicados y tal y como los técnicos de Microsoft explican en el vídeo que tenéis encima de estas líneas, provoca que un espacio físico más amplio mantenga la reverberación durante más tiempo.

Esta tecnología representa un salto hacia delante muy importante en sonido

Lo que nos cuentan tanto Microsoft como Sony pinta muy bien. El sustrato tecnológico en el que se apoya el sonido de Xbox Series X y PlayStation 5 parece tener mucho en común, pero los algoritmos que describen la forma en que está implementada la tecnología de audio de cada una de estas consolas y las herramientas que estas compañías van a poner en las manos de los desarrolladores son diferentes. Y por esta razón es muy probable que, aunque ambas máquinas recurran al ray tracing para recrear el sonido, sus prestaciones no sean idénticas.

Tempest Engine y Project Acoustics pintan muy bien, pero ponen sobre la mesa algunas dudas que aún no podemos despejar

Mark Cerny confirmó durante la presentación del hardware de PS5 que los primeros juegos que implementarán esta tecnología de sonido requerirán que utilicemos auriculares, aunque también vaticinó que más adelante, cuando los desarrolladores se familiaricen con ella, llegará también a las teles y las barras de sonido. Todo suena bien, y tenemos motivos para ser razonablemente optimistas, pero aún hay sobre la mesa varios interrogantes. El más evidente no es otro que comprobar si realmente esta innovación tiene un impacto tan profundo en nuestra experiencia como el del trazado de rayos para iluminación. Sobre el papel parece que sí lo tendrá, pero hasta que no probemos las nuevas consolas no podremos salir de dudas.

Además, tanto Cerny como Ronald reconocieron que dominar esta tecnología requerirá un esfuerzo adicional a los desarrolladores de videojuegos, por lo que los primeros títulos para PS5 y Xbox Series X no nos ofrecerán la mejor experiencia posible en materia de audio. Y, por último, será interesante comprobar si el esfuerzo que va a llevar a cabo la GPU de estas consolas al recrear el audio mediante trazado de ondas no tiene un impacto ni siquiera mínimamente negativo en sus prestaciones gráficas. Crucemos los dedos para que el sonido que nos han prometido no tarde mucho en llegar.