El audio generado con IA puede suponer un gran problema. Meta tiene una idea para detectarlo: una marca de agua

AudioSeal es una marca de agua que funciona incluso en audios largos y editados
Su código está disponible en GitHub y tiene licencia comercial
El problema es ese: para que funcione, debe implementarse forma voluntaria

20 junio 2024, 12:31

Jose García

Imagina lo siguiente: suena tu teléfono y la voz de tu hijo, tu madre o quien sea conocido te dice que está en apuros y que necesita que le mandes X cantidad de dinero a cierta cuenta. Si fuese una voz sintética "tipo Loquendo" seguramente no cuele, pero una voz clonada muy fiel te puede poner, como poco, en una tesitura. ¿Cómo solucionar este problema? ¿Cómo podemos detectar que un audio ha sido generado por inteligencia artificial?

Con una marca de agua. Ese es el enfoque de Meta y su nueva propuesta llamada AudioSeal (PDF). Este sistema de detección consta de dos redes neuronales, una que añade una suerte de marcas invisibles e indetectables por el oído humano; y una segunda que detecta estas señales. Es decir, un generador y un detector. La clave de AudioSeal es que funciona incluso en audios largos o en aquellos que hayan sido editados.

Pero... eso ya existe. Sí, pero el método actual, WavMark, tiene algunas fisuras. Este sistema añade la "marca invisible" en intervalos de un segundo, lo que significa que no funciona en audios de menos duración y es más vulnerable a la edición. Además, la detección es bastante lenta, lo que implica que no se puede hacer en tempo real. Pensemos en un audio de una hora. Son 3.600 segundos y hay que analizarlo en tramos de un segundo en un segundo para encontrar la marca de agua.

La aproximación de AudioSeal. Como indicábamos antes, AudioSeal funciona mediante dos redes neuronales. La primera es un generador que inserta la marca de agua en forma de señal en cada sección del audio de manera aleatoria. La segunda es un detector que determina la probabilidad de que haya una marca de agua en cada muestra del audio de entrada. Para evitar ponernos demasiado técnicos, quedémonos con la idea de que AudioSeal permite detectar fragmentos de audio sintético dentro de audios más largos incluso aunque sean editados. Según explican desde Meta:

"A diferencia de los métodos tradicionales, que dependen de complejos algoritmos de descodificación, el enfoque de detección localizada de AudioSeal permite una detección más rápida y eficaz. Este diseño mejora la velocidad de detección hasta 485 veces en comparación con los métodos anteriores, lo que lo hace adecuado para aplicaciones a gran escala y en tiempo real".

En Xataka

Te llama tu hija, está en peligro, te pide miles de euros de inmediato. Al otro lado del teléfono hay una IA

Gratis, y un pero. AudioSeal está disponible en GitHub con licencia comercial para que cualquier persona o institución pueda implementarla en sus sistemas. El problema es, precisamente, ese. De nada sirve tener una marca de agua muy potente como esta si no es implementada en los sistemas de generación de audio sintético.

Por otro lado, los experimentos de Meta sugieren que cuanto más se revela sobre el algoritmo de detección, más vulnerable se vuelve el sistema. Es decir, que si un atacante tiene mucha información sobre cómo funciona el sistema, es posible que sea capaz de evitar la detección.

Imagen | Pexels

En Xataka | La nueva empresa de Ilya Sutskever tiene un objetivo claro: crear una superinteligencia con seguridad "nuclear"

Ver todos los comentarios en https://www.xataka.com

VER 2 Comentarios

Portada de Xataka

El audio generado con IA puede suponer un gran problema. Meta tiene una idea para detectarlo: una marca de agua

AudioSeal es una marca de agua que funciona incluso en audios largos y editados

Su código está disponible en GitHub y tiene licencia comercial

El problema es ese: para que funcione, debe implementarse forma voluntaria