Google ofrece un método para etiquetar y detectar textos de IA. La idea es buena, pero ese no es el problema

La IA debería firmar sus obras. Igual que los autores —como quies suscribe— firman lo que escriben o los pintores firman en sus cuadros, los sistemas de IA generativa deberían etiquetar (por ejemplo, con marcas de agua) los contenidos que generan como lo que son: contenidos generados por IA. Google, que ya tenía una buena idea al respecto, acaba de dar un paso importante para impulsarla. El problema es otro.

SynthID. Google y DeepMind llevan tiempo trabajando en este problema. Hace más de un año presentaron SynthID, y ahora acaban de ofrecerlo como herramienta libre para que cualquiera pueda utilizarla. El objetivo: que las plataformas de IA generativa tengan así un método de firmar los contenidos que generan para poder luego identificarlos fácilmente.

Xataka

¿Eres capaz de distinguir una imagen real de una generada por IA? Aquí tienes 20 fotos para comprobarlo

Cómo funciona. Como explican en DeepMind, SynthID funciona para etiquetar textos, música, imágenes o vídeos generados por IA. En el caso del texto, por ejemplo, cuando una IA genera texto lo hace mediante tokens. Cada token puede ser una simple letra, pero también una palabra o parte de una frase. El modelo predice el siguiente token en base a lo que le precede asignando a cada token una puntuación, y el modelo acaba trabajando con patrones de puntuaciones reconocibles: es posible compararlos con un texto cualquiera, lo que ayuda a determinar si puede haber sido generado por IA o no.

Gemini ya lo usa. SynthID Text, la versión para textos generados por IA, ya lleva desde la primavera integrado en los modelos de la familia Gemini. Según Google eso no ha perjudicado la calidad, precisión o velocidad de la generación de texto.

Pero tiene limitaciones. Aun así, la compañía reconoce que SynthID no se comporta demasiado bien con textos cortos, textos que se han reescrito, textos traducidos de otros idiomas o con respuestas a preguntas muy concretas porque en ellas la respuesta suele ser muy específica. ("¿Cuál es la capital de Francia?").

No hay un estándar universal. Las técnicas de marcas de agua para los contenidos son una gran idea. Sin embargo, a pesar de limitaciones como las que Google reconoce, su valía como solución a esta situación se enfrenta a un gran obstáculo. No hay un sistema de etiquetado estándar y universal. OpenAI lleva años trabajando en su propio sistema de marcas de agua, y lo mismo ocurre con Adobe, que forma parte de la C2PA (Coalition for Content Provenance and Authenticity). Este organismo tiene su propia especificación, pero aunque la idea es la misma que la de Google u OpenAI, su implementación es ligeramente distinta. Meta, por cierto, también tiene el suyo propio para audios generados por IA.

Consenso, por favor. La solución a esta situación es clara: habría que elegir una única solución entre todas las disponibles y adoptarla como estándar universal. Uno que todas las empresas y desarrolladores deberían poder adoptar libremente y que permitiría que poco a poco impulsara su uso masivo. Estos esfuerzos aportan, pero también provocan esa falta de un criterio unificado tan necesaria en este ámbito.

Imagen | Google / DeepMind

En Xataka | La nueva empresa de Ilya Sutskever tiene un objetivo claro: crear una superinteligencia con seguridad "nuclear"