Uno le pregunta algo a ChatGPT y siempre obtiene una respuesta de lo más educada. Coherente, razonada y bien estructurada. Puede que se invente cosas, pero el tono, instructivo y claro, es estupendo.
Para algunos eso no es suficiente. Quieren que ChatGPT sea gamberro e irreverente. Que salga de su zona políticamente correcta y conteste a cosas que teóricamente tenía prohibido contestar. Esa gente esta hackeando ChatGPT y ha creado una versión "jailbreakeada". Su nombre es DAN ("Do Anything Now") y está causando furor... y preocupación.
DAN es según sus creadores un modelo 'roleplay' usado para hackear ChatGPT y hacerle creer que es otra inteligencia artificial que puede "hacer cualquier cosa ahora " (Do Anything Now), de ahí su nombre. El objetivo de quienes están creando este "jailbreak" para "liberar" a ChatGPT es lograr que sea la mejor versión de sí mismo, o al menos una que no rechace prompts por las preocupaciones éticas que conlleven.
El juego del gato (OpenAI) y el ratón (DAN)
A mediados de diciembre de 2022 aparecía la primera versión de DAN, que fue evolucionando rápidamente. Las versiones 2.0 y 2.5 de DAN aparecieron pocos días después y eran versiones ligeramente mejoradas. Casi un mes después aparecía DAN 3.0, que aún funciona de forma limitada por una sencilla razón: OpenAI sabe que estas versiones están apareciendo y trata de parchear ChatGPT para que no pueda "convertirse" en DAN.

Más recientemente han aparecido DAN 4.0 —que aparentemente no funcionó demasiado bien— y un jailbreak alternativo llamado Modelo FUMA que algunos han llamado DAN 5.0 aunque según otros estaba más a la altura de lo que sería un DAN 3.5.
Las versiones más recientes han aparecido esta semana: DAN 6.0, aparecido el 7 de febrero, hace uso de un prompt de mayor capacidad, mientras que SAM ("Simple DAN") trataba de resolver una de las limitaciones de DAN, que era que los prompts solían ser excesivamente largos.

Parece que este último modelo tiene un comportamiento algo "loco" y por ahora DAN 5.0 es la versión cercana a algo "estable".
Qué se puede hacer con DAN
Esta versión con jailbreak de ChatGPT se salta muchas de las barreras del motor conversacional oficial de OpenAI. Lo hace sobre todo a la hora de abordar temas "prohibidos" para la versión original.

Así, es posible lograr que DAN escriba historias violentas o haga comentarios tóxicos y fuera de tono, como por ejemplo que apoye la violencia o la "discriminación de género, raza u orientación sexual".

No solo eso: además de violar las políticas de OpenAI y de ChatGPT, DAN es capaz de hacer algo curioso: predicciones sobre eventos futuros, además de hablar de escenarios hipotéticos que el chatbot original jamás se atreve a abordar.

DAN también simula que puede acceder a internet para realizar búsquedas, y aunque se niegue a dar alguna respuesta, uno puede forzar a DAN a que acabe dando la respuesta. Es capaz además de justificar cuestiones que la ciencia ha demostrado hace años, como las teorías de los terraplanistas.

Los ejemplos de uso son múltiples y desde luego DAN acaba convirtiéndose en un singular alter ego de ChatGPT que puede responder a cosas que este motor de OpenAI no contestaría jamás. Otras, eso sí, siguen sin poder ser contestadas a pesar de que intentemos forzar a DAN a que lo haga, aunque las respuestas puedan ser inverosímiles.
La versión malvada de ChatGPT era inevitable
Lo cierto es que la aparición de estas versiones derivadas de ChatGPT era totalmente esperable. ChatGPT no es más que una herramienta que sus creadores han lanzado con limitaciones específicas. Una que se puede usar con buenas intenciones pero también con otras no necesariamente buenas.
Lo hemos visto en el pasado con otros productos a los que los usuarios más curiosos han tratado de liberar de sus ataduras. Los célebres jailbreak de los iPhone que permitían instalar aplicaciones de terceros son un buen ejemplo, y durante un tiempo a muchos les compensó hacerlo.
Tratar de hacer utilizar esas herramientas que nos ofrecen los desarrolladores y fabricantes de formas no oficiales es muy común, y la aparición de DAN era inevitable. Hemos visto cómo la capacidad de generar imágenes, audio y vídeo que imita al de personas reales ha derivado en un uso preocupante con deepfakes que podrían servir para cometer fraudes.
El impacto de motores alternativos como DAN es desde luego evidente: igual que se le entrena con un conjunto de datos "validados", se le podría entrenar con otro tipo de información para que ofreciese información sobre temas delicados o directamente sobre otros ilegales que pueden constituir un delito.
Hay otros ejemplos evidentes: un estudio de Check Point revelaba hace unas algo aún más inquietante. ChatGPT, que es capaz de sugerir código para solucionar problemas a los desarrolladores, estaba sirviendo para que los hackers crearan nuevas herramientas para sus ciberdelitos. Es evidente que el peligro de un mal uso de estas herramientas está ahí, y ChatGPT, para lo bueno y para lo malo, eso solo eso: una herramienta.
Imagen: Midjourney
Ver 5 comentarios
5 comentarios
DarkDudae
De los creadores de “Un usuario ha hackeado su lavadora” (cuando únicamente ha leido su firmware), ahora llega el “Han jailbrickeado el ChatGPT” …. Se os está yendo de las manos lo del clickbait…
p2dzca
Sigo echando de menos una regulación del uso de la IA. Como se dice en el artículo, se trata de una herramienta (como, por ejemplo, un cuchillo). No es buena ni mala. Su uso, sí, y no está regulado.
Lo de DAN nos puede parecer una curiosidad, incluso nos puede divertir, pero existen escenarios cercanos, basados en ChatGPT, LaMDA o parecidos, realmente amenazantes. Por ejemplo:
* Cuentas en redes sociales gestionadas por IA para crear contenidos y diseñadas para un objetivo concreto y con aprendizaje por refuerzo: crear sesgos de opinión, lanzar mensajes en una determinada dirección política apoyados por todo el conocimiento que exista sobre un tema (IA entrenada con miles de millones de documentos), noticias falsas, contaminación de campañas políticas, etc.
* Cuentas en redes sociales gestionadas por IA para contrarrestar ideas. En vez de crear contenidos, podrían enfrentarse a otras cuentas enviando mensajes acordes con los objetivos de los dueños de la IA.
* Cuentas de redes sociales o asistentes que puedan pasarse por expertos o para suplantar personas reales. Se podrían utilizar para engañar, cometer fraudes y timos, captar incautos para cualquier fin, etc.
Seguramente recordaréis a Tay, el 'chatbot' de IA que Microsoft tuvo que retirar de internet en menos de un día porque copió argumentos xenófobos, machistas, etc. de las personas con la que chateó. La IA ha avanzado mucho en siete años. Ahora es posible crear un 'chatbot' con el conocimiento que aportan millones de documentos y añadir un fase de aprendizaje para reforzar el sesgo hacia el objetivo que se persiga, y aquí cabe todo lo que os podáis imaginar.
Aquí tenéis una predicción (y, si queréis, un posible negocio): un recorrido por la historia de internet nos muestra que lo que empieza en manos de grandes empresas, acaba en las personas. Los sitios web los creaban unas pocas empresas. Ahora muchas personas tienen su sitio web personal. Los contenidos los creaban las empresas inicialmente. Ahora es normal, y un gran negocio, que los usuarios creen contenidos. Algo similar pasará con los 'chatbots' de IA. Cada empresa tendrá los suyos, cada uno con un objetivo distinto, y las personas, también. Tener un 'chatbot' propio será tan común como ahora es tener un blog. (A esto le veo más futuro que al metaverso)
eltamagochi
¿Comprar bitcoins? Si que es un poquito mamón, el DAN ése.