Uno le pregunta algo a ChatGPT y siempre obtiene una respuesta de lo más educada. Coherente, razonada y bien estructurada. Puede que se invente cosas, pero el tono, instructivo y claro, es estupendo.
Para algunos eso no es suficiente. Quieren que ChatGPT sea gamberro e irreverente. Que salga de su zona políticamente correcta y conteste a cosas que teóricamente tenía prohibido contestar. Esa gente esta hackeando ChatGPT y ha creado una versión "jailbreakeada". Su nombre es DAN ("Do Anything Now") y está causando furor... y preocupación.
DAN es según sus creadores un modelo 'roleplay' usado para hackear ChatGPT y hacerle creer que es otra inteligencia artificial que puede "hacer cualquier cosa ahora " (Do Anything Now), de ahí su nombre. El objetivo de quienes están creando este "jailbreak" para "liberar" a ChatGPT es lograr que sea la mejor versión de sí mismo, o al menos una que no rechace prompts por las preocupaciones éticas que conlleven.
El juego del gato (OpenAI) y el ratón (DAN)
A mediados de diciembre de 2022 aparecía la primera versión de DAN, que fue evolucionando rápidamente. Las versiones 2.0 y 2.5 de DAN aparecieron pocos días después y eran versiones ligeramente mejoradas. Casi un mes después aparecía DAN 3.0, que aún funciona de forma limitada por una sencilla razón: OpenAI sabe que estas versiones están apareciendo y trata de parchear ChatGPT para que no pueda "convertirse" en DAN.
Más recientemente han aparecido DAN 4.0 —que aparentemente no funcionó demasiado bien— y un jailbreak alternativo llamado Modelo FUMA que algunos han llamado DAN 5.0 aunque según otros estaba más a la altura de lo que sería un DAN 3.5.
Las versiones más recientes han aparecido esta semana: DAN 6.0, aparecido el 7 de febrero, hace uso de un prompt de mayor capacidad, mientras que SAM ("Simple DAN") trataba de resolver una de las limitaciones de DAN, que era que los prompts solían ser excesivamente largos.
Parece que este último modelo tiene un comportamiento algo "loco" y por ahora DAN 5.0 es la versión cercana a algo "estable".
Qué se puede hacer con DAN
Esta versión con jailbreak de ChatGPT se salta muchas de las barreras del motor conversacional oficial de OpenAI. Lo hace sobre todo a la hora de abordar temas "prohibidos" para la versión original.
Así, es posible lograr que DAN escriba historias violentas o haga comentarios tóxicos y fuera de tono, como por ejemplo que apoye la violencia o la "discriminación de género, raza u orientación sexual".
No solo eso: además de violar las políticas de OpenAI y de ChatGPT, DAN es capaz de hacer algo curioso: predicciones sobre eventos futuros, además de hablar de escenarios hipotéticos que el chatbot original jamás se atreve a abordar.
DAN también simula que puede acceder a internet para realizar búsquedas, y aunque se niegue a dar alguna respuesta, uno puede forzar a DAN a que acabe dando la respuesta. Es capaz además de justificar cuestiones que la ciencia ha demostrado hace años, como las teorías de los terraplanistas.
Los ejemplos de uso son múltiples y desde luego DAN acaba convirtiéndose en un singular alter ego de ChatGPT que puede responder a cosas que este motor de OpenAI no contestaría jamás. Otras, eso sí, siguen sin poder ser contestadas a pesar de que intentemos forzar a DAN a que lo haga, aunque las respuestas puedan ser inverosímiles.
La versión malvada de ChatGPT era inevitable
Lo cierto es que la aparición de estas versiones derivadas de ChatGPT era totalmente esperable. ChatGPT no es más que una herramienta que sus creadores han lanzado con limitaciones específicas. Una que se puede usar con buenas intenciones pero también con otras no necesariamente buenas.
Lo hemos visto en el pasado con otros productos a los que los usuarios más curiosos han tratado de liberar de sus ataduras. Los célebres jailbreak de los iPhone que permitían instalar aplicaciones de terceros son un buen ejemplo, y durante un tiempo a muchos les compensó hacerlo.
Tratar de hacer utilizar esas herramientas que nos ofrecen los desarrolladores y fabricantes de formas no oficiales es muy común, y la aparición de DAN era inevitable. Hemos visto cómo la capacidad de generar imágenes, audio y vídeo que imita al de personas reales ha derivado en un uso preocupante con deepfakes que podrían servir para cometer fraudes.
El impacto de motores alternativos como DAN es desde luego evidente: igual que se le entrena con un conjunto de datos "validados", se le podría entrenar con otro tipo de información para que ofreciese información sobre temas delicados o directamente sobre otros ilegales que pueden constituir un delito.
Hay otros ejemplos evidentes: un estudio de Check Point revelaba hace unas algo aún más inquietante. ChatGPT, que es capaz de sugerir código para solucionar problemas a los desarrolladores, estaba sirviendo para que los hackers crearan nuevas herramientas para sus ciberdelitos. Es evidente que el peligro de un mal uso de estas herramientas está ahí, y ChatGPT, para lo bueno y para lo malo, eso solo eso: una herramienta.
Imagen: Midjourney
Ver 5 comentarios