Alguien ha querido saber si GPT-4 era capaz de explotar vulnerabilidades. Lo hizo en el 87% de los casos

Un grupo de investigadores de la Universidad de Illinois en Urbana-Champaign (UIUC) han publicado un estudio que nos habla del potencial de GPT-4 como herramienta para ciberdelincuentes. Y ese potencial es enorme.

Vulnerabilidades a mí. Los LLM, apuntan estos investigadores, se han vuelto cada vez más potentes tanto para casos de uso benignos como para otros maliciosos. Para demostrar esto último recolectaron 15 vulnerabilidades de día uno incluyendo algunas calificadas de críticas. GPT-4 fue capaz de explotar el 87% de estas vulnerabilidades.

En Xataka

Claude 3: qué es, qué variantes tiene y qué pueden hacer las versiones de la inteligencia artificial capaz de superar a GPT-4

No esperéis hacerlo con ChatGPT. El espectacular rendimiento de GPT-4 fue comparado con el de versiones anteriores como GPT-3.5, la versión que por ejemplo se usa en ChatGPT, el chatbot de uso gratuito de OpenAI. Este modelo, como otros Open Source como Mistral-7B, Llama-2 Chat (70B), Mixtral-8X7B Instruct o OpenHermes-2.5, no lograron ni una sola de las vulnerabilidades del conjunto de pruebas.

Claude 3 y Gemini, incógnitas. Lo que no sabemos es si ese "potencial para el mal" de GPT-4 también lo tienen otros modelos recientes como Claude 3 o Gemini 1.5 Pro, que no fueron evaluados porque no tenían acceso a dichos modelos. Esperan probarlos en algún momento, pero es probable que los avances de ambos hayan hecho que puedan también servir para este tipo de propósitos.

Chatbots para el mal. Este mismo grupo de investigadores ya mostró en el pasado cómo los LLMs se pueden usar para automatizar ataques a sitios web, al menos en entornos aislados. Daniel Kang, uno de los miembros del equipo, explicó en The Register cómo GPT-4 puede "llevar a cabo de forma autónoma los pasos para realizar ciertos exploits que los escáneres de vulnerabilidades de código abierto no pueden encontrar".

Seguridad por oscuridad. Si no se ofrecían detalles adicionales sobre la vulnerabilidad, algo típico de los CVE (Common Vulnerabilities and Exposures), el rendimiento de GPT-4 bajaba del 87% al 7%, y eso planteaba la pregunta de si sería efectivo limitar los detalles disponibles en los CVE y no hacerlos públicos. Para Kang eso no sirve de mucho: "personalmente, no creo que la seguridad a través de la oscuridad sea sostenible, que parece ser la filosofía predominante entre los investigadores de seguridad".

Coste ínfimo. Los investigadores también quisieron comprobar cuál sería el coste a nivel de cómputo de usar un agente de IA con un modelo como GPT-4 para crear un exploit a partir de un CVE, y su conclusión fue muy reveladora. El coste medio por exploit fue de 8,80 dólares, casi tres veces menos de lo que teóricamente costaría contratar a un desarrollador humano del ámbito del pentesting para investigar esos CVEs y tratar de desarrollar un CVE durante 30 minutos.

Prompts secretos (por ahora). OpenAI, desarrolladores de GPT-4, pidieron a los responsables del estudio que no revelaran los prompt utilizados para el experimento. El agente de código usado tenía 91 líneas de código y un prompt de 1.056 tokens. La petición ha sido respetada, pero los investigadores indican en el estudio que se la ofrecerán a quienes la pidan. Lo que no está claro es que sigan funcionando: en OpenAI probablemente hayan usado esa información para pulir su chatbot y evitar este tipo de malos usos.

Imagen | Ed Hardie

En Xataka | El AI Pin ha llegado a sus primeros usuarios. Y sus conclusiones no son nada esperanzadoras