OpenAI anunciaba ayer el lanzamiento de GPT-4, la nueva y esperada versión de su LLM que tras meses de entrenamiento y pruebas ya está disponible para suscriptores del servicio ChatGPT Plus y que también se está usando en el nuevo Bing con ChatGPT.
Tan solo han pasado unas horas desde ese anuncio, pero ya son muchos los que han estado evaluando sus posibilidades, que también fueron mostradas por los propios ingenieros y desarrolladores de OpenAI.
Los primeros ejemplos de su comportamiento son realmente espectaculares y muestran una evolución notable en algunas de las áreas en las que ChatGPT (basado en GPT-3.5) ya destacaba. GPT-4 supone una evolución importante, pero ojo, el motor de IA sigue estando lejos de ser perfecto.
1️⃣ Multimodal: GPT-4 API can accept images as inputs, can analyze captions and the image. Can understand memes and insider jokes. pic.twitter.com/INLCqJ0l9T
— Leo Rezaei (@theLionary) March 14, 2023
Multimodal (más o menos). Algunos expertos ya habían adelantado que una de las novedades más importantes de GPT-4 sería su comportamiento multimodal, es decir, que aceptaría diversos tipos de entrada, no solo texto. Efectivamente hay cambios al respecto, pero son menos espectaculares de lo que se adelantó, ya que no se acepta el vídeo como entrada.
¿Qué ves aquí, GPT4? Sí se aceptan imágenes como veremos en el siguiente párrafo, pero de momento esta característica está en desarrollo y no es pública. El motor, eso sí, es capaz de identificar esas imágenes y extraer contexto de ellas para que contribuyan a lo que el usuario quiere obtener de GPT-4. Los ejemplos mostrados en OpenAI eran muy llamativos e incluían cosas como que te explicara un meme o que resumiera tres páginas de una captura de un PDF que habían subido al sistema.
Hazme esta web que te he dibujado. En una de las demos que OpenAI mostró, el nuevo GPT-4 fue capaz de algo realmente asombroso. Se le mostró un boceto muy crudo de una página web que el usuario quería crear con HTML y JS. Con un breve titular y un par de bloques, cada uno con un chiste, sin más. Al decirle que la programara, GPT-4 fue capaz de crear en efecto un boceto básico de esa web y de insertar los chistes en las posiciones indicadas.
La declaración de Hacienda, también. En otro de los ejemplos, se le introdujeron a GPT-4 los datos ficticios de una pareja que necesitaba saber qué deducciones tenían tras una serie de sucesos. El motor se convirtió en un asesor financiero que era capaz de dar con todo lujo de detalles respuestas a esas preguntas, aunque de nuevo para estas cuestiones es recomendable consultar con un profesional humano. Aún así, pueden servir de valiosa orientación.
I dumped a live Ethereum contract into GPT-4.
— Conor (@jconorgrogan) March 14, 2023
In an instant, it highlighted a number of security vulnerabilities and pointed out surface areas where the contract could be exploited. It then verified a specific way I could exploit the contract pic.twitter.com/its5puakUW
Mucho texto de entrada. En el nuevo modelo es posible introducir un texto largo de hasta 25.000 palabras, algo que permite gestionar muchos más datos de una sola vez para procesarlos y que por ejemplo nos los resuma. Hay quien ya ha publicado un contrato Ethereum en GPT-4 a partir de lo cual el motor fue capaz de detectar ciertas vulnerabilidades. Lo alucinante: esas vulnerabilidades detectadas existían de verdad y fueron expuestas en 2018 tras ser hackeado el contrato.
Tu profesor personalizado. GPT-4 puede actuar como un profesor que te ayuda a aprender y te anima a pensar dando pistas pero no dándote el resultado. Esta capacidad es precisamente la que están comenzando a aprovechar dos grandes plataformas de aprendizaje. Duolingo ha lanzado una nueva suscripción que da acceso a un "profesor de idiomas potenciado por IA", y Khan Academy ha hecho lo propio para "perfilar el futuro del aprendizaje".
Para frikis de la IA
— Antonio Ortiz (@antonello) March 14, 2023
Pinta que Gpt-4 supera bien los esquemas de Winograd pic.twitter.com/Ek9HNbTQBJ
Turing ya no sirve, Winograd (quizás) tampoco. La capacidad de este nuevo motor pone a prueba a los tests que intentan diferenciar a las máquinas de los humanos. El test de Turing ya estaba en jaque, pero ahora incluso esquemas como el de Winograd, que evalúa la capacidad lógica y de razonamiento de este tipo de sistemas, parecen poder ser superados por GPT-4. El propio informe técnico de GPT-4 habla de ello, y aunque una vez más puede haber usos malévolos, el avance es singular.
GPT-4 does drug discovery.
— Dan Shipper 📧 (@danshipper) March 14, 2023
Give it a currently available drug and it can:
- Find compounds with similar properties
- Modify them to make sure they're not patented
- Purchase them from a supplier (even including sending an email with a purchase order) pic.twitter.com/sWB8HApfgP
Descubre nuevas medicinas. El año pasado la IA de DeepMind ya logró averiguar la estructura de todas las proteínas conocidas por la ciencia, y motores como GPT-4 son desde luego capaces de ayudar en este ámbito y en el descubrimiento de nuevos medicamentos. Evidentemente este tipo de ámbitos es especialmente delicados, pero una vez más la herramienta puede ser muy valiosa en este tipo de investigaciones.
Can GPT-4 code an entire game for you? Yes, yes it can.
— Ammaar Reshi (@ammaar) March 14, 2023
Here's how I recreated a Snake game that runs in your browser using Chat GPT-4 and @Replit, with ZERO knowledge of Javascript all in less than 20 mins 🧵 pic.twitter.com/jzQzSRIkfz
Y por supuesto, programa mejor que nunca. Desde que apareció GitHub CoPilot, la capacidad de estos motores de IA generativa para crear código nos ha asombrado. En la demo de OpenAI el desarrollador creó un bot de Discord en apenas unos minutos, y otro usuario mostraba cómo recreó el célebre Snake sin él saber nada de JavaScript, y lo logró en menos de 20 minutos. Otro hizo lo propio con el mítico Pong... en menos de 60 segundos. El resultado, aquí.
Los juegos de palabras son lo suyo. En OpenAI también mostraron la capacidad de GPT-4 para resolver todo tipo de peticiones relativas a juegos de palabras. Por ejemplo, resumir el argumento de "Cenicienta" en una frase en la que cada palabra tiene que empezar con la siguiente letra del alfabeto sin repetir letras. Alguien poco después hizo algo parecido con el Quijote.
Many nuggets of insights into this GPT 4 paper but this is one of the most compelling - across the board GPT performs poorly at AP English - it’s incapable of abstract creativity. Same with complex leetcode which is ultimately an abstraction codified.
— ruchowdh.bsky.social (@ruchowdh) March 14, 2023
Humans aren’t replaceable pic.twitter.com/EamUdLmA0m
Sigue cometiendo errores. OpenAI ha tratado de pulir el modelo y sus responsables afirman que por ejemplo tiene un 40% de probabilidad de dar respuestas más verídicas que GPT-3.5 a nuestras peticiones, pero eso no significa que no se equivoque o que no pueda "alucinar" como las anteriores versiones.
Como han demostrado quienes han empezado a usarlo, sigue inventando con convicción, y una vez más conviene repasar las respuestas y no fiarnos al completo de lo que nos dice. Algunos usuarios mostraron también cómo su creatividad abstracta en inglés o su capacidad para enfrentarse a entrevistas técnicas tenía aún mucho margen de mejora.
Seis veces más caro. La otra novedad de este modelo es que su uso supone un coste muy superior al de su predecesor: GPT-4 es hasta seis veces más caro que GPT-3.5, aunque su soporte de contexto es mucho mayor también. Hay que destacar que GPT-3 era de hecho entre 10 y 20 veces más caro hace dos años, así que aunque este precio parece elevado ahora, es probable que con el tiempo se reduzca. También aparecerán nuevos modelos mejores y que una vez más serán más caros que sus predecesores, pero es algo esperable.
Imagen: Imagen con el boceto de una web que GPT-4 programó. Fuente: OpenAI
Ver 13 comentarios