El modelo o3 de OpenAI es demasiado listo. Al menos, para las pruebas y los benchmarks diseñados hasta ahora. En programación, matemáticas y razonamiento llega hasta donde ningún otro modelo de IA había llegado, y eso ha demostrado que necesitamos nuevas formas de poner a prueba la IA. Y en eso están los expertos.
Los exámenes normales se han quedado cortos. A principios de 2023 ChatGPT ya era capaz de superar los exámenes de derecho y los de un MBA, aunque con un aprobado raspado. Como señalan en Time, casi dos años después el avance de los modelos es tan enorme que esas pruebas diseñadas para humanos se han quedado cortas, pero también lo han hecho los benchmarks que hasta ahora servían para evaluar sus prestaciones. Era algo que ya se veía venir.
Una evolución vertiginosa. En 2010 la profesora de Stanford Fei-Fei Li desarrolló un benchmark para clasificar imágenes llamado ImageNet Large Scale Visual Recognition Challenge. Cinco años después un sistema de visión artificial logró superar el reto. En 2017 DeepMind logró con AlphaGo aplastar al mejor jugador del mundo de Go y nos recordó el hito de DeepBlue. Parecía que retos como esos iban a tardar más en ser superados por las máquinas, pero la evolución de los sistemas de IA ha sido frenética, y ahora los modernos modelos de IA están mejorando de forma aún más vertiginosa.
FrontierMath. Epoch AI, una ONG de investigación, ha acabado desarrollando por ejemplo un nuevo conjunto de pruebas matemáticas llamado FrontierMath. Hasta hace muy poco, los modelos de IA como GPT-4 o Claude no pasaban del 2% en este test, un comportamiento que demostraba que aún había muchísimo margen de mejora. El lanzamiento de o3 ha cambiado las cosas: de repente ha logrado un rendimiento del 25,2%, algo que el director de Epoch AI, Jaime Sevilla, describía como "mucho mejor de lo que nuestro equipo esperaba tan poco después de lanzarlo".
![Frontiermath Vs Other Benchmarks](https://i.blogs.es/16c4ab/frontiermath-vs-other-benchmarks/450_1000.png)
Pruebas más exigentes. Este benchmark consiste en unos 300 problemas matemáticos de distinto nivel. Han sido diseñados por un equipo de más de 60 matemáticos entre los cuales está Terence Tao, ganador de la medalla Fields. Aunque hay algunos problemas más asequibles, el 25% de ellos están calificados como especialmente complejos. De hecho, solo los mejores expertos podrían resolverlos, y tardarían incluso días en hacerlo.
Humanity's Last Exam. Otra de las pruebas recientes es Humanity's Last Exam, un examen con entre 20 y 50 veces más preguntas que FrontierMath, pero que cubren muchas más disciplinas. Los problemas a resolver han sido recolectados de la comunidad académica, y para ser incluida, una pregunta debe haber sido no respondida correctamente por los modelos actuales. Se espera que dicha prueba se lance a principios de 2025.
La paradoja de Moravec. Pero tan interesante o más que esas pruebas avanzadas son las que juegan con el concepto que maneja la paradoja de Moravec. Cosas que son triviales para los seres humanos pero que las máquinas no logran resolver.
ARC-AGI. Es justo lo que hace el benchmark ARC-AGI, creada por el investigador François Chollet en 2019 y que en su última evolución plantea pruebas con las que la mayoría de modelos lo pasan realmente mal. O1 mini solo lograba un 7,8% de puntuación, pero de nuevo o3 ha sorprendido a todos y alcanza un 87,5% en su modo más avanzado (muy caro) y un 75,7% en el modo de bajo consumo, un hito realmente excepcional. Por supuesto, los creadores de ARC-AGI ya trabajan en una nueva versión mucho más exigente que creen que los modelos de IA tardarán mucho en superar.
Imagen | Crymedy7 con Midjourney
En Xataka | OpenAI está quemando el dinero como si no hubiera mañana. La pregunta es cuánto podrá aguantar así
Ver 9 comentarios
9 comentarios
ricardouriluriel
La caída de hoy de Chap deja bien claro que la IA no servirá para conducir, mi para robots domésticos, ni para robots trabajadores ni para muchísimas cosas, ya que una caída de la red de internet podría ser catastrófica. Hasta que la IA no pueda ser local no tiene sentido. Es como los altavoces domésticos de Amazon y compañía. Hace muchos años que estos asistentes no necesitan una red para responder a cosas que no haya que buscar en la red claro está. Pero claro, lo que no nos gusta aceptar es que una forma de recabar datos y espionaje tan importante que ponen la excusa que no pueden funcionar localmente. Dudo mucho que un Presidente de un país se arriesgue a ser conducido automáticamente, pero para los prescindibles si que lo haremos, porque hasta los seguros nos cobrarán más sino conducimos en automático. Pero el día que se caiga la red, que no nos pille en la carretera. Antiguamente era costumbre en España que se cayera la red electrica, ahora es una cosa muy rara, pero generalmente no hay tanto drama si pasase. Puede que en el futuro los satélites mantengan siempre la red en funcionamiento, pero y si fallan una vez? Quién asumirá ese riesgo. No quieren IAS locales, porque se les acabó el chollo de espira y controlarlo todo, pero al final el consumidor decidirá.
t_r_a
"que una IA se está volviendo muy lista", cojones como marte es lo que hay que tener para soltar semejante tontada
Mr. Dick
Unas puntualizaciones.
De acuerdo con los creadores de o3, una de las razones por las que se baraja que o3 le cueste tanto el último tramo de ARC-AGI es por la ambigüedad de algunas preguntas y las limitaciones de la modalidad de visión (todos los modelos de tope de gama son algo miopes. No son como el ojo humano que ve el centro super nítido y puede moverlo en tiempo real para traer otras partes del problema a primer plano).
Por otra parte, lo de FrontierMath se dice (por matemáticos que han verificado dentro de lo posible este hito) que la porción que han resuelto es la porción de problemas más sencilla. Problemas al nivel de los más increíbles recién graduados matemáticos si le echan el tiempo suficiente. Es decir, los problemas nuevos y super complejo de nivel postgrado aún siguen sin ser resueltos.
Es un increíble modelo y una ostia en la boca a todo medio de comunicación que lleva clamando desde noviembre que la IA está muerta y que ya no va a mejorar más. Una de muchas, pues no es la primera ni la última vez que esto pasa. Pero no es AGI y su utilidad sigue siendo limitada pues siguen sin poder combinar modelos de razonamiento y LLMs más tradicionales de forma más efectiva. Aunque no creo que tarden mucho más en hacerlo.
Además, creo que no se hace suficiente hincapié en el hecho de que nos faltan más y mejores formas de medir el rendimiento de estos modelos. Más que nada porque la mayoría de test tradicionales están saturados pero los modelos siguen mejorando en miles de áreas que no sabemos distinguir. Desde como interpretan las solicitudes a cuanto generalizan ideas para razonar de mejor forma en el futuro. Creo que esta es una de las principales razones por las que se dice que los modelos apenas mejoran. Porque están compitiendo en tests ya saturados donde el tramo restante es muy complicado, es ambiguo, supone una desventaja para el modelo debido a las limitaciones del tokenizer o simplemente está equivocado como en el caso de ImageNet donde donde el modelo acertaba pero el test estaba equivocado y tardaron años en darse cuenta.
En fin. En otro orden de noticias: DeepSeek acaba de lanzar un modelo que rivaliza con el nuevo Sonnet.
ayrton_senna
Desde la última actualización de Mistral me quedo como un "tonto del culo" con las respuestas que da. Le pregunto como solucionar cualquier problema de programación y no sólamente responde con un nivel de acierto alto, es que además da soluciones alternativas a vomo atacar el problema que ni siquiera tenía en la cabeza. Es como tener un colega del trabajo que viendo lo que tratas de hacer te responde "pero quizás deberías pensar en esta otra opción". Esa nueva funcionalidad donde ofrece puntos de vista alternativos me deja a cuadros.
luismorales4
Deberían dar libertad a la IA para formular opiniones que generan "controversia" no que la limitan en muchos sentidos.