El lanzamiento el pasado viernes de o3 quizás pasó algo desapercibido ante la avalancha de lanzamientos de OpenAI. En parte porque apareció quizás demasiado rápido —o1 apenas fue lanzado tres meses antes— y en parte porque no está aún disponible para el público. Y aun así todo lo que nos llega nos hace pensar que estamos ante un modelo muy especial.
Cautela y expectación en OpenAI. Curiosamente en OpenAI el discurso es relativamente moderado. Sam Altman habló incluso más de o3-mini, la versión reducida, con menor latencia y coste, de o3. Según él, será una verdadera maravilla para programar. Retuiteó un mensaje de uno de los investigadores de OpenAI, Nat McAleese, que destacó en un hilo sus grandes prestaciones en las pruebas. Él calificó el modelo resultante de "muy, muy impresionante".

Programación. Hasta no hace mucho, nos parecía que GPT-4o programaba bien. En el benchmark SWE-bench Verified, con preguntas típicas de ingenieros software, este modelo puntuaba con un 31%. Como indican en The Algorithmic Bridge, con o1 se logra alcanzar el 31%, pero atentos, porque Claude Sonnet 3.5 logra un 50,8% y Gemini 2.0 Flash un 51,8%. Son puntuaciones fantásticas, pero o3 logra un 71,7%. Es un salto sencillamente extraordinario que no se había visto antes en este tipo de benchmark.
Pero aún hay más. Hay otro benchmark llamativo: el test de Codeforces, que se centra en pruebas de programación "competitiva" asignando un ELO a aquellos programadores —humanos o máquinas— que superan esas pruebas. OpenAI logró 2.727 puntos con o3, la puntuación que en el ranking actual ocuparía la posición 175: solo hay esos programadores —entre quienes han realizado la prueba— que superan el nivel de este modelo a la hora de programar. Deepmind Alphacode 2, que fue entrenado específicamente para este propósito y se lanzó en diciembre de 2023, estuvo en el percentil 87. O3 está en el percentil 99,7.
Doctor en ciencias. En junio Claude Sonnet 3.5 y GPT-40 superaban el 50% por poco en el test de preguntas científicas GPQA Diamond. O1 llega al 78%, pero o3 ya ha logrado un 87,7%. El nivel de los doctorados suele rondar de media el 70%.

Un genio de las mates. En matemáticas las pruebas estaban algo obsoletas, pero una empresa llamada Epoch AI creó un nuevo benchmark llamado FrontierMath que es tan duro que hasta los mejores matemáticos creen que no podrá ser superado por la IA fácilmente. Terence Tao, que ganó la medalla Fields en 2006 ("el Nobel de las matemáticas") indicó que la IA tardaría varios años en superarlas. Pues bien, hasta ahora los modelos de IA más avanzados (State-of-The-Art) lograban como mucho un 2% en ese test, pero o3 ha logrado un 25,2%.
Y luego está ARC-AGI. Sin embargo, la más prometedora de las pruebas es ARC-AGI, un benchmark creado originalmente por François Chollet en 2019 y que se ha convertido en el referente que demuestra la paradoja de Moravec. Son pruebas que a los seres humanos nos parecen triviales, pero que las máquinas normalmente no pueden resolver. Chollet es el creador del ARC Prize, una competición en la que se mide la "inteligencia" entendida como "la capacidad de un sistema para adaptarse a nuevos problemas que no ha visto antes y que sus creadores (los desarrolladores) no anticiparon".
o3 es muy, muy bueno en ARC-AGI. GPT-3 en 2020 lograba un 0% de puntuación, y GPT-4o logró un 5% en dicha prueba. Con o1 ya hubo un salto increíble al lograr un 32%, pero es que o3 ha logrado un increíble 87,5% (eso sí, a un coste de miles de dólares por tarea) y un 75,7% en modo de "baja computación" (20 dólares por tarea).
¿Es esto AGI? La pregunta que algunos plantean es si esto hace que o3 pueda ser considerado una inteligencia artificial general (AGI). Chollet cree que no, y de hecho explica que o3 sigue sin resolver algunas tareas triviales para los humanos, pero es que están trabajando en una segunda versión de ARC-AGI-2 que afirma "seguirá siendo extremadamente difícil" para o3.
Todo por confirmar. Los benchmarks tienen el problema de que son eso: benchmarks. Pruebas sintéticas que se ajustan a situaciones muy específicas, y que pueden no ser demasiado fiables como medida del rendimiento en un uso cotidiano de estos modelos. Y sin embargo, sabiendo cómo de bien se comportan ya o1, Claude 3.5 Sonnet o Gemini 2.0 Flash en ámbitos como el de la programación, los resultados de o3 son realmente prometedores. No solo eso: la evolución de estos modelos de razonamiento está siendo especialmente frenética, y lo demuestra el hecho de que o3 haya aparecido tan solo tres meses después que o1.
¿Y el precio, qué? Por lo que apunta Chollet, el precio de o3 será astronómico si lo queremos usar con todas sus prestaciones, y es posible que se trata de una versión del servicio muy especial que OpenAI solo ofrecerá en ámbitos muy concretos. Pero parece que o3-mini será mucho más asequible y eficiente, de modo que podemos esperar que lo que ahora se paga por o1 de forma ilimitada con la suscripción a ChatGPT Pro (200 dólares al mes) sea lo que acabe costando el acceso a o3 mini. Se espera que OpenAI lo ofrezca en el primer trimestre de 2025, y también que para entonces otros modelos de este tipo compitan con o3-mini y o3.
Una IA más precisa, eficiente y capaz que nunca. Lo que todo esto plantea es el acceso a unos modelos de IA que son más eficientes e incluso más baratos que nunca si lo que queremos es resolver ciertos tipos de problema. Parece que programadores e investigadores tienen en estos modelos una prometedora herramienta, pero parece que a priori tendremos al menos dos grandes vertientes de la IA. Por un lado los ChatGPT/Gemini/Claude actuales y sus evoluciones, más destinados a un uso rápido y con cierta tolerancia a errores. Por otro, modelos que "razonan" como o1 u o3, más caros, precisos y que tardan más en contestar pero que son muy potentes en ciertas áreas.
OpenAI hace bien en diversificar. Y justo por eso OpenAI tiene aquí una interesante forma de atacar al mercado con modelos distintos para distintas necesidades. Eso le permitirá además establecer distintos planes y precios —ya vimos cómo planea ir subiendo el precio de las suscripciones— y justificarlos precisamente con el acceso a unos y otros. Una estrategia razonable que desde luego puede acabar funcionando para lograr algo que necesita a toda costa: ingresos.
Ver 17 comentarios
17 comentarios
asdarfa
El resumen de la noticia
"La empresa está quemando el dinero como si no hubiera mañana y necesita ingresos"
Cualquier modelo de IA lo hace muy bien como asistente o para automatizar procesos que tu tardarías un rato en hacer, también te hace apaños para cosas simples, pero ya esta. De momento ya piden 200€ para los modelos avanzados, a ver cuanto van a pedir por esto porque será de risa, pero claro, solo lo pueden justificar si "es tan bueno como un programador real" supongo que se olvidan de que sigues necesitando a alguien haciéndolo funcionar que seguirá cobrando lo mismo.
A parte que puntua alto en benchmarks, que es lo que ha pasado toda la vida, que de eso a trabajo real hay un mundo y seguro que lo estan enfocando a conseguir pasar esos tests con la mejor nota posible como el dieselgate para poder imprimir billetes.
p2dzca
Hay un concepto importante sobre el aprendizaje que realizan los modelos de IA: aprenden un conjunto grande de reglas que saben aplicar. Por el contrario, las personas aprendemos un modelo de nuestro mundo y de nuestro conocimiento y somos capaces de generalizar (además de la creatividad). La actual IA no aprende un modelo general del mundo. Por eso, los niños ven un solo elefante y no necesitan ver más para identificar a un elefante. A una IA le muestras, como dato de entrenamiento, un solo elefante y no aprende nada. Hubo un debate sobre esto a partir de 2023 cuando se creó Otello-GPT, una IA para jugar a Othello. En realidad, el objetivo era crear un modelo de IA muy pequeño que permitiera inspeccionar las pocas capas de que estaban compuesto y entender cómo aprendía. Algunos investigadores concluyeron que Othello-GPT aprendía un modelo de su pequeño mundo (tablero, fichas y estrategia) y otros que solo aprendía un conjunto de reglas. Parece ser que tienen razón los segundos.
Respecto a los bancos de prueba de test, tienen la pega de que los modelos de IA se entrenan con esos test para que obtengan valoraciones altas. Al final, ¿qué aprenden, a aprobar un test o a ser buenos en la resolución de todo tipo de problemas?
La IA suele tener problemas hasta en los problemas más sencillos si no los han visto nunca. Se han entrenado modelos de IA para resolver secuencias de letras.
Por ejemplo:
Si "abcd" se corresponde con "abcdf",
¿con qué se corresponde "mnop"?. La respuesta es "mnopr".
Esto lo aprenden los modelos de IA fácilmente. Pero un pequeño cambio hace que los aciertos sean mucho menores. Por ejemplo:
Si "$ % & '" se corresponde con "$ % & ' *",
¿con qué se corresponde "= > ? @"?. La respuesta es "= > ? @ B".
Si la IA no ha sido entrenada con problemas que utilicen toda la secuencia de caracteres ASCII, es muy probable que no resuelva el problema.
Las actuales IA no manejan bien las analogías, las metáforas, relaciones causales, la física del mundo y un largo etcétera.
deskrado
No me interesa hacer rica una empresa, me interesa mas soluciones locales que puedan funcionar en un cluster de gpus que me cueste 2-4000€ .
Feliz Navidad Xataka y a todos los comentaristas!!🥳 🎊 Os quiero a todos ajnque no estemos siempre de acuerdo somos muy parecidos.
jubete
El problema es que se alimenta con el código que ve en internet, que son fulanos copiándose unos a otros.
Si lo que quieres hacer es sencillo, del plan "¿cómo paso una IP a string" o "¿substring tenía dos o tres parámetros?" lo hace bien, y si el método que escribes ahora se parece más o menos al que escribiste antes también lo hace bien (incluso copia tu estilo de sangrado, lo que impresiona bastante, la verdad) porque te permite ahorrar tiempo, pero desde luego no te va a hacer un buen trabajo, vas a tener una aplicación hecha con un fragmento detrás de otro de códigos de ejemplo de esos que no tienen control de errores o no están optimizados.
El resultado es que las aplicaciones que controlarán los aviones, los semáforos, tu dinero... tendrán el nivel que tendrían si estuvieran hechas por programadores junior-pero-que-muy-junior. Con lo que cuesta que dejen de copiar y pegar cosas de stackoverflow sin pensar lo que copian, y ahora se lo va a proponer el IDE...
aerondight420
No estamos ni cerca de AGI. Obvio que en OpenAI presentan el modelo como "muy, muy impresionante", lo quieren vender al fin y al cabo.
peri85
El ritmo al que avanza la IA es espectacular. Imagino una evolución hacia un modelo híbrido que mezcle las arquitecturas de GPTx con las de Ox similar a lo que hacemos las personas; actuamos de una forma distinta en función del grado de “concentración” que tengamos.
ultraverse
Pero que las manos sigan saliendo con seis dedos (el último comercial de Coca Cola, para el que contrataron tres agencias de publicidad, las que usaron IA generativa).
En Pepsi siguen las risas aún 🤣
glifcolze
Es el modus operandi de cualquier empresa tecnológica de hoy en día. El apalancamiento, crecer, crecer sin parar con inversiones incesantes, con la esperanza de ser los únicos que queden y poder sablear al ciudadano con tu "nuevo monopolio", pues ya nadie querrá o podrá hacerles sombra.
El problema es que solo puede quedar una.