GPT-4 podría conseguir plaza en Stanford. Su capacidad de razonamiento ha mejorado lo suficiente como para superar sin mayor dificultad la mayoría de tests y exámenes. Y con nota. Si GPT 3.5, la versión en la que todavía se basa ChatGPT, falla en las pruebas de lenguaje y matemáticas más complejas, con GPT-4 tenemos un salto considerable.
Entre el 10% de los mejores estudiantes. Si GPT-4 fuera un estudiante y lo colocáramos junto al resto para pasar algunos de los exámenes tradicionales, conseguiría estar entre el 10% de los que obtienen mejor nota. Para hacernos una idea del cambio, GPT-3.5 estaría entre el 10% de los que tienen peor nota.
Estos son los resultados publicados por OpenAI en su investigación sobre GPT-4, donde han probado la nueva inteligencia artificial en exámenes diseñados originalmente para humanos.
Y sin entrenamiento específico. OpenAI explica que GPT-4 ha conseguido estos resultados sin entrenarse específicamente para estos exámenes. Una minoría de ellos sí estaba incluida en los modelos de entrenamiento, pero de hecho en esos casos se ejecutó una variante de la IA sin esos problemas. Y el resultado elegido es la puntuación más baja.
GPT-4 logra pasar todo tipo de exámenes, desde aquellos con varias opciones a los de respuesta libre.

De mayor quiero ser abogado. O biólogo. GPT-4 consigue un percentil del 90% en el Uniform Bar Exam, el test más popular en Estados Unidos para convertirse en abogado. También consigue un 88% en el LSAT, el test para acceder a la Columbia Law School.
No solo en test de leyes consigue buenos resultados. En GRE Quantitative, que mide la capacidad de razonar y entender conceptos matemáticos, está por encima del 80% de estudiantes.
Si nos fijamos en biología, GPT-4 habría quedado por encima del 99% de participantes en las olimpiadas USABO.
Habría que ir repensando la forma de evaluar. Que la IA va a ir mejorando sus resultados con el tiempo es inevitable. La duda no es tanto hasta qué punto GPT-4 puede superar los exámenes, sino si la forma de evaluar es la correcta. Afortunadamente, desde las instituciones educativas llevan ya varios años planteándose estas cuestiones.
GPT-4 todavía tiene importantes limitaciones. A pesar de conseguir resultados impresionantes, GPT-4 todavía tiene limitaciones. Hay algunos tests como Leetcode donde todavía consigue muy mala nota en las pruebas de programación avanzadas. Tampoco supera los de creatividad abstracta.
OpenAI reconoce que su IA no es del todo fiable y en algunos contextos "alucina" y comete errores de razonamiento. Un margen de mejora en el que seguirán trabajando.
Ser buen estudiante implica mucho más. GPT-4 promete un "nivel humano" en tareas académicas y profesionales. Sus excelentes resultados en todo tipo de exámenes demuestran que sus capacidades son enormes. Si bien, estos resultados no implican necesariamente que GPT-4 sea un buen estudiante.
Gary Marcus, profesor de psicología en la Universidad de Nueva York y crítico con la inteligencia artificial, recuerda que los benchmarks no implican una inteligencia robusta: "Obtener una buena puntuación en un montón de exámenes, de ninguna manera significa que GPT-4 realmente pueda funcionar como un estudiante de Stanford".
Como muchos universitarios saben de primera mano, pasar las pruebas de acceso es una cosa; asumir los conocimientos es otra muy distinta. El sistema educativo haría bien en observar de cerca lo mucho que está avanzando la IA en resolver las pruebas tradicionales.
Imagen | Nguyen Dang Hoang Nhu
En Xataka | Hacia el fin de los deberes: cómo ChatGPT se ha insertado en el centro del gran debate sobre la educación
Ver 17 comentarios
17 comentarios
nabomaximo
Qué hay que repensar? Los exámenes los van a hacer humanos, no máquinas. Ya sabemos que hay un cacharro que se llama calculadora y hace las cuentas rapidísimo, quitamos las Matemáticas entonces? Tremenda chorrada.
takizawa
Quitemos a los politicos y dejemos que el GPT-4 haga su trabajo. Nos ahorramos millones y tendríamos mejores resultados.
marededeusenyor
No veo la relación. ¿La podéis explicar o se lo he de preguntar a GPT4?.
reyang
Las evaluaciones deben ser sustentadas y en las admisiones el aspirante debe en una entrevista sustentar lo que ha hecho por escrito. Formas de evaluar hay muchas.
Lo que yo veo es que en esta web están sobredimensionando a GPT-4 como algo revolucionario, cuando la realidad es que debe aplicarse y manejarse con responsabilidad y no en todos los ámbitos, especialmente en el educativo.
mszerox
Si esto no es humo, entonces, la situacion de los examenes de admision tendran que ir con la clasica entrevista mientras se toma el examen y poner cupos maximos en dicha admision de solo 5000 candidatos.
gel0n
Pues el GPT-3, en determinadas áreas, fallaba más que una escopeta de feria. Y hablamos de áreas donde te respondía, esto es, donde se supone que tenía cierta base de conocimiento (sin activar el modo debug ese).
Como diría Sergio Ramos, aprobaría hasta el examen de orina, pero desde luego fiable no era.
oravla_1
Si pero a la hora de crear musica es una p.ta .ierda de cojones.
Ahí sí que van a tener faena!!