Nos gusta poner a prueba a los modelos de inteligencia artificial en exámenes que normalmente suelen ser complejos para los seres humanos. En España uno de esos exámenes es precisamente el MIR, que permite acceder a la formación de especialistas médicos en España. ¿Cómo se portan los modelos de IA con ese examen?
Un MIR especialmente difícil.El de 2025 dicen los expertos, ha sido un MIR especialmente difícil. Se critica a menudo que el examen suele preguntar aspectos de patologías raras que incluso especialistas con experiencia no manejan.
Poniendo a prueba a los modelos de IA. Julian Isla, del departamento de IA en Microsoft, contaba en LinkedIn cómo él y su equipo habían querido poner a prueba a varios modelos de IA punteros para ver cómo respondían a las preguntas del examen. El examen consta de 210 preguntas tipo test con cuatro posibles respuestas. Algunas de las preguntas están asociadas a imágenes médicas, y están dedicadas a diversas especialidades médicas.
Versiones varias. De las versiones disponibles del examen han usado la Versión 0 junto a las imágenes incluidas en el cuadernillo de imágenes. Las respuestas de todas las versiones fueron publicadas el lunes en el Ministerio de Sanidad, y se han republicado en sitios web como el de iSanidad, del que se pueden consultar por ejemplo las de la Versión 0.
OpenAI o1 Pro, sobresaliente. El modelo de razonamiento o1 en su versión Pro, la más avanzada, consigue un espectacular 91,7% de respuestas correctas. Solo falló 17 de las 210, y de esas 17 solo dos estaban asociadas a imágenes. Como explica Isla, incluso los especialistas tendrían complicado contestar a algunas de estas preguntas.
Claude y GPT-4o no necesitan razonar. El segundo mejor modelo fue Claude 3.5 Sonnet, que consiguió un 88,5% de acierto, algo destacable si tenemos en cuenta que no es un modelo de razonamiento y puede verse perjudicado por ello. GPT-4o, que lleva ya varios meses en el mercado, también lo hizo muy bien con un 84,7% de acierto.
DeepSeek R1, notable alto. Por su parte, DeepSeek R1 logró un 83,8% de aciertos. Falló en 34 preguntas. Eso demuestra que este modelo de razonamiento, aunque peor que o1 Pro, sigue comportándose de forma fantástica. Lo consigue además con una inversión muy inferior en su proceso de entrenamiento según sus desarrolladores.
No dejan respuestas en blanco. El examen tipo test penaliza las respuestas incorrectas, lo que hace que estos modelos salgan perjudicados porque contestan siempre, tengan o no seguridad en la respuesta. Julián Isla comenta también cómo el rendimiento en preguntas a las que había imágenes asociadas ha sido espectacular, y un gran salto desde el año pasado.
Pero claro, la IA usa chuletas. La gran ventaja con la que cuentan estos modelos, por supuesto, es que han sido entrenados con millones de datos, incluidos datos y conocimientos médicos, y eso les permite poder acudir a ese entrenamiento –que tienen totalmente memorizado– para responder las preguntas. Es como contar con una gigantesca chuleta, como si los estudiantes que se examinan pudieran consultar libros, apuntes o internet durante la prueba, algo totalmente prohibido.
Imagen | Xataka con Freepik Pikaso
Ver 7 comentarios
7 comentarios
jozeico
En una serie le pegaron una puñalada a uno y le pregunté a chatgpt cuanto tardaba en curarse, me dijo que fuera al médico.
m4rc
Pero la IA va con apuntes, no?
dwanii
En el MIR hay mucha teoría también. Medicamentos, etc. que deben utilizarse en X caso y todo muy especializado... para lo que no hay que razonar naíta. Ahí la IA se come con patatas a cualquiera que se presente al examen. No sé, si me dijeras que el MIR fuese casi de puro caso clínico... pero no, llega justito a la mitad de las preguntas. Lo demás es teoría bien jodida que ya me dirás tú por qué una IA va a fallar eso XD
sanamarcar
Lo malo de la IA es que de ese 8% te puede meter un fallo catastrofico. Yo la uso como el alumno listillo y para ver que hace y muy trolera e inventiva cuando se le pide algo profundo.
fomlimalma
Vaya payasos, en serio creen que la gente ahora tiene incorporada una IA razonadora?? Otra prueba que EL sistema educativo actual esta super caducado
claud74
Pues yo le daría la vuelta al artículo. Si una IA que tiene chuleta no es capaz de sacar un 100%, es que los que hacen las preguntas se están pasando de rosca preguntando cosas que para nada son la realidad clínica.