El examen del MIR 2025 ha sido especialmente difícil este año. Los modelos de IA sacan un sobresaliente

Nos gusta poner a prueba a los modelos de inteligencia artificial en exámenes que normalmente suelen ser complejos para los seres humanos. En España uno de esos exámenes es precisamente el MIR, que permite acceder a la formación de especialistas médicos en España. ¿Cómo se portan los modelos de IA con ese examen?

Un MIR especialmente difícil.El de 2025 dicen los expertos, ha sido un MIR especialmente difícil. Se critica a menudo que el examen suele preguntar aspectos de patologías raras que incluso especialistas con experiencia no manejan.

Poniendo a prueba a los modelos de IA. Julian Isla, del departamento de IA en Microsoft, contaba en LinkedIn cómo él y su equipo habían querido poner a prueba a varios modelos de IA punteros para ver cómo respondían a las preguntas del examen. El examen consta de 210 preguntas tipo test con cuatro posibles respuestas. Algunas de las preguntas están asociadas a imágenes médicas, y están dedicadas a diversas especialidades médicas.

Fuente: Joaquín Isla (LinkedIn)

Versiones varias. De las versiones disponibles del examen han usado la Versión 0 junto a las imágenes incluidas en el cuadernillo de imágenes. Las respuestas de todas las versiones fueron publicadas el lunes en el Ministerio de Sanidad, y se han republicado en sitios web como el de iSanidad, del que se pueden consultar por ejemplo las de la Versión 0.

OpenAI o1 Pro, sobresaliente. El modelo de razonamiento o1 en su versión Pro, la más avanzada, consigue un espectacular 91,7% de respuestas correctas. Solo falló 17 de las 210, y de esas 17 solo dos estaban asociadas a imágenes. Como explica Isla, incluso los especialistas tendrían complicado contestar a algunas de estas preguntas.

Claude y GPT-4o no necesitan razonar. El segundo mejor modelo fue Claude 3.5 Sonnet, que consiguió un 88,5% de acierto, algo destacable si tenemos en cuenta que no es un modelo de razonamiento y puede verse perjudicado por ello. GPT-4o, que lleva ya varios meses en el mercado, también lo hizo muy bien con un 84,7% de acierto.

En Xataka

Un estudio acaba de confirmar lo que ya sospechábamos: las leches vegetales tienen menos nutrientes que la de vaca

DeepSeek R1, notable alto. Por su parte, DeepSeek R1 logró un 83,8% de aciertos. Falló en 34 preguntas. Eso demuestra que este modelo de razonamiento, aunque peor que o1 Pro, sigue comportándose de forma fantástica. Lo consigue además con una inversión muy inferior en su proceso de entrenamiento según sus desarrolladores.

No dejan respuestas en blanco. El examen tipo test penaliza las respuestas incorrectas, lo que hace que estos modelos salgan perjudicados porque contestan siempre, tengan o no seguridad en la respuesta. Julián Isla comenta también cómo el rendimiento en preguntas a las que había imágenes asociadas ha sido espectacular, y un gran salto desde el año pasado.

Pero claro, la IA usa chuletas. La gran ventaja con la que cuentan estos modelos, por supuesto, es que han sido entrenados con millones de datos, incluidos datos y conocimientos médicos, y eso les permite poder acudir a ese entrenamiento –que tienen totalmente memorizado– para responder las preguntas. Es como contar con una gigantesca chuleta, como si los estudiantes que se examinan pudieran consultar libros, apuntes o internet durante la prueba, algo totalmente prohibido.

Imagen | Xataka con Freepik Pikaso

En Xataka | Las inteligencias artificiales están cerca de vencer a los médicos en lo más difícil: entender a los pacientes