Todas las empresas IA están vendiendo que sus nuevos modelos "razonan". Hay que ponerle unas comillas muy grandes

Los expertos tienen opiniones diversas sobre si lo que hacen modelos como o1 o DeepSeek R1 es realmente "razonar"
De momento los estudios apuntan a que se basan mucho más en la heurística y en los datos con los que han sido entrenados

12 comentarios Facebook Twitter E-mail

24 Febrero 2025 Actualizado 25 Febrero 2025, 12:14

Javier Pastor

La segunda definición de razonar según el Diccionario de la lengua española es "ordenar y relacionar ideas para llegar a una conclusión". Eso es justo lo que hacen modelos de IA como o3-mini, de OpenAI o DeepSeek R1. Recolectan información, la ordenan y construyen una respuesta en la que llegan a una conclusión.

¿Son entonces estos modelos de IA modelos que "razonan" de verdad?

Es una pregunta inevitable con una respuesta difícil. Desde se comenzase a utilizar ese término, en Xataka hemos acudido a menudo a entrecomillarlo, porque comparar el teórico "razonamiento" de estas máquinas con el razonamiento humano es delicado.

Y es como indican en Vox, los científicos aún están tratando de entender cómo funciona el razonamiento en el cerebro humano. Hay de hecho diversos tipos de razonamiento como el deductivo (a partir de una premisa llegamos a una conclusión) o el inductivo (realizamos una generalización amplia a partir de una serie de observaciones).

Dividir un problema en partes para poder resolverlo es también razonar sobre él. Es de hecho la idea tras la cual está la llamada "cadena de pensamiento" ("chain-of-thought") de la que OpenAI ya hablaba en septiembre de 2024, cuando se lanzó o1. Es un proceso que imita en cierta medida al razonamiento humano en ese tipo de problemas, pero ¿está razonando la máquina como lo hacen las personas?

Para algunos expertos una de las cosas que nos distinguen (de momento) de las máquinas en este tipo de tareas es que podemos descubrir "una regla o pauta a partir de datos o experiencia limitados y de aplicar esta regla o pauta a situaciones nuevas y desconocidas".

Así lo afirmaban Melanie Mitchell —del Santa Fe Institute— y sus colegas en un estudio sobre las capacidades de "razonamiento" de los modelos de IA en noviembre de 2023. Por entonces aún quedaba casi un año para que aparecieran o1 y otros modelos de "razonamiento" rivales, pero el dato sigue siendo válido, porque los modelos de IA siguen necesitando ser entrenando con vastas cantidades de información.

En Xataka

o3 puntúa tan alto como programadores humanos en un de razonamiento y abstracción. Es justo lo que OpenAI necesita

Pero Mitchell analizaba el espectacular rendimiento de o3 en las pruebas ARC un año más tarde, y se sorprendía de lo bien que se había comportado. También le llamó la atención la gran cantidad de recursos de computación que requería esa capacidad de "razonamiento", y se preguntaba si realmente las máquinas estaban usando el tipo de abstracción que realmente se necesitaban para esos tests.

Hay estudios que precisamente ponen en duda que la IA esté "razonando". Uno de octubre de 2024 firmado por cuatro investigadores del Instituto de Tecnología de Israel y la Northeastern University se preguntaba si los LLMs (Large Language Models, grandes modelos de lenguaje) resuelven estas tareas de razonamiento aprendiendo algoritmos robustos y generalizables, o lo hacen memorizando los datos con los que han sido entrenados. ¿Utilizan la heurística y la experiencia, o "piensan"?

La conclusión a la que llegaron tras sus pruebas es que al parecer hay una mezcla de ambas cosas: implementan un conjunto de heurísticas —una combinación de reglas memorizadas— para llevar a cabo su "razonamiento" aritmético. No "razonan", o al menos no lo hacen como lo hacemos los seres humanos. Sobre todo, critican los expertos, aplican la heurística y una serie de datos memorizados para resolver el problema. Su capacidad de extrapolarlos y de adaptarse a nuevos problemas es limitada. Son alumnos aplicados, pero no son "geniales".

Captura De Pantalla 2025 02 24 A Las 13 53 02

El test ARC-AGI trata de plantear pruebas que para los seres humanos son relativamente sencillas, pero con las que los modelos de IA lo pasan realmente mal.

Para otros expertos, como Shannon Vallor, de la Universidad de Edimburgo, lo que hace la IA es, una vez más, imitar el comportamiento humano. Lo hacen los chatbots tradicionales como ChatGPT al generar texto, y lo hacen también estos modelos de "razonamiento" al imitar rl proceso de razonamiento humano, descomponiendo el problema y tratando de resolverlo por etapas.

Algunos investigadores hablan de una inteligencia irregular, porque como explicaba Andrej Karpathy —exOpenAI—, los modelos más avanzados pueden resolver problemas realmente complejos, pero también se pueden atascar con otros problemas bastante simplones, como demuestran las pruebas ARC que para los seres humanos son muy sencillas.

Hasta que dejen de atascarse, por supuesto. Eso es lo que persiguen todas las empresas de IA con modelos cada vez más avanzados y versátiles. Menos irregulares. Y cuando lleguen (si llegan) quizás no tenga demasiada importancia si "razonan" o no. Y tampoco que entrecomillemos esa palabra.

Imagen | Todd Martin

En Xataka | Copilot, ChatGPT y GPT-4 han cambiado el mundo de la programación para siempre. Esto opinan los programadores