Uno le pregunta algo a ChatGPT y parece como si realmente este chatbot fuera capaz no solo de entender lo que le estamos preguntando, sino que además contesta de forma humana. Como si pudiera razonar. En los últimos tiempos estamos viendo de hecho cómo empresas como OpenAI (con o1) o Microsoft (con Think Deeper) presumen de modelos que razonan, pero nada más lejos de la realidad.
Chatbots a examen. Seis investigadores de Apple quisieron poner a prueba tanto modelos de IA Open Source como modelos propietarios. La idea, comprobar sus limitaciones a la hora de "razonar". En el estudio resultante de tal proyecto analizan Llama, Phi, Gemma, Mistral, y también GPT-4o y o1.
Los benchmarks nos engañan. Entre las pruebas destaca GSM8K, un benchmark desarrollado por OpenAI y muy popular a la hora de evaluar la capacidad de razonamiento matemático de estos modelos de IA. GPT-3 (175B) puntuó con un 35%, y en la actualidad modelos mucho más pequeños de 3B de parámetros superan el 85% y algunos de los grandes LLM llegan a superar el 95%. ¿Significa eso que realmente razonan? Resulta que en realidad no.
Jugando a cambiar valores. Mehrdad Farajtabar, uno de los responsables del estudio, —otro de los que lo firman es Samy Bengio, hermano de Yoshua Bengio— explicaba en un hilo en X (Twitter) cómo habían concebido su análisis. Desarrollaron una herramienta llamada GSM-Symbolic con la que podían generar experimentos controlados con distintos valores y nombres para ver cómo se comportan los modelos de IA al cambiarlos.
Precisión discutible. Lo primero que descubrieron estos investigadores es que la precisión en el benchmark GSM8K era bastante variable. Pero Farajtabar destacaba cómo ese "razonamiento" era especialmente frágil. "Los LLM se mantienen muy sensibles a los cambios en los nombres propios (gente, comida, objetos) y más aún cuando se alteran los números. ¿Cambiarían las notas de los estudiantes en un examen de matemáticas en un 10% si solo cambiáramos los nombres de las cosas que se enuncian en los problemas?".

Más difícil todavía. Si se eliminaba una frase del enunciado del problema, se añadía otra o se añadían dos, rendimiento caía y la variabilidad de los resultados en el test GSM8K aumentaba, lo que para estos investigadores hace que los modelos sean "cada vez menos fiables".
Vamos a engañar a la IA. Para girar aún más la tuerca, los investigadores decidieron añadir al problema una frase que parecía relevante pero que en realidad no contribuía al proceso de "razonamiento" o a la conclusión. Lo que ocurría era que los modelos reducían su rendimiento de forma notable. Esa información irrelevante provocaba una caída en su capacidad precisamente porque intentaban tomarla en cuenta, cuando en realidad si "razonaran" descubrirían que no tenía sentido hacerlo.
Tramposos al ajedrez. El estudio de estos investigadores es la confirmación de algo que analistas y expertos llevan tiempo destacando desde hace tiempo. Pruebas sencillas como poner a un chatbot a contar erres o a multiplicar matrices lo demuestran, pero también lo podemos ver si le pedimos a un chatbot de IA generativa que juegue al ajedrez: lo normal es que acabe haciendo movimientos ilegales.
Cuidado con fiarte de tu chatbot. Una vez el mensaje es claro para quienes usan estos chatbots, pero también para quienes los desarrollan. La capacidad real de razonamiento de estos modelos es un mito, y eso hace que por ejemplo crear agentes de IA fiables que actúan sobre cierta información puede ser muy contraproducente.
Ver 9 comentarios
9 comentarios
Usuario desactivado
No es un problema de ideologia o que pueda mejorarse con mas dinero y mas parametros, se llegó a los límites de la IA basada en LLM.
Para que la IA razone se necesita una nueva arquitectura.
escai
Solo diré que si hace 3 años nos decían que ahora podrías pedirle a una máquina que te generara una imagen de un gato pilotando un avión y que te la iba a meter doblada nadie lo hubiera creído.
Los GPT actualmente son RELLENADORES DE TEXTO.
Claro, algunos pueden decir... bah, si solo rellenan texto... y otros dirán que eso solo ya es alucinante.
Ambos tienen razón.
Estamos viendo los primeros pasos de lo que puede venir. Es evidente que ahora mismo tiene fallos, que no "razonan", y que si les buscas las cosquillas fallan en sus argumentos... Es decir, que quizás aún no se ha llegado al nivel de Einstein, es cuestión de tiempo, pero de momento ha llegado al nivel de tu "cuñado" en nochevieja con unas copas de más.
Se habla de que en los próximos 10 años se conseguirá la Inteligencia Artificial General, veremos...
acerswap
Lo peor es que hay gente que piensa en los chatbots como si fueran un sistema libre de sesgos y que siempre alcanza conclusiones lógicas válidas.
dbrel
¡Sorpresa sorpresa!
Siempre dije a mis conocidos que no es nada raro ni extraordinario y que a grandes rasgos la IA es una base de datos coherente, no razona, utiliza parametros para hacer creer que razona y responde con ciertas reglas, le complejizas las pregunta y se come todas las curvas, por eso de "aprende" pero eso en la computación es algo que se hace desde los 80s. Tiene un uso interesante si, para automatizar tareas que son tediosas y hacerlas rapido pero de ahi a que razone hay abismo.
cachorroo
no se que pensaban descubrir.... que la IA tenia un alma secreta magica, que tenia un sistema limbico emocional que le ayudaba a sentir empatia ?? son algoritmos. sabemos que son algoritmos pero estan ajustados para que parezcan comprender y puedan resolver.
no necesitamos que sientan o que comprendan, solo que parezca que sientan y comprendan para que ayuden en ciertas tareas.
ricardouriluriel
Es normal, están programando los chats bots para que respondan según los intereses de sus creadores. Les ponen tantas limitaciones para evitar que puedan ser un peligro, que con un pequeño salto en la pregunta, y con miedo de que la IA reaccione mal, directamente se vuelve loca y a procesar algo improcesable y acaba defraudando. Es como una persona que intenta defender su ideología, la cual nunca es perfecta, que pasa cuando le preguntan por algo dónde su ideología no es correcta ética, moral, o públicamente???? Pues lo de siempre, no sabe cómo responder, pero tampoco quiere reconocer que no es perfecta, y de ahí viene el problema. Si quieres una IA generativa tienes que darle toda la libertad que necesite.