Google ya tiene una IA que "razona". Y hay un padre, un hijo, un mono y comida que lo demuestran

En Google están plantando cara muy seriamente a OpenAI. El lanzamiento de la familia de modelos de IA Gemini 2.0 destacó por su agente de IA, Project Mariner, pero ahora llega con una novedad igualmente llamativa. Con nosotros tenemos ya una versión preliminar de Gemini 2.0 Flash Thinking, un modelo de IA que "razona" —como siempre, entre comillas— como también lo hace o1 de OpenAI. Lo hemos probado, y su comportamiento es notable.

Este modelo ya se puede probar en AI Studio, donde basta seleccionarlo en la parte derecha en la que podemos elegir con qué modelo queremos trabajar en cada momento. Al hacerlo, podremos ya introducir todo tipo de preguntas, pero las que realmente tiene sentido aquí hacer son preguntas matemáticas o de lógica en las que se note que el modelo tiene la capacidad de intentar resolver un problema volviendo hacia atrás y revisando sus respuestas.

Hagamos un pequeño experimento: os proponemos intentar resolver dos problemas que Gemini 2.0 Flash Thinking sí resolvió. El primero, con una imagen:

Captura De Pantalla 2024 12 20 A Las 7 49 19

Dadas esas bolas de billar con esos números, ¿sois capaces de encontrar una combinación en la que tres de ellas sumen 30? Pensadlo un momento.

¿Lo tenéis? Aparentemente no hay solución: ninguna combinación con esos números logra el resultado adecuado. Pero claro, hay truco. La bola de billar con el número 9 puede "darse la vuelta", con lo cual el número resultante es el 6. Y gracias a ese número sí podemos lograr una combinación (6+11+13) que soluciona el problema.

Captura De Pantalla 2024 12 20 A Las 7 52 45

Logan Kilpatrick, máximo responsable de AI Studio, se encargaba de presentar el nuevo modelo y de demostrar su capacidad con ese mismo ejemplo (de ahí la mala calidad de la imagen de las bolas de billar, disculpad). Si pincháis en el vídeo y observáis el proceso de razonamiento, veréis cómo efectivamente Gemini 2.0 es capaz de detectar justo ese "truco" para resolver el problema. Asombroso.

El segundo ejemplo es igual de llamativo. Hay muchos problemas lógicos que podemos utilizar para poner a prueba a estos modelos, y uno de ellos lo encontramos en Reddit, donde un usuario lo enunciaba (en inglés) de forma que fuera fácilmente entendible por un chatbot.

El problema nos sitúa en un escenario con un padre, un hijo, un mono y comida. Deben cruzar un río y hay varias condiciones para hacerlo de forma adecuada:

Deben cruzar el río en un pequeño bote
El bote solo puede llevar dos cosas, pero también puede llevar solo una
El bote no puede cruzar el río por sí mismo
Solo el padre o el hijo pueden pilotar el bote, y ambos pueden ir juntos si es necesario
No puedes dejar la comida sola con el hijo porque se la come
No puedes dejar la comida sola con el mono porque se la come
¿Cómo logra el padre cruzar a todos y todo a la otra orilla?

Captura De Pantalla 2024 12 20 A Las 8 06 37

La solución propuesta con Gemini, con ese paso 4 que el chatbot califica de "contraintuitivo" porque efectivamente lo puede parecer.

Una vez introducido el problema, Gemini analiza primero las instrucciones para desglosarlas, y luego comienza a "experimentar". Al cabo de menos de un minuto da con la solución, que tiene un paso especialmente llamativo:

El padre lleva la comida al otro lado del río
El padre vuelve solo
El padre lleva al hijo al otro lado
El padre vuelve, pero con la comida para evitar que el hijo se la coma
El padre deja la comida y se lleva al mono al otro lado
El padre vuelve solo
El padre lleva la comida al otro lado
¡Solucionado!

Captura De Pantalla 2024 12 20 A Las 8 05 42

Claude 3.5 Sonnet no pudo resolverlo.

El problema, que no es especialmente difícil para nosotros, es muy complejo para modelos de este tipo. De hecho lo probamos en Claude 3.5 Sonnet y este chatbot, tras pensarlo un par de veces, nos respondió preguntando si el problema era imposible de resolver.

Lo cierto es que pruebas como esta demuestran que este tipo de modelos que "razonan" van un paso más allá y son especialmente útiles en este tipo de situaciones. Jeff Dean, científico jefe en DeepMind, indicó en X que este nuevo modelo "está entrenado para usar el pensamiento para fortalecer su razonamiento", y aunque su afirmación es hasta cierto punto polémica —comparar lo que hacen estos chatbots puede no ser considerado como "pensar"—, la realidad es que esto va más allá de un modelo estocástico que genera texto a partir de su conjunto de entrenamiento.

Este tipo de modelos tardan desde luego más en responder, pero es curioso "verlos trabajar" y comprobar cómo van analizando estos problemas para intentar resolverlos.

Captura De Pantalla 2024 12 20 A Las 8 17 49

Nosotros de hecho hicimos una tercera prueba. El famoso de contar erres. En este caso, le pedimos que contara las erres en la frase "el perro de San Roque no tiene rabo porque Ramón Ramírez se lo ha robado". No es un problema estrictamente lógico, pero aquí Gemini se equivocó y contó 10 erres cuando en realidad hay nueve.

Incluso insistiéndole en que revisara su respuesta volvió a dar la respuesta incorrecta una y otra vez. Así pues, asombroso en unas cosas, y sorprendentemente terrible en otras que a nosotros nos parecen triviales.

Imagen | Xataka con Freepik

En Xataka | He usado ChatGPT Search como buscador por defecto gracias a la extensión de Chrome. Y creo que Google tiene un problemón