Si usas un chatbot, ¿por qué usas ese y no otro? Es una pregunta sencilla, pero la respuesta difícilmente será defintiva. Lo normal es que los usuarios respondan que usan el chatbot X (sea ChatGPT, Copilot, Gemini, Claude o cualquier otro) porque les funciona bien para lo que quieren, pero la duda quedará en el aire. ¿Hay uno mejor para eso que quiero hacer?
Lo curioso es que a estas alturas seguimos sin saberlo. Existen un buen montón de benchmarks que tratan de evaluar el rendimiento de estos modelos de IA, pero de lo que esas pruebas nos dicen a la experiencia real suele haber bastante diferencia. Lo que a unos les parece una buena respuesta puede no parecérselo a otros, y cada escenario cambia porque los chatbots no suelen responder exactamente lo mismo cuando les preguntamos.
Lo comentaban en The New York Times destacando cómo a menudo cuando alguna empresa presenta su nuevo modelo de IA, lo hace con afirmaciones subjetivas y difícilmente comprobables, como por ejemplo que tienen "capacidades mejoradas" sin especificar por qué.
Es un problema real de la industria. No sabemos si Gemini escribe mejor código que ChatGPT o Copilot. O si ChatGPT Plus, que es de pago, realmente merece la pena en cuanto a calidad de sus respuestas. O qué modelo de generación de imágenes es mejor creando caras realistas de gente, aunque aquí la subjetividad y las opiniones personales juegan un papel aún más importante.

El A.I. Index, un interesante estudio reciente del Instituto para la IA Centrada en Humanos de la Universidad de Stanford, precisamente lo recalca en su segundo apartado, en el que habla del rendimiento técnico de los modelos.
Los investigadores que han realizado este completísimo informe —fácil de leer y entender por el protagonismo de lo visual— dejaban claro en primer lugar que la inteligencia artificial supera a los seres humanos en algunas tareas, pero no en todas.
Luego dejaban claro que los modelos de IA actuales han llegado a saturar las pruebas actuales. ImageNet, SQuAD o SuperGLUE, que hasta no hace mucho eran buenas varas de medir para los modelos de IA, ya no sirven: los modelos se han vuelto demasiado buenos.
Lo que se está haciendo ahora es crear pruebas aún más exigentes, como SWE-bench para la generación de código, HEIM para la generación de imágenes, MMMU para el razonamiento general, MoCa para el razonamiento moral, AgentBench para el comportamiento de agentes de IA y HaluEval para analizar si los modelos "alucinan".

Hay también una métrica que cada vez es más importante para los usuarios. Una que no es sintética como tal, sino que precisamente se basa en la puntuación que los humanos le damos a estos modelos.
Un modelo puede puntuar muy alto en un benchmark de generación de texto, pero ¿qué le parece a un usuario que lo usa? Sistemas como Chatbot Arena Leaderboard, que registran el "sentimiento público" sobre un chatbot —cualquiera puede votar a su chatbot preferido—, son cada vez más relevantes a la hora de monitorizar cómo y cuánto avanzan estos modelos de IA.
Eso lo vimos recientemente cuando apareció Claude 3 Opus. El nuevo modelo de Anthropic tiene un comportamiento en benchmarks que parece superar incluso a GPT-4 —hasta ahora, la referencia— en algunos escenarios "sintéticos". Lo importante, no obstante, es que lo superaba en puntuación ELO en el citado Chatbot Arena Leaderboard —en estos momentos GPT-4 ha recuperado el trono—, lo que básicamente significaba una cosa.
La gente "prefiere" Claude 3 Opus a GPT-4. Tienen la sensación de que es mejor.
Eso se está convirtiendo cada vez más en una forma de "fiarse" de un chatbot y no de otro. En el mundo de los procesadores, los benchmarks suelen dar una idea muy clara de lo que podemos esperar de ellos. Es cierto que las pruebas sintéticas son también una referencia y pueden no coincidir exactamente con la experiencia final, pero podemos firanos bastante de esos resultados.
Con los modelos de IA la cosa no está tan clara, y eso es un problema. Uno que parece que por el momento va a ser muy difícil resolver.
Imagen | Chrypnotoad con Midjourney
En Xataka | El AI Pin ha llegado a sus primeros usuarios. Y sus conclusiones no son nada esperanzadoras
Ver 10 comentarios
10 comentarios
p2dzca
Conforme se van desarrollando test específicos para valorar la calidad de los modelos de inteligencia artificial, todos los modelos se entrenan específicamente para obtener una buena nota en los test. Esto tiene como consecuencia que usos alejados de los test o de las condiciones con las que los modelos de IA han sido entrenados ofrezcan menor calidad que la esperada y que los test pierdan parte de su valor.
Usuario desactivado
Claro que lo sabemos: ninguna es fiable
Usuario desactivado
El problema de fondo es que la arquitectura LLM no razona.
Los tests solo diran en cuantos milisegundos pueden generar una alucinacion o dar una respuesta agradable para un promedio de usuarios.
jorsus
----------------------------------------------------------------------------------------------------------------------------------
Tenemos un problema con la IA: no hay forma fiable de saber si ChatGPT es mejor que Gemini, Copilot o Claude
----------------------------------------------------------------------------------------------------------------------------------
Podemos considerar que todas son timos engañabobos, que no consiguen ni el 10% de lo que prometen, sin miedo a equivocarnos.
A eso sumamos el gasto estratosférico de electricidad y la IAs, como las conocemos a día de hoy, están condenadas al fracaso, sin excepciones.
Si ninguna es buena es que no hay necesidad real de saber cual es la peor de todas.
Julian Lasso
Ningúna es fiable, cualquier cosa es mejor que Gemini, eso sí se puede garantizar
santuxi
Despues de usar varias para hacer scripts que necesitaba en el curro he de decir que como fiable ninguna, debes saber verbalizar muy bien la orden que quieres que ejecute y siempre y cuando sabiendo desde que año tiene la actualización porque algunas las ordenes las dan con ejecuciones del 2020... en fin..
stanleekubrick
No sabemos cual es mejor... ¿esto es un problema tremendo no?