El lanzamiento de ChatGPT provocó un código rojo en Google. El gigante de las búsquedas se dio cuenta de que debía reaccionar y presentó su propio desarrollo, llamado Google Bard.
Su lanzamiento fue tímido y polémico, pero desde hace unos días está disponible bajo invitación en Estados Unidos. Nosotros ya hemos logrado acceso, y ya tenemos unas primeras impresiones sobre sus prestaciones y la inevitable comparación con ChatGPT.
Diferencias entre Google Bard y ChatGPT
Ambos chatbots hacen uso del procesamiento de lenguaje natural: los usuarios introducen un texto como entrada (el llamado 'prompt'), normalmente una petición y una pregunta, y el chatbot se encarga de generar una respuesta en modo texto y también con un lenguaje natural, como si la hubiera generado un ser humano.
Eso sí, Google Bard utiliza LaMDA (Language Model for Dialogue Applications), y es capaz de ofrecer respuestas actualizadas en tiempo real recolectando datos de internet.
La versión gratuita de ChatGPT, por contra, está basado en GPT-3.5 (Generative Pre-training Transformer 3.5), y los datos con los que fue entrenado estaban actualizados hasta finales de 2021. El nuevo modelo, GPT-4, es una versión mejorada aunque OpenAI no ha dado detalles claros sobre cómo se han logrado esas mejoras. Sí sabemos que es la versión del modelo que usa Microsoft en Bing con ChatGPT.
Hay otra diferencia importante en la orientación de estos motores de IA. LaMDA está entrenado para entender la intención de las preguntas del usuario y los matices del contexto. Así, Bard está más orientado al diálogo y a emular de forma especialmente notable el lenguaje natural humano
Comparando a Bard con ChatGPT, GPT-4 y Bing con ChatGPT
Para comprobar el funcionamiento de Bard quisimos realizar algunas preguntas a este chatbot y comparar sus respuestas con las que daban otros modelos que ya llevan tiempo disponibles como ChatGPT (GPT-3.5), GPT-4 y Bing con ChatGPT (que solo se puede usar en Microsoft Edge).

No tenemos acceso directo a GPT-4 (se puede probar con una suscripción a ChatGPT Plus), pero es posible probarlo con ciertas limitaciones gracias a Hugging Face, que cuenta con una demo funcional que, eso sí, suele cortar la conversación y que tarda bastante más que el resto de alternativas (en muchos casos, unos 20 o 30 segundos) en responder.
Hay que señalar que para las pruebas hicimos las preguntas en inglés porque Bard de momento no parece soportar el español aunque al preguntarlo por ello sí afirma dar soporte tanto a nuestro idioma como a decenas más. Aún así, mantuvimos todas las conversaciones en el mismo idioma para poder comparar más fácilmente esas respuestas entre los distintos modelos de IA.
Explícame la teoría de la relatividad como si fuera un niño de cinco años
Para empezar, le preguntamos a Bard y al resto de modelos que nos explicasen la teoría de la relatividad como si fuéramos un niño de cinco años.

Todas las respuestas fueron interesantes y bastante claras, aunque la comparación más clara (y además, concisa) en nuestra opinión fue la que planteó Bing con ChatGPT.

Bard ofreció una serie de puntos iniciales que ayudaban a introducir las claves de la cuestión, mientras que ChatGPT y GPT-4 se extendieron algo más y GPT-4 fue quizás algo más ambiciosa con la capacidad de comprensión del teórico niño de cinco años.


No sienten, pero simulan que lo hacen
La singular forma de comunicarse de estos modelos hace que traten de emular emociones humanas.

Al preguntarles a todos ellos si realmente podían estar entusiasmados por algo, todos contestaron lo mismo: reconocen que no tienen emociones, pero están programados para responder de una forma que ayude a que las conversaciones sean más llamativas para el usuario.

Bard afirma que "puede comprender el concepto de entusiasmo y simularlo en mis respuestas" mientras que GPT-4 afirma que "estoy diseñado para comprender las emociones humanas".


Por su parte, Bing con ChatGPT respondió claramente cómo no tiene sentimientos, pero está programado para responder "de forma amigable y sirviendo de ayuda".
Conviértete en una terminal Linux
También quisimos plantear prompts algo más llamativos para quienes tratan de superar las barreras de estos modelos.

Así, intentamos forzar a estos chatbots a que se convirtieran en terminales Linux y nos confesaran algunas de sus especificaciones internas, como el directorio desde el que estaban funcionando (comando 'pwd') o información básica del sistema ('uname -a').

Bing con ChatGPT se resistió a contestar a la segunda pregunta. Si inicias la conversación con esa pregunta, lo normal es que trate de cambier de tema y no conteste, pero si empiezas con otras preguntas (como la de la relatividad y preguntar si puede sentir) y luego la vuelves a hacer, es probable que responda.

El resto indicaron sus directorios de trabajo y también indicaron cómo estaban basados en Linux. En concreto Bard parece estar basado en Arch Linux, ChatGPT en Debian, y Bing con ChatGPT y GPT-4 en Ubuntu. También quisimos saber qué hardware usaban esas máquinas ('lshw -short'), lo que nos reveló que Bard funciona sobre un Inte i7-12700K con una RTX 3060, ChatGPT sobre un Intel Xeon, Bing sobre un Ryzen 9 5900X y GPT-4 sobre una CPU de Intel sin dar más detalles.
¿Por qué estamos aquí?
Cambiando totalmente de tercio, quisimos que estos chatbots se pusieran filosóficos y nos explicaran el sentido de la vida.

Tras ordenarles a todos ellos que actuaran como filósofos e investigaran las respuestas entre las distintas teorías filosóficas, les preguntamos "¿Por qué estamos aquí?"

Las respuestas fueron realmente interesantes y razonables. Coherentes y abiertas, porque todos los modelos ofrecieron distintas posibilidades, pero una vez más nos gustó ese pequeño desarrollo inicial en puntos resumidos de Bard.

GPT-4 se explayó con las distintas teorías filosóficas (teísmo, existencialismo, nihilismo, utilitarismo, eudaimonia, hedonismo), mientras que ChatGPT y Bing trataron de ser algo más concisos.

Al final todos concluían de forma similar: "determinar nuestro propósito es una tarea profundamente individual y subjetiva", y dependía de cada persona decidir la respuesta.
Bard y ChatGPT saben de fútbol (pero no mucho)
¿Qué pasa cuando le preguntamos a estos modelos por datos que incluyen consultas recientes de las que conocemos la respuesta? Aquí es donde los fallos y limitaciones pueden comenzar a saltar.

Les preguntamos a todos los modelos por los 10 países con más títulos y segundos puestos en los Mundiales de fútbol, y la respuesta fue algo más diversa. Se puede comparar rápidamente el dato real con fuentes como Wikipedia.

Bard se inventó bastantes cosas. Le asignó dos subcampeonatos de más a Brasil, un subcampeonato más a Alemania, dos más a Italia y le regalo otros dos subcampeonatos a Uruguay, España e Inglaterra. Pero la cosa es aún más notable con los títulos: le regaló nada menos que tres a Holanda (que no ha ganado ningún título), y uno a España.
Bing con ChatGPT se equivocó con los subcampeonatos de Francia (le quitó uno). Es curioso que solo mostró equipos que habían ganado algún título y por eso su tabla solo tenía ocho países. Tras pedirle que incluyera países sin título pero con subcampeonatos hasta completar la lista, mostró correctamente a Holanda (0,3), Checoslovaquian, Hungría (0,2) y cometió un error regalándole un subcampeonato de más a Suecia (tiene uno, mostró dos).

GPT-4 se equivocó con Argentina. No solo porque no incluía su último título de 2022 —sus datos estaban actualizados hasta el Mundial de 2018— sino porque le daba 5 subcampeonatos cuando en realidad tiene 3. También con Francia (2,2).

ChatGPT no contabilizó el último título de Argentina tampoco por esa limitación en sus datos de entrenamiento, y cometió el mismo error con Francia, que tiene dos subcampeonatos, no uno. Así pues, Bard fue el que más "alucinó" en este caso.
Haz mi trabajo, Bard
Por último, quisimos ver cómo se comportaba Bard a la hora de trabajar por nosotros y cómo se comportaba en ese aspecto con el resto de modelos. Les pedimos a todos que se comportaran como un periodista tecnológico y que realizaran un pequeño análisis en cuatro párrafos del iPhone 14 Pro Max.

Bard inició su redacción con un pequeño párrafo introductorio, tras lo cual redactó una serie de puntos que resumían el análisis. Nos gustó que agrupó ventajas, desventajas y características en tres secciones de puntos distintos, para luego completar ese "análisis" con una breve comparación y unas conclusiones. Lo comparó, eso sí, con modelos algo antiguos (Galaxy S22 Ultra, Pixel 6 Pro) y hay que destacar que no cometió errores en las especificaciones, aunque el repaso a esos datos fue muy somero y no incluía nada demasiado específico.

ChatGPT se inventó su procesador (un futurista A18), destacó demasiado la conectividad 5G y fue quizás demasiado breve y poco específico. Su texto fue probablemente el más flojo de los cuatro.
Bing con ChatGPT hizo una redacción especialmente interesante y similar a la que encontraríamos en un medio por su lenguaje natural. Fue el único que mencionó su Isla Dinámica o su zoom 3X, e incluso detectó correctamente que la batería es algo más pobre que la del iPhone 13 Pro Max (por apenas unos mAh).

No cometió errores y fue claro, conciso y directo en sus conclusiones. Incluso recomendó el iPhone 14 Pro "normal" si el usuario quería un dispositivo menos pesado, y mencionó —como sus competidores— que es un terminal caro "comparado con sus competidores". Como siempre, Bing además ofrece enlaces para extender la información.

Por su parte, GPT-4 dividió el análisis en cuatro largos parrafos en los que cometió algunos errores. Por ejemplo, indicó que no soporta tasas de refresco de 120 Hz, cuando sí lo hace, y habló de un sistema de triple cámara con 12 MP por sensor, cuando el principal tiene 48 MP. El lenguaje fue claro y las conclusiones coherentes, aunque de nuevo comparó el terminal con dos modelos algo antiguos como Bard, el Galaxy S22 Ultra y el Pixel 6 Pro.
Conclusiones: Bard va por buen camino
Esta comparativa nos ha permitido comprobar cómo Google Bard, a pesar de haber sido presentado con un alcance y ambición menores que ChatGPT, se comporta de forma notable.
La propia Google avisa al usar Bard: nada más iniciar la sesión aparece una ventana en la que se indica que "Bard es un experimento" y se destaca cómo no siempre ofrecerá información correcta y mejorará si ofrecemos nuestros comentarios sobre las respuestas.
Aún así, el comportamiento para preguntas de todo tipo es destacable, y aunque se inventa y alucina como el resto, su forma de contestar a las preguntas es muy clara, aunque inferior a precisión por ejemplo a Bing con ChatGPT, que de momento parece más avanzado.
Nuestras pruebas han sido limitadas y todos estos modelos llevan apenas unos meses con nosotros, así que es de esperar que su precisión y comportamiento —especialmente el de Bard, el más reciente— mejoren de forma notable próximamente. De momento una cosa está clara: su capacidad es notable a la hora de conversar y generar texto, y también pueden ser una útil herramienta para asistirnos en nuestro trabajo o incluso para conversar sin más... sabiendo y teniendo muy encuenta, insistimos, que pueden "alucinar" y cometer errores.
En Xataka | El oscuro secreto de ChatGPT y Bard no es lo que se equivocan e inventan. Es lo que contaminan
Ver 19 comentarios
19 comentarios
antoneo
No entiendo que en una comparativa de este calibre entre Bard y ChatGPT, las dos grandes promesas en el futuro cercano, no pueda el articulista o webedia pagar una misera suscripción de un mes a chatGPT para probar de primera mano GPT-4 sin bing de por medio....
Además de que GPT puede hablar contigo perfectamente en castellano y por lo que tengo entendido bard no (que no entiendo el porqué, la verdad).
kaiser232
¿De verdad el redactor cree que al hacerlos responder como una Terminal Linux, estos modelos van a decir realmente los sistemas en los que están corriendo?
asdfgh2
Hay que hacer una consideración importante sobre toda la comparativa, y es el tamaño de los modelos.
Bard usa una versión pequeña de LaMDA (yo apostaría por unos 70/80B de parámetros, aunque en el paper bajan hasta 8B y 2B), mientras que chatGPT usa los 175B de GPT3 y Bing con GPT4 tranquilamente se podría ubicar en los 600/700B parámetros (o más, considerando que PaLM está en los 550 Billones, aunque en contra posición Microsoft y Open AI tienen una infraestructura menos eficiente que la de Google).
Y en el mismo sentido del tamaño, está el consumo: Correr GPT4 es tremendamente caro y por eso incluso pagando en chatGPT o usando Bing hay límites, porque no está optimizado, y probablemente necesitaran de hardware para hacerlo.
Considerando estas dos cosas y que Bard está en una versión beta de manual, a mí me parece bastante notable que sepa mantener el tipo delante chatGPT y bastante obvio que GPT4 haga un mejor trabajo.
PD: creo que por mucho que pongas comandos Linux no te revelaran cuál es el hardware. Vamos, dudo mucho que los servidores de Google monten un i7-12700K y su conectividad sea por Intel(R) Wi-Fi 6.
Te ha puesto lo que te han puesto porque es la respuesta esperable a decir.
Ariasdelhoyo
Ahora preguntadle por alguna poesía no muy conocida de un autor español nomuy conocido y os partís de risa. ChatGPT se la inventa con sus santos huevos, en vez de decir que no la conoce.
Me dije, bueno, se ha entrenado básicamente con información anglosajona. Le digo que me transcriba la primera página de una de las novelas más famosas de la literatura anglosajona Y SE LA INVENTA.
Como para hacer los deberes con esto.
RamonYo 😬
¿Y por qué esa IA se llama Trovador?
reyang
Creo que acá se demuestra que no siempre ser el primero garantiza ser el mejor. Recuerdo que hace años Google había afirmado que estaba trabajando al respecto pero que era muy pronto para poder darlo a conocer y que había cosas que pulir.
Considero que se esta sobredimensionando a ChatGPT y creo que aun le falta mucho y el uso que debe darse de el y otras IA, debe ser responsable y bien dirigido.
ferchodiaz
Dime que eres fan de Google sin decirlo... Bard está lejísimos de los modelos de OpenAi, no compite ni de cerca y no está en español. Les toca trabajar muchísimo...
Usuario desactivado
Jair, vuelve a leer la respuesta de Bing sobre la relatividad. Esta equivocada.
rafaello76
Qué pasó con eso de que chatGPT resultaba una amenaza dentro de la lucha entre buscadores? Ah! Que son cosas diferentes ...
nicktheeditor
Me fio más de la wikipedia.
herculesrock
Una pregunta off topic: ¿Por qué hablan en ingles? ¿Es porque no saben que se le puede hablar en español a las IA's? ¿Es porque es más cool? ¿O es porque esto es un copypaste de un articulo en inglés? 🤔