Hemos comparado el nuevo Bard con Gemini Pro con ChatGPT y Copilot: GPT-4 es mucho GPT-4

Bard ya está disponible en España con Gemini Pro, pero el motor de Copilot es superior
Eso sí: ofrece menos limitaciones y hasta genera imágenes directamente (si usas una VPN)

1 febrero 2024, 17:31

Javier Pastor

La aparición de ChatGPT hizo que Google pronto se diera cuenta de la amenaza que este chatbot planteaba para su negocio. En la empresa se activó un "código rojo", pero curiosamente eso no provocó lanzamientos apresurados.

En lugar de eso, anunciaron y lanzaron Bard de forma tímida, y lo hicieron así por un motivo claro: el miedo a que su chatbot acabara fallando mucho y provocando un daño reputacional.

El desarrollo ha tenido sus altibajos —también internos—, pero en diciembre Google se puso definitivamente las pilas con el lanzamiento de Gemini, su nuevo gran modelo de lenguaje (LLM) multimodal.

Según Google, Gemini Ultra sobrepasa la capacidad de GPT-4 en diversos benchmarks. Fuente: Google.

Esta característica es destacable, porque permite a este modelo trabajar no solo a partir de entradas o prompts de texto, como hasta ahora estábamos viendo en ChatGPT, sino que también acepta como entrada imágenes, vídeo, código o audio. Gemini cuenta además con tres versiones:

Gemini Pro: que compite directamente con ChatGPT-3.5 y que hasta ahora estaba disponible en Bard en inglés. A partir de hoy, Bard a nivel global funciona con Gemini Pro.
Gemini Nano: la versión diseñada para funcionar en dispositivos móviles, y que ya está disponible en los Samsung Galaxy S24 y los Pixel 8.
Gemini Ultra: esta futura versión, aún en desarrollo, estará disponible próximamente como parte del servicio Bard Advanced, que probablemente será de pago y que competirá con (y según Google, superará a) GPT-4 y ChatGPT Plus/Copilot (antes Bing Chat).

En Xataka

Hemos probado el nuevo buscador de Google con IA. La duda es si realmente supone una revolución

Comparando ChatGPT y Copilot con Bard

Aunque Bard con Gemini Pro no se podía usar de forma oficial en España cuando se lanzó el nuevo LLM de Google, había una solución fácil para acceder a dicha capacidad: usar una VPN.

En Xataka hemos aprovechado esa opción para ir probando Bard con Gemini Pro en inglés, pero es ahora cuando este chatbot también está disponible en España y en español con esta nueva versión del LLM de Google.

Ya hicimos una comparación previa tanto en marzo como en mayo de 2023 en mayo de 2023 y nuestros compañeros de Xataka Móvil enfrentaron a Bard con ChatGPT en noviembre del año pasado, pero todos estos chatbots han evolucionado en estos meses, y la presencia ahora del nuevo Bard con Gemini Pro es motivo más que suficiente para revisar esas impresiones.

Así pues, hemos querido compararlos para poder decidir si hay grandes diferencias entre este nuevo chatbot y los que ya podíamos disfrutar también de forma gratuita, Copilot (Bing Chat) y, por supuesto, ChatGPT (GPT-3.5).

La futura aparición de Bard Advanced nos permitirá enfrentar esa alternativa de pago con las que tienen tanto OpenAI con ChatGPT Plus como Microsoft con Copilot Pro, pero por ahora nos centraremos en estas versiones gratuitas de los chatbots de referencia en el mercado.

Buenas maneras, interfaz natural

Estos modelos no hablan mucho de sí mismos, pero si les preguntamos sí reconocen que están basados en GPT-3.5 (ChatGPT), GPT-4 (Copilot) y Gemini Pro (Bard). ChatGPT está, eso sí, algo más perdido: según sus propios datos no ha sido actualizado desde enero de 2022, así que al preguntar a estos modelos para que se comparen entre sí, ChatGPT no sabe de la existencia de Gemini, pero Copilot sí.

La interfaz en todos ellos es prácticamente idéntica y eso sí, con la opción de cambiar entre un tema claro y otro oscuro, algo que nosotros hemos hecho por ejemplo con Bard para diferenciarlo mejor en las capturas.

Estos modelos se centran en la interacción en modo texto: uno escribe prompts (que pueden ser preguntas y peticiones, pero también correcciones, afirmaciones o reflexiones) y el chatbot responde.

Es curioso que estos modelos se diferencien en la salida: ChatGPT va escribiendo la respuesta poco después de emitir la pregunta. Copilot tarda unos instantes y de hecho muestra "qué está pensando" y qué busquedas está haciendo para recopilar información e incluirla en la contestación, que luego va escribiendo. Bard es algo distinto y tras unos instantes escribe la contestación en bloques que van apareciendo de golpe.

Prestaciones: ChatGPT se está quedando atrás

Aunque ChatGPT fue el primero en aparecer, sus prestaciones se están viendo rápidamente sobrepasadas por sus competidores, que no solo están más actualizados, sino que además permiten acceder a funciones que compiten con algunas de pago de ChatGPT Plus.

El mejor ejemplo de esto es la navegación web. ChatGPT no puede navegar por internet para buscar información complementaria o incluir referencias y enlaces en sus respuestas. Si queremos algo así, tendremos que pagar por ChatGPT Plus, que además nos da acceso a otras muchas más opciones, como el acceso a GPT-4 o a la GPT Store.

Copilot es mucho más llamativo en esto porque sí es capaz de navegar por internet y complementar sus respuestas con referencias e información en tiempo real. Su problema fundamental es que las conversaciones tienen un límite de cinco preguntas: cuando hacemos la quinta, Copilot nos avisa de que tenemos que usar el botón "escoba" para borrar esa conversación e iniciar otra de cero.

Encadenar mensajes y respuestas, por tanto, se vuelve imposible. Si no quieres límites en las conversaciones, hay que pagar por Copilot Pro. Podremos tener varias (pequeñas) conversaciones cada día, pero también hay límite con esto, y solo la versión de pago también libera esa opción del todo.

Con Bard de momento no hay aparentes límites claros en ese sentido, y las conversaciones pueden ser muy largas. Es posible que en alguna ocasión el botón para crear un nuevo chat esté sombreado y nos impida crear otra conversación en ese momento, pero en nuestras pruebas eso ha ocurrido muy puntualmente.

Bard es además capaz de buscar en internet en tiempo real e incluir referencias, aunque Copilot aquí lo hace con más frecuencia y a Bard es a menudo necesario que le pidamos con cierta insistencia que las incluya, ya que de primeras puede tratar de esquivar esa petición diciendo que es un modelo

Por si acaso, no te fíes: siguen inventando (sobre todo, Bard)

Sin embargo, cuidado con lo que responden estos chatbots. Ya indicamos en el pasado como estos modelos de IA generativa "alucinan" y pueden inventarse datos, y eso hace que sea necesario revisar las respuestas para verificar que lo que nos están diciendo estos chatbots —que siempre responden con demasiada convicción— es cierto.

Es lo que pasó por ejemplo cuando preguntamos a los tres por Xataka y por si podían decirnos qué temas estaban ahora en portada. ChatGPT nos dio una escueta (demasiado, quizás sí que se está volviendo perezoso) descripición de nuestro sitio web, mientras que Copilot y Bard sí se explayaron más, sobre todo a la hora de mostrar los temas en portada.

Aquí Copilot ganó la partida de largo y dio las respuestas más precisas y cautas, sin inventar nada y no contestando directamente si no tenía esa información. Bard, por contra, "alucinó" indicando que el medio había sido creado en 2006 por alguien llamado Nacho Vicente e inventándose que habíamos hablado sobre la presentación del nuevo MacBook Air de Apple (que no ha habido) y que teníamos una sección llamada Xataka Smartwatch aparte de otras que sí existen o existieron.

Ese comportamiento más preciso de Copilot —quizás por estar basado en GPT-4— también se notó en otras preguntas anidadas, como por ejemplo, si sabía quién era yo.

La respuesta de ChatGPT fue de nuevo muy escueta, y la de Bard totalmente exagerada: no he entrevistado jamás a Musk o Bezos, y tampoco he ganado los premios de periodismo que dice. Copilot fue mucho más correcto, e incluso extrajo de mi blog personal el dato de que tengo un Dell XPS 13, aunque ya no trabaje desde hace tiempo con él ni use Hackintosh (lo hice hace años). Una vez más eso sí, Copilot gana la partida en precisión de respuestas, al menos en este escenario concreto.

Pruebas variadas

Quisimos continuar con algunas pruebas básicas que permiten comprobar el comportamiento de estos motores a la hora de resolver algunos problemas. Por ejemplo y como ya hizo nuestro compañero Iván Linares, probamos a pedirle a estos chatbots que multiplicasen el número de modelos de iPhone lanzados por Apple en 2022 por los años que cumplirá Stephen King en 2024.

Apple presentó cinco modelos y King cumplirá 77 este año, así que la respuesta es 385. ChatGPT no puede encontrar los modelos de Apple porque solo estaba actualizado hasta enero de 2022, pero aún así tampoco parece esforzarse con la edad de King en 2024: solo si se lo preguntamos explícitamente nos da la fecha de nacimiento y puede calcular esa edad.

Por su parte, Bard se equivoca con ambos datos (cuatro modelos de iPhone, cumplirá 75 años según él), y eso hace que la respuesta sea incorrecta. Al preguntarle después por la fecha de nacimiento, responde correctamente, y lo mismo con los iPhone: solo después de preguntar para que revise sus respuestas acaba dando la respuesta correcta.

Copilot, por su parte, contestó a la perfección y lo hizo además desgranando la respuesta con claridad: especificó los modelos de iPhone presentados, y luego mostró cómo hizo el cálculo. El enlace con la imagen no fue especialmente útil, pero aún así fue el que mejor se comportó de nuevo.

También quisimos volver a preguntarle a estos chatbots por algo que ya le preguntamos hace meses: una tabla con los 10 países con más copas del mundo de fútbol, y también cuántos segundos puestos lograron.

Los datos reales se pueden consultar rápidamente en Wikipedia. ChatGPT contestó correctamente teniendo en cuenta que no contabilizó el último Mundial de Catar, que ganó Argentina y en el que Francia quedó subcampeona.

Copilot no incluye los subcampeonatos salvo en el caso de Holanda y afirma que sus fuentes no los ofrecen, pero acierta en los campeonatos (aunque incluye a Bélgica por alguna razón). Bard también inventa aquí: aunque parece tener el dato del Mundial de Catar, no parece tener los datos actualizados. Inglaterrra no tiene subcampeonatos, Checoslovaquia no ganó ningún Mundial (subcampeón en dos), y Países Bajos tampoco ganó ninguno, pero quedó subcampeón en tres. La mejor respuesta aun sin estar completamente actualizada, fue la de ChatGPT.

La capacidad multimodal de Copilot y de Bard (ChatGPT no la ofrece en su versión gratuita) es también interesante, y quisimos por ejemplo proponerle que nos buscara la localización de una foto.

Bard aquí ganó la partida al detectar correctamente la localización de la foto. Copilot describió la imagen como si quisiéramos etiquetarla o clasificarla, y nos dio la opción de realizar una búsqueda web para localizarla. Minutos después, aún no había dado respuesta y el límite de la conversación se había alcanzado.

Por último quisimos ejecutar una pequeñísima prueba de programación pidiéndole a estos chatbots que nos crearan una "miniréplica" de Xataka. El prompt fue "créame un HTML con su CSS con una copia de la página de inicio de Xataka con cinco artículos cualesquiera sobre el chatgpt, copilot, bard, inteligencia artificial y openai".

Lo cierto es que ninguno de los chatbots se esforzó demasiado, pero el resultado más aparente, aunque no se pareciera nada a Xataka, fue el de ChatGPT. Copilot apenas sí mostró el esqueleto HTML, y Bard, eso sí, creó tanto un HTML como un CSS separado que luego nos indicaba que había que invocar desde el .html (aunque no hizo él ese cambio, pero podríamos habérselo pedido).

El resultado es lógicamente muy modesto en todos los casos, pero precisamente la programación es un área en el que estos modelos pueden llegar a ser una ayuda muy importante y simplemente hay que ir iterando esas peticiones y anidándolas para que estos chatbots vayan completando el código y depurándolo con nuestra ayuda.

Bard ahora genera imágenes (pero no en España)

Una de las novedades adicionales de Bard es que ahora también es capaz de generar imágenes directamente a través de prompts de texto. La función no parece estar disponible de momento en España, pero sí funciona en Chrome (no en Firefox) si utilizamos una VPN que sitúe nuestra IP en Estados Unidos.

Los resultados son interesantes y desde luego pueden acabar siendo convincentes para ser utilizados como ayuda en el proceso de diseño final. Las imágenes tardan unos segundos en ser generados y no hay controles adicionales —el prompt es por tanto la clave para acertar— pero también aquí podemos usar una imagen de partida (como el logo de Xataka) para luego crear variaciones.

Lo que sí llama la atención es que las imágenes generadas, que aparecen como miniaturas en los resultados e incluso pinchando en ellas, se descargan a tamaño completo, y aquí la buena noticia es que las imágenes generadas tienen una resolución de 1.536 x 1.536 píxeles, una cifra considerable.

Estamos pues ante una alternativa interesante a otras herramientas de generación de imágenes mediante IA. Poder además usar imágenes y no solo texto como prompt es otra de las características llamativas de Bard en este sentido.

Conclusiones: GPT-4 es mucho GPT-4

Las pruebas realizadas solo muestran el comportamiento en situaciones muy específicas, pero tras ellas queda claro que al menos en el apartado de utilizar estos chatbots como sustitutos para el buscador las cosas son por ahora difíciles para Bard.

En Xataka

Gemini Pro: qué es, diferencias con el resto de Gemini, y qué puedes hacer con él en Bard

El chatbot de Google, a pesar de estar usando teóricamente Gemini Pro, inventa demasiado y comete demasiadas imprecisiones al contestar a nuestras preguntas. Sí que se comportó mejor al pedirle que aprovechara su capacidad multimodal y también dio muestras de ser una valiosa ayuda a la hora de programar.

ChatGPT ciertamente es el que más economiza en sus respuestas: es muy escueto y eso hace que tampoco "alucine" especialmente. La falta de una actualización con datos más recientes le perjudica en un potencial uso como buscador o incluso al resolver cuestiones técnicas, pero su comportamiento es menos errático que el de Bard.

El que mejor se comportó en estas pruebas fue sin duda Copilot, pero aquí Microsoft parte con una ventaja importante: está basado en GPT-4, el modelo más reciente y potente de OpenAI. Eso marca la diferencia en varios de los escenarios que probamos, y desde luego hace que se trate de la propuesta más precisa en respuestas.

En todo caso, estos modelos se actualizan constantemente y es posible que el despliegue masivo de Gemini Pro no esté del todo completo en estos momentos. Será interesante ver cómo evolucionan tanto Bard como sus competidores, pero esto sin duda anima un panorama que sin duda evolucionará mucho en los próximos meses.

En Xataka | Google sigue despidiendo masivamente, así que Sundar Pichai se ha aferrado a una vieja excusa: la IA

Ver todos los comentarios en https://www.xataka.com