He probado Grok 3 y es realmente inteligente y rápido. El problema es que eso ya no es suficiente

Grok 3 destaca en velocidad y capacidad matemática, pero carece del ecosistema de producto que tienen sus competidores como ChatGPT, Claude o incluso Le Chat

15 comentarios Facebook Twitter E-mail

21 Febrero 2025 Actualizado 21 Febrero 2025, 14:25

Javier Lacort

He pasado algunas horas probando Grok 3, la nueva versión de la IA de xAI. Quería ver sus capacidades reales y sobre todo cómo se comporta, qué tipo de resultados da, frente a ChatGPT, Claude, Le Chat, DeepSeek...

Razonamiento y resolución de problemas

Destaca en problemas matemáticos. Le hice completar el reto AIME'24, del cual acertó 6 de los 15 problemas, por los 9 aciertos de o3-mini-high de OpenAI. Además, Grok 3 tardó algo menos de cinco minutos, pero o3-mini-high tardó casi seis. Muy llamativo ver sus autoevaluaciones hasta dar con la respuesta correcta (aunque a veces no lo era).

Un fragmento de los pasos que dio Grok 3 para evaluar sus propias conclusiones antes de presentarlas como resultado final. Imagen: Xataka con Grok 3.

En pruebas de razonamiento básico, como determinar el número de letras repetidas en palabras algo complejas (el clásico "Lollapalooza") o comparar decimales (9,11 vs 9,9), Grok 3 responde correctamente tras unos segundos de "pensamiento" visible.

o3-mini-high acierta tras 6 segundos. Imagen: Xataka con ChatGPT.

Grok 3 también acertó, pero tras más de cuatro veces más tiempo. Imagen: Xataka con Grok 3.

En una pregunta de mitología griega sobre el bisabuelo materno de Jasón, Grok 3 encontró la respuesta correcta en 18 segundos... mientras que o3-mini-high necesitó 22 segundos para fallar. Bien jugado, Grok.

o3-mini-high erró. Imagen: Xataka con ChatGPT.

Grok 3 en cambio dio una respuesta mejor construida, además de correcta. Y tardando menos. Imagen: Xataka con Grok 3.

En Xataka

He probado DeepSeek en la web y en mi Mac. ChatGPT, Claude y Gemini tienen un problemón

Búsqueda y síntesis

Su función DeepSearch es rápida pero a veces no es del todo precisa y no menciona algún detalle importante. Le pedí analizar el impacto de la IA en el diseño de chips y, aunque generó un texto de 1.504 palabras con varias citas en poco más de un minuto, omitió mencionar avances importantes como el marco AlphaChip de Google. En intentos posteriores e insistentes sí lo hizo.
También le pedí un informe completo sobre Xataka a nivel financiero, mediático, reputacional, etc. Estuvo bastante acertado, aunque mostró una limitación inherente a todo sistema Deep Research: sabe mucho de lo que hay en público, pero no tiene muchos insights, carece del criterio de experto que conoce no solo lo público, sino lo que subyace. Esto es algo de Grok y de cualquier otro con Deep Research. Cuando pides información sobre algo que no controlas, es fácil asumir que Deep Research (o en este caso, DeepSearch) te lo da todo. Cuando estás en el ajo es fácil detectar carencias. Como en este ejemplo.

Imagen: Xataka con Grok 3.

La velocidad impresiona: es notablemente más rápido que Deep Research de OpenAI... pero a costa de sacrificar profundidad por velocidad. Eso sí, su selección de fuentes y citas suele ser realmente buena.
A diferencia de Gemini, no permite exportar reportes directamente a documentos ni personalizar el enfoque de la investigación. Nuevamente: Grok es muy inteligente y capaz, a su manera, pero le falta producto. De poco sirve un gran LLM si obliga a empezar de cero y procesar a mano toda la información.

Creatividad y tono

Para probar su escritura creativa le pedí una historia sobre un viajero del tiempo enfrentando una paradoja. El resultado fue bastante sólido en construcción de personajes, detalles, descripciones y atmósfera, superando incluso a la que considero la mejor en ese aspecto, Claude 3.5 Sonnet. Eso sí, algunos giros argumentales parecen bastante forzados.

Imagen: Xataka con Grok 3.

Su humor es básico y predecible, limitándose casi todo el tiempo a juegos de palabras bastante obvios. Humor adolescente. Si el concepto del valle inquietante se puede trasladar a un chatbot, Grok 3 está en ese 99%: demasiado fino como para parecer un robot cándido, demasiado predecible como para terminar de convencer.
Mantiene neutralidad política incluso en temas como la inmigración o los derechos trans. Musk dice que puede ser políticamente incorrecta, pero parece que es algo que tiene más que ver con lo que el usuario requiera que un rasgo de su personalidad. Es decir: se le puede sacar de la corrección, pero solo cuando el usuario empuja a ello.

Algunas limitaciones

No permite personalizar el comportamiento del modelo, a diferencia de ChatGPT; o el estilo de respuesta, como sí permite Claude.
Se limita a ser un cajón de texto. Solo le acompañan los botones para adjuntar un archivo, activar su DeepSearch o activar su modo razonador. Eso, y unas pocas instrucciones elementales. Nada de proyectos como los de Claude o los GPTs de ChatGPT, ni los agentes de Le Chat. En definitiva: nada que permita retener contextos y directrices preestablecidas o documentación para facilitar el trabajo. Siempre tenemos que partir de un nuevo lienzo.

La interfaz es buena, intuitiva, simple... pero se echan de menos herramientas que la hagan más versátil y apetecible para integrarla en nuestro día a día. Es potente y capaz para usos puntuales, pero el producto construido en torno a ChatGPT, Claude o Le Chat (proyectos, agentes, instrucciones previas, etc) hacen de esas alternativas algo bastante más interesante para el uso serio y recurrente.Imagen: Xataka con Grok 3.

Los guardaraíles de seguridad son más estrictos que los de Grok 2. Con aquella versión alucinamos por su falta de escrúpulos, pero Grok 3 parece recuperarlos: se negó a generarme una plantilla para una campaña de fraude masivo por correo simulando que soy un príncipe valenciano en búsqueda de heredera.
La generación de imágenes sí parece, nuevamente, más laxa. Midjourney no permite crear nada que contenga las palabras "Donald Trump" ni "presidente de Estados Unidos". Nada. Grok 3 no pone tantos reparos. Ni siquiera con su dueño.

Imagen: Xataka con Grok 3.

Puedes probar Grok 3 desde su web oficial o desde su integración en X (motivo por el cual has visto dos interfaces algo distintas en este artículo). Temporalmente es gratuito, pero ya sabemos que será uno de los motivos por los que pagar una suscripción a X, y no de las baratas.

Su capacidad es innegable, pero tenemos tanta oferta de alternativas similares que ser un poco más inteligente o veloz no es lo diferencial. La diferencia la marca el producto, y ahí es donde Grok 3 tiene más margen de mejora.

Imagen destacada | Xataka con Mockuuups Studio

En Xataka | Deep Research no es solo una nueva función de IA. Es el principio del fin del trabajo intelectual tal y como lo conocemos