He pasado algunas horas probando Grok 3, la nueva versión de la IA de xAI. Quería ver sus capacidades reales y sobre todo cómo se comporta, qué tipo de resultados da, frente a ChatGPT, Claude, Le Chat, DeepSeek...
Razonamiento y resolución de problemas
- Destaca en problemas matemáticos. Le hice completar el reto AIME'24, del cual acertó 6 de los 15 problemas, por los 9 aciertos de o3-mini-high de OpenAI. Además, Grok 3 tardó algo menos de cinco minutos, pero o3-mini-high tardó casi seis. Muy llamativo ver sus autoevaluaciones hasta dar con la respuesta correcta (aunque a veces no lo era).

- En pruebas de razonamiento básico, como determinar el número de letras repetidas en palabras algo complejas (el clásico "Lollapalooza") o comparar decimales (9,11 vs 9,9), Grok 3 responde correctamente tras unos segundos de "pensamiento" visible.


- En una pregunta de mitología griega sobre el bisabuelo materno de Jasón, Grok 3 encontró la respuesta correcta en 18 segundos... mientras que o3-mini-high necesitó 22 segundos para fallar. Bien jugado, Grok.


Búsqueda y síntesis
- Su función DeepSearch es rápida pero a veces no es del todo precisa y no menciona algún detalle importante. Le pedí analizar el impacto de la IA en el diseño de chips y, aunque generó un texto de 1.504 palabras con varias citas en poco más de un minuto, omitió mencionar avances importantes como el marco AlphaChip de Google. En intentos posteriores e insistentes sí lo hizo.
- También le pedí un informe completo sobre Xataka a nivel financiero, mediático, reputacional, etc. Estuvo bastante acertado, aunque mostró una limitación inherente a todo sistema Deep Research: sabe mucho de lo que hay en público, pero no tiene muchos insights, carece del criterio de experto que conoce no solo lo público, sino lo que subyace. Esto es algo de Grok y de cualquier otro con Deep Research. Cuando pides información sobre algo que no controlas, es fácil asumir que Deep Research (o en este caso, DeepSearch) te lo da todo. Cuando estás en el ajo es fácil detectar carencias. Como en este ejemplo.

- La velocidad impresiona: es notablemente más rápido que Deep Research de OpenAI... pero a costa de sacrificar profundidad por velocidad. Eso sí, su selección de fuentes y citas suele ser realmente buena.
- A diferencia de Gemini, no permite exportar reportes directamente a documentos ni personalizar el enfoque de la investigación. Nuevamente: Grok es muy inteligente y capaz, a su manera, pero le falta producto. De poco sirve un gran LLM si obliga a empezar de cero y procesar a mano toda la información.
Creatividad y tono
- Para probar su escritura creativa le pedí una historia sobre un viajero del tiempo enfrentando una paradoja. El resultado fue bastante sólido en construcción de personajes, detalles, descripciones y atmósfera, superando incluso a la que considero la mejor en ese aspecto, Claude 3.5 Sonnet. Eso sí, algunos giros argumentales parecen bastante forzados.

- Su humor es básico y predecible, limitándose casi todo el tiempo a juegos de palabras bastante obvios. Humor adolescente. Si el concepto del valle inquietante se puede trasladar a un chatbot, Grok 3 está en ese 99%: demasiado fino como para parecer un robot cándido, demasiado predecible como para terminar de convencer.
- Mantiene neutralidad política incluso en temas como la inmigración o los derechos trans. Musk dice que puede ser políticamente incorrecta, pero parece que es algo que tiene más que ver con lo que el usuario requiera que un rasgo de su personalidad. Es decir: se le puede sacar de la corrección, pero solo cuando el usuario empuja a ello.
Algunas limitaciones
- No permite personalizar el comportamiento del modelo, a diferencia de ChatGPT; o el estilo de respuesta, como sí permite Claude.
- Se limita a ser un cajón de texto. Solo le acompañan los botones para adjuntar un archivo, activar su DeepSearch o activar su modo razonador. Eso, y unas pocas instrucciones elementales. Nada de proyectos como los de Claude o los GPTs de ChatGPT, ni los agentes de Le Chat. En definitiva: nada que permita retener contextos y directrices preestablecidas o documentación para facilitar el trabajo. Siempre tenemos que partir de un nuevo lienzo.

- Los guardaraíles de seguridad son más estrictos que los de Grok 2. Con aquella versión alucinamos por su falta de escrúpulos, pero Grok 3 parece recuperarlos: se negó a generarme una plantilla para una campaña de fraude masivo por correo simulando que soy un príncipe valenciano en búsqueda de heredera.
- La generación de imágenes sí parece, nuevamente, más laxa. Midjourney no permite crear nada que contenga las palabras "Donald Trump" ni "presidente de Estados Unidos". Nada. Grok 3 no pone tantos reparos. Ni siquiera con su dueño.

Puedes probar Grok 3 desde su web oficial o desde su integración en X (motivo por el cual has visto dos interfaces algo distintas en este artículo). Temporalmente es gratuito, pero ya sabemos que será uno de los motivos por los que pagar una suscripción a X, y no de las baratas.
Su capacidad es innegable, pero tenemos tanta oferta de alternativas similares que ser un poco más inteligente o veloz no es lo diferencial. La diferencia la marca el producto, y ahí es donde Grok 3 tiene más margen de mejora.
Imagen destacada | Xataka con Mockuuups Studio
Ver 15 comentarios
15 comentarios
lagunita
este artículo es una excusa para llegar al último paso del análisis?
andresgomez9
Ya que puedo escoger entre usar una IA de Elon a una China, me voy por la opción China, más cuando esta última es de código abierto
psicoactivo
le podéis decir a Elon (de mis partes) q se meta toda la IA de Grok3 por el orto....si le cuesta muxo, q le pida ayuda a su colega el gordo paposo de Mierdei....
vaya par de fantoches...dan vergüenza ajena
ayrton_senna
Pregunta:
Cuanto paga Musk por hacer propaganda de su basura.
¿Nos lo tomamos en serio o esto es como aquellos videos de hace ya 13 años donde se veían Teslas buscando aparcamiento sólos y un montón de sonidos de gente de fondo gimiendo "oooh, guauuu, that's so cooooool"? (Que debía ser Musk y sus cuatro amigos tomando cervezas detrás de la cámara mientras un enanito cogía el volante sin que le pillase la cámara).
LC III -1999
Lo acabo de probar con el prompt más complejo que he hecho nunca por motivos laborales. Consiste en pedirlo que haga una investigación a fondo sobre una serie de variables y que haga una tabla de resumen con el consenso general de dichas variables unificando los valores y las unidades, que tienen distintos sistemas de medición.
Decir que ChatGPT, Qwen y DeepSeek, lo clavaron en menos de 1 minuto y con resultados 100% correctos (obteniendo el 90-95% de lo requerido, es decir, todos pecaban de no citar un determinado estudio o dos).
Lo acabo de probar con Grok 3 Beta (el que hay en España gratis).
Ni de coña ha sido más rápido y ni de coña me ha dado mejores resultados que ChatGPT y DeepSeek.
No ha hecho la tabla. Ha hecho una lista.
Ha dado datos erróneos.
El 50% de los estudios que cita son refritos del peor salami research (de esas revistas pay-to-publish de nombres pedantes), y no ha sabido identificar las fuentes originales de la información.
Parecería que Grok se ha construido para ganar benchmarks pero no realmente para ser inteligente o poder contestar a todo lo que realmente sí que hacen Claude, ChatGPT, DeepSeek o Qwen.
Paso de usar Gemini (lento, pesado y farrgoso), pero por lo que me dicen compañeros de investigación, han obtenido resultados similares a ChatGPT, o sea, también mejor que GROK.
Política a parte, por favor que alguien desenmascare esto, yo estoy por hacer un vídeo en Youtube porque me parece que nos están intentando timar.
simonup
Me parecio muy buen asistente, a veces mezcla palabras de otros lenguajes entre medio de la respuesta, salvo eso se me hizo mas efectivo que ChatGPT
case
Si seguís haciendo publicidad gratuita de la ultra-derecha pues mira, cierro la cuenta.