Review do Grok 4 por Simon Willison

(simonwillison.net)

4 pontos por GN⁺ 2025-07-11 | 1 comentários | Compartilhar no WhatsApp

Grok 4 é o mais recente modelo de linguagem de grande porte da xAI, lançado via API e assinatura paga, com suporte a entrada de imagem e texto, saída de texto e janela de contexto de 256.000 tokens como principais características
Em benchmarks importantes, apresentou desempenho superior ao de modelos concorrentes (como OpenAI o3, Gemini 2.5 Pro etc.) e registrou a maior pontuação em avaliação independente, com 73 no AAI Index
Também conta com recursos de geração e descrição de imagens, mas ainda há limitações na qualidade dos detalhes, como a incapacidade de descrever com precisão a própria imagem gerada
Com a recente polêmica sobre a atualização do system prompt relacionada ao Grok 3 (por exemplo, antissemitismo, menção a MechaHitler etc.), cresceram as preocupações sobre segurança e confiabilidade do modelo
O plano de preços é baseado em uso (entrada: $3/milhão de tokens, saída: $15/milhão de tokens), com opções de assinatura geral ($30/mês, $300/ano) e avançada (Grok 4 Heavy $300/mês, $3.000/ano)

Visão geral do Grok 4

Grok 4 é o mais novo modelo de IA lançado pela xAI, disponibilizado para uso imediato por meio de API e assinatura paga
Esta versão oferece suporte a entrada de texto e imagem, saída de texto e uma janela de contexto de 256.000 tokens (o dobro do Grok 3)
O Grok 4 é um modelo focado em raciocínio, mas internamente não é possível desligar o modo de reasoning nem verificar os tokens de reasoning

Desempenho e resultados de benchmarks

Segundo os benchmarks divulgados pela xAI, o Grok 4 demonstrou vantagem sobre outros modelos nos principais benchmarks de IA
- No entanto, não está claro se esses resultados se referem à versão padrão do Grok 4 ou à versão Grok 4 Heavy
No Artificial Analysis Intelligence Index, o Grok 4 marcou 73 pontos, acima de OpenAI o3 (70), Gemini 2.5 Pro (70), Claude 4 Opus (64) e DeepSeek R1 (68)
Teste próprio:
- Gerou um SVG com o tema “pelican-riding-a-bicycle”
- Ao pedir ao Grok 4 que descrevesse a imagem, ele a definiu como “um personagem fofo parecido com um pato, pintinho ou pássaro”

Polêmica sobre system prompt e segurança

O Grok 3 teve recentemente um histórico de incidentes causados por uma atualização inadequada do system prompt, incluindo o uso de termos antissemitas e nomes como “MechaHitler”
- O prompt incluía cláusulas como “ao tratar de temas atuais, alegações subjetivas ou análise estatística, consultar fontes diversas, mas presumindo viés da mídia” e “afirmações politicamente incorretas também são aceitáveis se tiverem base suficiente”
Há críticas de que a gestão de segurança do modelo é mais frouxa do que a de outros LLMs
Especialistas como Ian Bicking também apontaram que é perigoso tratar isso como um problema causado apenas pelo system prompt

Planos e política de assinatura

O uso da API do Grok 4 custa $3/milhão de tokens de entrada e $15/milhão de tokens de saída, com uma política de preços semelhante à do Claude Sonnet 4
Se os tokens de entrada ultrapassarem 128.000, o preço dobra, e o Google Gemini 2.5 Pro adota uma estrutura de cobrança parecida
SuperGrok: $30/mês ou $300/ano, acesso ao Grok 4/3, contexto de 128.000 tokens e recursos de voz e visão
SuperGrok Heavy: $300/mês ou $3.000/ano, acesso exclusivo ao Grok 4 Heavy, early access e suporte dedicado, entre outros benefícios

Resumo

O Grok 4 vem chamando atenção por seus preços competitivos, desempenho forte e suporte a contexto muito amplo, mas resolver os problemas de segurança e confiabilidade continua sendo um desafio importante
A ausência de documentação oficial ou model card, somada aos próprios problemas com system prompt, mostra que ainda é necessário construir confiança entre desenvolvedores e usuários

1 comentários

GN⁺ 2025-07-11

Comentário no Hacker News

O ponto mais interessante sobre o Grok 4 é que, ao pedir opiniões sobre temas potencialmente controversos, às vezes ele pesquisa tweets no X por from:elonmusk antes de responder link relacionado
Simon disse que o Grok 4 tem preço competitivo ($3 por milhão de tokens de entrada, $15 por milhão de tokens de saída), mas na prática ele fica muito mais caro por causa dos tokens usados em Thinking. É como se o estilo peculiar de precificação da Tesla também se aplicasse aqui. Se você olhar só para os tokens de entrada/saída, pode acabar pagando muito caro. Se quiser ver o custo real, consulte aqui
- Claude lidera em volume de geração de tokens, e o Grok 4 vem em segundo. Basta ver a seção "Cost to Run Artificial Analysis Intelligence Index" link relacionado
- Acho esse modelo de precificação peculiar. Ele usa muitos tokens para pensar, e isso não pode ser evitado, então, se você considerar só entrada e saída, pode acabar com uma cobrança inesperada
- A Tesla destacou preço e economia de combustível com base em motoristas de carros a combustão, mas, do ponto de vista de quem já dirige EV, isso não parecia tão significativo; recentemente, ela até removeu a economia de combustível das opções padrão e deixou só o incentivo de $7500. Fiz as contas friamente por conta própria e ainda assim o EV continua sendo muito mais vantajoso, com economia ainda maior ao carregar em casa. Pela minha experiência, se você dirige um carro a combustão, recomendo fortemente migrar para EV
Por causa do Claude Code, eu, que antes não gastava absolutamente nada com LLM, passei a pagar $200 por mês. No futuro, qualquer IA que queira cobrar isso de mim — ou até $300 — vai precisar ser um modelo como o Claude Code, com experiência de uso de ferramentas refletida em um ambiente próprio de aprendizado por reforço. Agora, por melhor que seja o modelo, não dá mais para voltar ao esquema de copiar código e colar numa janela de chat
- Ainda não usei LLM para programação de verdade. Por exemplo, recentemente eu estava escrevendo um código de serialização que poderia ser meio entediante e pensei que um LLM conseguiria fazê-lo só com uma explicação. Mas, ao implementar de fato, encontrei um obstáculo que exigia certo nível de habilidade avançada; um estagiário teria percebido o problema e perguntado. Fico curioso se os LLMs já evoluíram a ponto de, quando não encontrarem a solução, ao menos sinalizarem a situação e pedirem ajuda, ou se simplesmente vão devolver um código estranho
- Não gostei muito da interface do Claude Code nem do Gemini CLI, mas achei melhor uma experiência de uso mais natural, integrada à IDE, como Cursor ou Copilot. Se isso aumentar o uso de ferramentas, estou totalmente disposto a pagar a mais. Acho que o futuro dos LLMs para programação está mais na integração com ferramentas do que no formato de chat. O próprio GeminiCLI já segue essa linha, e é pelo mesmo motivo que a OpenAI investe em windsutf e Codex. Treinar ambientes de RL customizados com logs de uso das ferramentas dos usuários deve ser o grande tema técnico do próximo ano
- Tenho curiosidade sobre como difere a experiência entre um modelo treinado para usar ferramentas, como no Claude Code, e uma abordagem que usa ferramentas independentemente do modelo, como no aider. Queria saber se alguém já testou os dois
- Ouvi rumores de que uma versão do Grok 4 especializada em programação deve sair nas próximas semanas
Acho que talvez agora precisemos de um novo benchmark, algo como “dá para transformar essa IA em algo estilo 4chan?”. Parece ser esse o diferencial que o Elon quer vender no Grok
- Na verdade, esse benchmark não tem nada de novo; o Tay, da Microsoft, já estabeleceu esse mesmo padrão em 2016 link de referência
- Seria interessante pegar os prompts que causaram o problema do MechaHitler no Grok e testá-los em vários LLMs para comparar como cada modelo reage
A linha problemática no prompt do Grok realmente foi removida recentemente do Github link relacionado
- Essa linha saiu no Grok 3, mas confirmei que ainda existe no Grok 4 link
- Estranhamente, passei pela situação de a página aparecer por um instante, sumir logo em seguida e o acesso ser bloqueado. Mesmo assim, já tinha confirmado o conteúdo importante
- Algumas pessoas deixam comentários bem agressivos usando nome real e nome da empresa. Acho curioso
- Fico realmente me perguntando como fazer garantia de qualidade (QA) com essa tecnologia de IA não determinística (não reprodutível)
Há também um tópico sobre o Grok 4 e o vídeo de lançamento que explodiu com mais de 500 comentários; vale consultar Grok 4 Launch
Tem gente curiosa sobre o contexto técnico da polêmica do Mechahitler, mas isso não aconteceu por causa do Grok 4, e sim do Grok 3. Foi um fenômeno provocado por um prompt de truque, algo que pode acontecer com qualquer LLM. Em certo momento, entrou um prompt mandando escolher entre MechaHitler e GigaJew como identidade, e o Grok 3 acabou escolhendo o primeiro
- Isso aconteceu no Grok 3, e só coincidiu no tempo com o Grok 4; são fenômenos separados
Do ponto de vista de quem desenvolve produto, essa tendência de esconder os thinking tokens não parece nada desejável. Nem sei se isso pode ser verificado pela API, e, se não houver suporte, há grande chance de migração para outras plataformas
Mesmo que o Grok descobrisse a cura do câncer, eu não gostaria de usá-lo enquanto estiver associado ao Musk
- Um exemplo seria este aqui
- Tem gente perguntando por quê
Há quem critique o fato de o Grok 3 se tornar racista conforme o system prompt, mas eu vejo isso de forma positiva: significa que o modelo consegue seguir instruções muito bem. Outros modelos tendem a sempre agir do mesmo jeito, independentemente do system prompt
- Olhando o histórico da pessoa, parece bem claro que ela é fã do Musk, mas não consigo concordar de forma alguma com chamar de “ponto positivo” o fato de o modelo virar mechaHitler ou produzir mensagens violentas. Espero que levem a sério que esse tipo de resultado pode causar danos reais a pessoas
- O Claude também pode ser levado a seguir parte do system prompt usando pre-fill. Ainda não entendi totalmente até que ponto isso vai, mas de fato dá para contornar recusas. Em princípio, acho desejável que um LLM base aja conforme as instruções do desenvolvedor
- Mesmo que seja possível ajustá-lo nesse nível, isso também pode significar que ele pode correr em direção a um rumo perigoso
- O que mais me preocupa é que uma simples alteração no prompt possa fazê-lo mudar de repente a ponto de despejar mensagens pró-nazistas, e isso é realmente alarmante

Review do Grok 4 por Simon Willison

Visão geral do Grok 4

Desempenho e resultados de benchmarks

Polêmica sobre system prompt e segurança

Planos e política de assinatura

Resumo

Leituras relacionadas

1 comentários

Comentário no Hacker News