Grok 4 agora é o principal modelo de IA

(twitter.com/ArtificialAnlys)

5 pontos por GN⁺ 2025-07-11 | 5 comentários | Compartilhar no WhatsApp

Grok 4, da xAI, assumiu o 1º lugar entre os modelos de IA nos principais benchmarks
No AAI Index, o Grok 4 marcou 73 pontos, à frente de OpenAI o3 (70), Google Gemini 2.5 Pro (70), Anthropic Claude 4 Opus (64) e DeepSeek R1 0528 (68)
O Grok 4 também registrou as maiores pontuações em benchmarks de programação e matemática, estabelecendo novos recordes em GPQA Diamond (88%) e Humanity’s Last Exam (24%)
O preço é o mesmo do Grok 3, com valor por token igual ao do Claude 4 Sonnet e ligeiramente mais caro que Gemini 2.5 Pro e o3
Oferece recursos principais como janela de contexto de 256k tokens, entrada de texto/imagem, chamada de função e suporte a saída estruturada

Grok 4 se torna o modelo líder da xAI

Com 73 pontos no Artificial Analysis Intelligence Index, o Grok 4 ficou em 1º lugar nos principais benchmarks
Com pontuação superior à de OpenAI o3 (70), Google Gemini 2.5 Pro (70), Anthropic Claude 4 Opus (64) e DeepSeek R1 0528 (68), este é o primeiro caso em que a xAI assume a liderança em IA
O Grok 3 anterior já era competitivo, mas o Grok 4 é o primeiro modelo da xAI a conquistar a liderança

Benchmarks e resultados de avaliação

Ficou em 1º lugar tanto no índice de programação (LiveCodeBench & SciCode) quanto no índice de matemática (AIME24 & MATH-500)
Com 88% no GPQA Diamond, superou o recorde anterior do Gemini 2.5 Pro (84%)
Com 24% no Humanity’s Last Exam, ficou acima da marca anterior do Gemini 2.5 Pro (21%)
Registrou a pontuação máxima compartilhada em MMLU-Pro 87% e AIME 2024 94%
Com velocidade de saída de 75 tokens/segundo, é mais lento que o o3 (188), Gemini 2.5 Pro (142) e Claude 4 Sonnet Thinking (85), mas mais rápido que o Claude 4 Opus Thinking (66)

Outras informações principais

Oferece janela de contexto de 256k tokens (comparativamente, Gemini 2.5 Pro: 1M, Claude 4 Sonnet/Opus: 200k, o3: 200k, R1 0528: 128k, ficando entre os melhores)
Suporte a entrada de texto e imagem
Suporte a chamada de função e saída estruturada
Política de preços: igual ao Grok 3, com $3/$15 por 1M de tokens de entrada/saída e $0.75 por 1M de tokens de entrada em cache
- Igual ao Claude 4 Sonnet, e um pouco mais caro que Gemini 2.5 Pro e o3
O Grok 4 será disponibilizado via xAI API, chatbot Grok (X/Twitter) e Microsoft Azure AI Foundry

Resumo

O Grok 4 é o primeiro modelo de IA com que a xAI chega à liderança, superando nos benchmarks e nos números todos os principais concorrentes
Com forte capacidade de raciocínio, diversos modos de entrada/saída e amplo suporte de contexto, demonstra liderança no setor
Os detalhes de implementação do modelo para X/Twitter e para API podem ser diferentes

5 comentários

slowandsnow 2025-07-11

Por enquanto, não acredito até liberarem de graça. O Grok custa até 30 dólares, então dá medo assinar...

paruaa 2025-07-11

Parece que dá para pensar nisso como o desempenho de um modelo que passou por menos alinhamento, mas provavelmente vão capar e o desempenho vai cair, eu acho

click 2025-07-11

Quando uso o gemini cli, a experiência do usuário é de outro nível graças ao contexto de 1M.
Poder colocar a base de código inteira no contexto é um divisor de águas.

koolgu 2025-07-11

Fico curioso sobre o quanto o tamanho do contexto realmente afeta o uso do modelo; ainda assim, continuar dizendo com base em benchmarks e aparências qual é o número 1 em que isso é diferente de fazer marketing viral para pessoas que não entendem do assunto?

GN⁺ 2025-07-11

Opinião do Hacker News

Não consigo imaginar quem pagaria para usar o Grok, ainda mais agora que parece ter desandado de vez; a valuation da xAI é pura ilusão
- Eu pago para usar o Grok, estou usando o Grok no lugar do Google há alguns meses; é muito útil porque tem acesso ao grafo do X e também traz muita informação atualizada; queria que também pudesse ser usado no Cline ou no Cursor
- Fico me perguntando se você sabe que quem causou o problema não foi o modelo Grok, e sim o bot @grok no X; a versão de API do Grok não começa do nada a imitar Hitler sem sentido (a menos que você peça isso diretamente)
No ARC-AGI2 ele registrou desempenho 4x melhor que o o3 e 2x melhor que o opus 4… outros benchmarks independentes também estão mostrando resultados fortes; esse ciclo curto em que cada modelo diz ser o "melhor do mundo" por um mês continua girando; com esses preços, isso é bom para o consumidor, e os datasets de treinamento dos modelos abertos também estão ficando mais diversos, então todo mundo sai ganhando; é triste ver gente inventando desculpas cansativas por causa de brigas emocionais sobre figuras famosas; muita gente precisa de um detox de mídia; antes chamavam os LLMs de "papagaios estocásticos", mas olhando esta thread e o Reddit agora, parece que são as pessoas que ficam repetindo como papagaios coisas burras e odiosas; precisamos melhorar
Fico pensando se vou continuar recebendo respostas sobre Hitler no meu código no futuro; edição: me sinto idiota por não ter percebido que isso era mais um movimento de marketing "genial"