5 pontos por GN⁺ 2025-07-11 | 5 comentários | Compartilhar no WhatsApp
  • Grok 4, da xAI, assumiu o 1º lugar entre os modelos de IA nos principais benchmarks
  • No AAI Index, o Grok 4 marcou 73 pontos, à frente de OpenAI o3 (70), Google Gemini 2.5 Pro (70), Anthropic Claude 4 Opus (64) e DeepSeek R1 0528 (68)
  • O Grok 4 também registrou as maiores pontuações em benchmarks de programação e matemática, estabelecendo novos recordes em GPQA Diamond (88%) e Humanity’s Last Exam (24%)
  • O preço é o mesmo do Grok 3, com valor por token igual ao do Claude 4 Sonnet e ligeiramente mais caro que Gemini 2.5 Pro e o3
  • Oferece recursos principais como janela de contexto de 256k tokens, entrada de texto/imagem, chamada de função e suporte a saída estruturada

Grok 4 se torna o modelo líder da xAI

  • Com 73 pontos no Artificial Analysis Intelligence Index, o Grok 4 ficou em 1º lugar nos principais benchmarks
  • Com pontuação superior à de OpenAI o3 (70), Google Gemini 2.5 Pro (70), Anthropic Claude 4 Opus (64) e DeepSeek R1 0528 (68), este é o primeiro caso em que a xAI assume a liderança em IA
  • O Grok 3 anterior já era competitivo, mas o Grok 4 é o primeiro modelo da xAI a conquistar a liderança

Benchmarks e resultados de avaliação

  • Ficou em 1º lugar tanto no índice de programação (LiveCodeBench & SciCode) quanto no índice de matemática (AIME24 & MATH-500)
  • Com 88% no GPQA Diamond, superou o recorde anterior do Gemini 2.5 Pro (84%)
  • Com 24% no Humanity’s Last Exam, ficou acima da marca anterior do Gemini 2.5 Pro (21%)
  • Registrou a pontuação máxima compartilhada em MMLU-Pro 87% e AIME 2024 94%
  • Com velocidade de saída de 75 tokens/segundo, é mais lento que o o3 (188), Gemini 2.5 Pro (142) e Claude 4 Sonnet Thinking (85), mas mais rápido que o Claude 4 Opus Thinking (66)

Outras informações principais

  • Oferece janela de contexto de 256k tokens (comparativamente, Gemini 2.5 Pro: 1M, Claude 4 Sonnet/Opus: 200k, o3: 200k, R1 0528: 128k, ficando entre os melhores)
  • Suporte a entrada de texto e imagem
  • Suporte a chamada de função e saída estruturada
  • Política de preços: igual ao Grok 3, com $3/$15 por 1M de tokens de entrada/saída e $0.75 por 1M de tokens de entrada em cache
    • Igual ao Claude 4 Sonnet, e um pouco mais caro que Gemini 2.5 Pro e o3
  • O Grok 4 será disponibilizado via xAI API, chatbot Grok (X/Twitter) e Microsoft Azure AI Foundry

Resumo

  • O Grok 4 é o primeiro modelo de IA com que a xAI chega à liderança, superando nos benchmarks e nos números todos os principais concorrentes
  • Com forte capacidade de raciocínio, diversos modos de entrada/saída e amplo suporte de contexto, demonstra liderança no setor
  • Os detalhes de implementação do modelo para X/Twitter e para API podem ser diferentes

5 comentários

 
slowandsnow 2025-07-11

Por enquanto, não acredito até liberarem de graça. O Grok custa até 30 dólares, então dá medo assinar...

 
paruaa 2025-07-11

Parece que dá para pensar nisso como o desempenho de um modelo que passou por menos alinhamento, mas provavelmente vão capar e o desempenho vai cair, eu acho

 
click 2025-07-11

Quando uso o gemini cli, a experiência do usuário é de outro nível graças ao contexto de 1M.
Poder colocar a base de código inteira no contexto é um divisor de águas.

 
koolgu 2025-07-11

Fico curioso sobre o quanto o tamanho do contexto realmente afeta o uso do modelo; ainda assim, continuar dizendo com base em benchmarks e aparências qual é o número 1 em que isso é diferente de fazer marketing viral para pessoas que não entendem do assunto?

 
GN⁺ 2025-07-11
Opinião do Hacker News
  • Não consigo imaginar quem pagaria para usar o Grok, ainda mais agora que parece ter desandado de vez; a valuation da xAI é pura ilusão
    • Eu pago para usar o Grok, estou usando o Grok no lugar do Google há alguns meses; é muito útil porque tem acesso ao grafo do X e também traz muita informação atualizada; queria que também pudesse ser usado no Cline ou no Cursor
    • Fico me perguntando se você sabe que quem causou o problema não foi o modelo Grok, e sim o bot @grok no X; a versão de API do Grok não começa do nada a imitar Hitler sem sentido (a menos que você peça isso diretamente)
  • No ARC-AGI2 ele registrou desempenho 4x melhor que o o3 e 2x melhor que o opus 4… outros benchmarks independentes também estão mostrando resultados fortes; esse ciclo curto em que cada modelo diz ser o "melhor do mundo" por um mês continua girando; com esses preços, isso é bom para o consumidor, e os datasets de treinamento dos modelos abertos também estão ficando mais diversos, então todo mundo sai ganhando; é triste ver gente inventando desculpas cansativas por causa de brigas emocionais sobre figuras famosas; muita gente precisa de um detox de mídia; antes chamavam os LLMs de "papagaios estocásticos", mas olhando esta thread e o Reddit agora, parece que são as pessoas que ficam repetindo como papagaios coisas burras e odiosas; precisamos melhorar
  • Fico pensando se vou continuar recebendo respostas sobre Hitler no meu código no futuro; edição: me sinto idiota por não ter percebido que isso era mais um movimento de marketing "genial"