- Grok 4, da xAI, assumiu o 1º lugar entre os modelos de IA nos principais benchmarks
- No AAI Index, o Grok 4 marcou 73 pontos, à frente de OpenAI o3 (70), Google Gemini 2.5 Pro (70), Anthropic Claude 4 Opus (64) e DeepSeek R1 0528 (68)
- O Grok 4 também registrou as maiores pontuações em benchmarks de programação e matemática, estabelecendo novos recordes em GPQA Diamond (88%) e Humanity’s Last Exam (24%)
- O preço é o mesmo do Grok 3, com valor por token igual ao do Claude 4 Sonnet e ligeiramente mais caro que Gemini 2.5 Pro e o3
- Oferece recursos principais como janela de contexto de 256k tokens, entrada de texto/imagem, chamada de função e suporte a saída estruturada
Grok 4 se torna o modelo líder da xAI
- Com 73 pontos no Artificial Analysis Intelligence Index, o Grok 4 ficou em 1º lugar nos principais benchmarks
- Com pontuação superior à de OpenAI o3 (70), Google Gemini 2.5 Pro (70), Anthropic Claude 4 Opus (64) e DeepSeek R1 0528 (68), este é o primeiro caso em que a xAI assume a liderança em IA
- O Grok 3 anterior já era competitivo, mas o Grok 4 é o primeiro modelo da xAI a conquistar a liderança
Benchmarks e resultados de avaliação
- Ficou em 1º lugar tanto no índice de programação (LiveCodeBench & SciCode) quanto no índice de matemática (AIME24 & MATH-500)
- Com 88% no GPQA Diamond, superou o recorde anterior do Gemini 2.5 Pro (84%)
- Com 24% no Humanity’s Last Exam, ficou acima da marca anterior do Gemini 2.5 Pro (21%)
- Registrou a pontuação máxima compartilhada em MMLU-Pro 87% e AIME 2024 94%
- Com velocidade de saída de 75 tokens/segundo, é mais lento que o o3 (188), Gemini 2.5 Pro (142) e Claude 4 Sonnet Thinking (85), mas mais rápido que o Claude 4 Opus Thinking (66)
Outras informações principais
- Oferece janela de contexto de 256k tokens (comparativamente, Gemini 2.5 Pro: 1M, Claude 4 Sonnet/Opus: 200k, o3: 200k, R1 0528: 128k, ficando entre os melhores)
- Suporte a entrada de texto e imagem
- Suporte a chamada de função e saída estruturada
- Política de preços: igual ao Grok 3, com $3/$15 por 1M de tokens de entrada/saída e $0.75 por 1M de tokens de entrada em cache
- Igual ao Claude 4 Sonnet, e um pouco mais caro que Gemini 2.5 Pro e o3
- O Grok 4 será disponibilizado via xAI API, chatbot Grok (X/Twitter) e Microsoft Azure AI Foundry
Resumo
- O Grok 4 é o primeiro modelo de IA com que a xAI chega à liderança, superando nos benchmarks e nos números todos os principais concorrentes
- Com forte capacidade de raciocínio, diversos modos de entrada/saída e amplo suporte de contexto, demonstra liderança no setor
- Os detalhes de implementação do modelo para X/Twitter e para API podem ser diferentes
5 comentários
Por enquanto, não acredito até liberarem de graça. O Grok custa até 30 dólares, então dá medo assinar...
Parece que dá para pensar nisso como o desempenho de um modelo que passou por menos alinhamento, mas provavelmente vão capar e o desempenho vai cair, eu acho
Quando uso o gemini cli, a experiência do usuário é de outro nível graças ao contexto de 1M.
Poder colocar a base de código inteira no contexto é um divisor de águas.
Fico curioso sobre o quanto o tamanho do contexto realmente afeta o uso do modelo; ainda assim, continuar dizendo com base em benchmarks e aparências qual é o número 1 em que isso é diferente de fazer marketing viral para pessoas que não entendem do assunto?
Opinião do Hacker News