4 pontos por GN⁺ 2025-09-21 | 2 comentários | Compartilhar no WhatsApp
  • O Grok 4 Fast, anunciado pela xAI, é um modelo de raciocínio de próxima geração baseado nos resultados de treinamento do Grok 4 existente, maximizando eficiência de custo e velocidade
  • O modelo conta com janela de contexto de 2M tokens, busca na web e no X, além de uma arquitetura integrada de reasoning / non-reasoning, sendo adequado para uso em tempo real
  • Nos benchmarks, entrega desempenho semelhante ao do Grok 4 usando em média 40% menos tokens, permitindo atingir o mesmo nível de desempenho com custo muito menor
  • Além disso, por meio de aprendizado por reforço para uso de ferramentas, apresenta alto desempenho em execução de código, navegação na web e mais, ficando em 1º lugar no LMArena Search Arena

Avanço da inteligência com eficiência de custo

  • O Grok 4 Fast mostra desempenho superior ao Grok 3 Mini e, ao mesmo tempo, reduz significativamente o custo de tokens
    • Em média, atinge desempenho semelhante ao do Grok 4 usando 40% menos 'Thinking Tokens'
    • Exemplos de pontuação em benchmarks (pass@1):
      • Grok 4 Fast: 85.7%, 92.0%, 93.3%, 20.0%, 80.0%
      • Resultados equivalentes ou superiores aos de modelos concorrentes (como GPT-5)
  • Em vários benchmarks de raciocínio, como GPQA, AIME, HMMT e LiveCodeBench, mostrou resultados próximos aos do Grok 4
  • Junto com uma melhora de 40% na eficiência de tokens do Grok 4 Fast, o preço por token foi bastante reduzido
  • Ao atingir o mesmo desempenho, o preço é 98% menor que o do Grok 4, estabelecendo a melhor 'SOTA Price-to-Intelligence Ratio' entre os modelos públicos
    • O excelente resultado foi validado em avaliação externa do índice Artificial Analysis Intelligence Index, uma instituição independente

Uso nativo de ferramentas e busca SOTA

  • Treinado com aprendizado por reforço para uso de ferramentas (RL), ele pode executar código ou navegar na web automaticamente quando necessário
  • Possui capacidade de busca agentic para explorar a web e o X em tempo real, realizando buscas multi-hop e lidando até com mídia (imagens e vídeos)
  • Em vários benchmarks, como BrowseComp, SimpleQA e X Bench Deepsearch(zh), alcança desempenho superior ao do Grok 4

Resultados de pós-treinamento em domínio geral

  • No Search Arena do LMArena, o Grok 4 Fast (menlo) ficou em 1º lugar com Elo 1163, liderando por 17 pontos sobre os modelos concorrentes
  • No Text Arena, grok-4-fast (codinome tahoe) ficou em 8º lugar, com desempenho esmagadoramente superior em comparação com outros modelos da mesma categoria (18º lugar ou abaixo)
  • Em tarefas reais de busca e texto, mostra eficiência superior até à de modelos maiores

Modelo integrado de Reasoning e Non-Reasoning

  • Modos de reasoning / non-reasoning, que antes exigiam modelos separados, foram integrados em uma arquitetura única
    • É possível alternar entre os modos reasoning (pensamento profundo) e non-reasoning (resposta rápida) apenas com o system prompt
    • Com menor latência de ponta a ponta e menor custo de tokens, é adequado para aplicações em tempo real
  • Na API da xAI, os desenvolvedores podem ajustar com precisão o nível de velocidade/profundidade

Disponibilização e política de preços

  • O Grok 4 Fast já está disponível e é oferecido gratuitamente por tempo limitado no OpenRouter e no Vercel AI Gateway
  • Na API da xAI, também é oferecido em duas versões, grok-4-fast-reasoning e grok-4-fast-non-reasoning, com suporte a janela de contexto de 2M tokens
  • O preço começa em $0.20/1M tokens de entrada e $0.50/1M tokens de saída, com tarifa dobrada acima de 128k tokens
  • Tokens de entrada em cache são oferecidos por $0.05/1M, ajudando a reduzir custos

Planos futuros

  • O modelo continuará sendo aprimorado continuamente com base no feedback dos usuários
  • Recursos multimodais e reforço das características agentic são os principais objetivos da próxima atualização
  • O model card e mais detalhes podem ser consultados em Model card do Grok 4 Fast (PDF)

2 comentários

 
kuber 2025-09-21

Parece ser mais caro e mais lento que o gpt-oss, então fico curioso para saber por que tanta gente está usando..

 
GN⁺ 2025-09-21
Comentários do Hacker News
  • Eu não gostaria de usar nenhum produto do Musk, não importa quanto me pagassem, especialmente se for para filtrar, transformar ou sintetizar informações; pode até ser útil, mas não me passa confiança e eu não quero ajudar o Musk a acumular ainda mais riqueza
    • Mesmo sem ter antipatia pessoal pelo Musk, já vi várias vezes ele interferir diretamente na forma como o Grok funciona para fazer o produto gerar resultados alinhados à sua ideologia; desse jeito, acho impossível usar esse produto. Pode haver quem compartilhe das ideias dele, mas o valor de um produto de IA está em produzir respostas usando dados e algoritmos variados; apenas reproduzir a opinião de uma única pessoa não faz sentido
    • Ouvi dizer que o Grok pesquisa as opiniões do Musk no Twitter antes de responder; fico curioso se isso vale para todas as versões do Grok ou só para a versão incorporada ao Twitter
    • Existem tantas alternativas que sinceramente não vejo motivo nenhum para usar Grok
    • Houve um caso em que o Musk mexeu diretamente no Grok porque ele não estava trazendo propaganda da Fox News sobre o assassinato de Kirk caso 1, e isso já aconteceu várias vezes artigo do NYT. O Grok é uma tecnologia envolvida em controvérsias de propaganda; não faz sentido discuti-lo como se fosse um serviço técnico comum
  • Fico pensando por que chamam o modelo de "Fast" mas não divulgam a velocidade de processamento de tokens; será que não significa velocidade, ou será que ela varia demais?
    • Na prática, acho que não passa de um “grok 4 mini”; provavelmente chamaram de ‘fast’ porque, se fosse ‘mini’, as pessoas usariam menos, enquanto ‘fast’ dá um motivo para escolher
    • No OpenRouter, atualmente está em cerca de 160 tokens por segundo fonte
    • Parece que estão posicionando como rápido com foco em ‘eficiência de tokens’, no sentido de entregar resultados mais rápido usando menos tokens
  • O Grok 4 está no topo do leaderboard estendido do NYT Connections link
    • Pensei que o Sonoma sky Alpha, que recentemente recebeu feedback no OpenRouter, talvez fosse esse modelo; usei bastante porque era gratuito, mas achei pior que o Grok 4 anterior, então talvez não seja
  • Tenho usado bastante o modelo grok-code-fast-1 ultimamente, então é uma pena que esse novo lançamento não o mencione; estou na expectativa de que talvez exista uma versão melhor. Mesmo sendo um pouco inferior ao Gemini 2.5 Pro, o grok-code-fast-1 é excelente em velocidade de iteração
    • Embora seja um modelo meio simples, na minha experiência ele foi melhor para o meu uso do que o somnet
  • Não entendo como ele pode ser mais rápido e, ao mesmo tempo, superar a versão mais lenta em vários benchmarks; será que foi treinado repetidamente só para provas de benchmark?
    • Não é superior em todos os benchmarks. O Grok 4 Fast é pior que o Grok 4 em áreas fortemente baseadas em fatos, como GPQA Diamond e HLE; o modelo maior (= mais lento) é melhor nesses casos. Já em benchmarks mais focados em raciocínio ou uso de ferramentas, a capacidade de transição de tokens pesa mais, então um modelo menor e mais rápido também consegue competir. Provavelmente ajustaram os próprios dados de treino para dar mais ênfase a certas tarefas, e os resultados divulgados parecem destacar justamente esses benchmarks. Da mesma forma, também daria para montar um ‘material promocional contrário’ escolhendo só benchmarks de memória factual para enfatizar desempenho inferior
    • Tecnicamente, podem ter usado várias mudanças de arquitetura, mais dados, RL etc.; recentemente, no uso de RL, eles vêm ficando muito à frente dos modelos abertos
    • Na verdade, são só dois modelos com nomes parecidos. O Grok 4 Fast não é exatamente uma versão mais rápida do Grok 4; é algo completamente diferente, como a relação entre gpt-4 e gpt-4o
    • O mais provável é que o Grok 4 Fast seja uma versão do modelo Grok 4 que reduziu partes quase nunca usadas em ambiente real de produção, ficando mais leve e mais focado. Assim, a estrutura lógica real pode ser a mesma, mas concentrada em objetivos mais específicos para ganhar eficiência
  • Hoje em dia os modelos grandes estão sendo treinados em escalas parecidas, com dados semelhantes. O que muda é a política de preços… no caso do grok, a característica parece ser remover filtros e proteções. E os próprios benchmarks têm várias falhas e podem ser manipulados com facilidade; isso é algo que todo mundo do setor já sabe
  • O desempenho em benchmark pelo preço parece bom; fico curioso para saber como ele se sai em testes com usuários reais
    • Se isso for o sonoma-dusk que apareceu antes como preview no OpenRouter, então era bem utilizável. Testei em uma tarefa de engenharia reversa de código, e a velocidade e o desempenho eram parecidos com o gpt5-mini ou até melhores. Aguentava bem entre 110 mil e 130 mil tokens, e acima disso passava a ter a tendência de afirmar que tinha concluído mesmo quando faltavam condições suficientes (ex.: passavam xx testes de 400, e o resto ele dizia que dava para fazer depois)
  • Todos nós queremos um modelo rápido e preciso, mas fico pensando se ele realmente consegue ser ‘preciso’; se for muito preciso, eu toparia esperar mais alguns segundos
    • A única forma de garantir isso de verdade é usando ferramentas
  • Link de referência para tabela comparativa de modelos grandes
  • Como eu pessoalmente uso um frontend customizado, acho uma pena que, ao contrário do Qwen3 coder, o grok4 fast não tenha teste gratuito de API; e as ferramentas com as quais eles têm parceria também não são as que eu costumo usar