Grok Code Fast 1

(x.ai)

7 pontos por GN⁺ 2025-08-30 | 1 comentários | Compartilhar no WhatsApp

O grok-code-fast-1, lançado pela xAI, é um modelo de IA ultrarrápido para programação voltado a desenvolvedores, com respostas rápidas e recursos amigáveis para IDEs
O modelo foi pré-treinado com foco em conjuntos de dados de programação e, com avaliações de usuários reais, foi projetado para usar bem ferramentas como grep, terminal e edição de arquivos
Em desempenho, registra 190 tokens por segundo e 70,8% no SWE-Bench-Verified, além de mostrar força em várias linguagens como TypeScript, Python, Java, Rust, C++, Go
O preço foi definido em US$ 0,20 por 1 milhão de tokens de entrada, US$ 1,50 de saída e US$ 0,02 para entrada em cache, e em algumas plataformas parceiras (GitHub Copilot, Cursor etc.) está disponível gratuitamente por tempo limitado
Em breve, também deve ser lançada uma variante com suporte a entrada multimodal, chamadas paralelas de ferramentas e contexto expandido

Visão geral

O grok-code-fast-1 da xAI é um modelo de IA para programação ultrarrápido desenvolvido para resolver problemas de lentidão em ambientes reais de desenvolvimento, onde raciocínio iterativo e uso de ferramentas acontecem com frequência
Com base no feedback de engenheiros que atuam na prática, ele foi reconstruído do zero com uma arquitetura de modelo rápida, ágil e adequada ao trabalho do dia a dia
As equipes de inferência e engenharia de computação introduziram várias abordagens inovadoras em uma tecnologia de serving extremamente rápida
- O usuário pode ter a sensação de que várias chamadas de ferramentas já aconteceram antes mesmo de conseguir acompanhar a linha de raciocínio
A otimização de cache de prompts alcançou taxa de acerto superior a 90% em ambientes parceiros

Design e conjunto de dados

O ambiente de treinamento foi estruturado com base em grandes volumes de dados de pré-treinamento focados em programação
Foi realizado pós-treinamento de alta qualidade com dados reais de pull requests e escrita de código
Em estreita colaboração com diversos parceiros de lançamento, o comportamento do modelo dentro de plataformas agentic foi continuamente aprimorado

Principais recursos e ambientes compatíveis

O grok-code-fast-1 domina com segurança ferramentas comuns de desenvolvimento como grep, terminal e edição de arquivos
Os usuários podem utilizá-lo imediatamente em IDEs e outros ambientes principais de desenvolvimento

Desempenho em programação

Dá suporte a toda a stack de desenvolvimento de software
Mostra excelente utilidade em TypeScript, Python, Java, Rust, C++, Go e outras linguagens
Mesmo com supervisão mínima, executa com rapidez e precisão diversas tarefas de programação, como criação de projetos do zero ao um, perguntas e respostas sobre codebases e correção precisa de bugs

O Grok Code Fast 1 oferece a maior responsividade entre os modelos atuais
Quando usado em unidades menores de trabalho, é muito vantajoso para compor fluxos iterativos e rápidos
Como exemplo real, um protótipo de Battle Simulator foi concluído em apenas um dia no ambiente Cursor
É eficiente planejar recursos maiores, dividi-los em etapas e executá-los iterativamente

Política de preços

US$ 0,20 por 1 milhão de tokens de entrada
US$ 1,50 por 1 milhão de tokens de saída
US$ 0,02 por 1 milhão de tokens de entrada em cache
Com ótimo desempenho e preço acessível, é possível lidar com tarefas rotineiras de programação de forma rápida e eficiente

Desempenho e avaliação do modelo

A velocidade de processamento de tokens (Tokens Per Second, TPS): 190 está em nível de ponta no setor
Em comparação com outros modelos (Gemini 2.5 Pro, GPT-5, Claude Sonnet 4, Qwen3-Coder, Grok 4), mostra forte competitividade tanto em preço quanto em velocidade de processamento
Foram combinados vários benchmarks públicos e testes reais com desenvolvedores
- Alcançou 70,8% no subconjunto SWE-Bench-Verified
Ao combinar avaliações humanas periódicas com engenheiros em atuação e testes automatizados, maximiza a utilidade prática e a satisfação com o modelo

Planos futuros e orientação de uso

Está disponível via API oficial e pelos principais parceiros, com teste gratuito também oferecido por tempo limitado
- GitHub Copilot, Cursor, Cline, Roo Code, Kilo Code, opencode, Windsurf etc.
A empresa promete atualizações contínuas e um ciclo rápido de melhorias
Uma nova variante com recursos como entrada multimodal, chamadas paralelas de ferramentas e suporte a contexto expandido também está em treinamento
Um guia de prompt engineering também é fornecido separadamente
É possível compartilhar opiniões por meio do model card e de canais de feedback (Discord etc.)

1 comentários

GN⁺ 2025-08-30

Comentários do Hacker News

Testei ontem com o Cline; é rápido, combina bem com um fluxo agentic e a qualidade do código é bem boa. Não entendo por que este tópico está tão negativo (até fui flagged enquanto digitava). Acho que esse modelo é bom, parece estar no nível do gpt5-mini ou acima. Usei o gpt5-mini como principal por alguns dias, cabe no orçamento e faz bem o trabalho.
- Pontos que notei:
  - É rápido (testado no fuso horário da UE)
  - Lida de forma interessante com a abordagem agentic: em vez de editar o arquivo inteiro de uma vez, vai corrigindo aos poucos em várias passadas
  - Usei cerca de 110 mil tokens numa função relacionada a parsing de HTML (bs4) e mesmo assim concluiu a tarefa sem problemas; não vi dificuldade em contexto alto
  - Se falha na primeira tentativa, cria um arquivo separado para fazer mock/test e, quando dá certo, altera o arquivo principal do módulo; o GPT5-mini às vezes se confundia ao editar arquivos durante o trabalho e falhava
- No geral é bom, dá para usar como daily driver pelo preço. Dá para imaginar Opus + gpt5 high como planner e esse modelo como implementer. Como é rápido, uma configuração em paralelo estilo pass@x também parece interessante.
- É bom haver opções variadas em todas as camadas; vários fornecedores precisam competir para manter todo mundo sob pressão e ajudar a derrubar preços. O gpt5-mini custa 2$/MTok e este modelo fica na faixa de 1.5$/MTok, então parece quase “de graça”. Não entendo esse clima negativo.
- O Qwen3-Coder-480B (hospedado pela Cerebras) custa 2$/Mtok via OpenRouter, incluindo entrada e saída
  - No OpenRouter, a Cerebras afirma entregar mais de 2000 tokens por segundo, o que seria 10x mais rápido
  - Benchmarks independentes parecem mostrar que o modelo Qwen3-Coder-480B é melhor
- Devemos considerar que o desempenho é bom só até metade do context length? No caso do qwen3-coder, parece que ele se confunde por volta de 65k/256k, e ainda é 50% mais caro que o grok.
- Li bem a review; queria saber como ele se compara ao claude code.
- Penso de forma parecida; estou usando esse modelo recentemente e ele é bem bom, além de muito rápido
  - Os comentários no HN são negativos com Elon Musk e mostram reações enviesadas a LLMs, então parece que ele não está sendo avaliado direito
O interessante é que o benchmark enfatizado por esse modelo é velocidade de saída de tokens; até colocaram “fast” no nome
- Em geral, imagino que engenheiros de software considerem a qualidade dos tokens mais importante que a velocidade
- A questão é o quão rápido ele é
  - Se os resultados de LLMs acabam errando às vezes de qualquer forma, talvez seja mais valioso poder tentar vários prompts rapidamente e iterar
  - No extremo, se desse para processar um projeto inteiro em milissegundos, isso seria muito mais valioso mesmo com a mesma taxa de acerto
  - Esse tipo de velocidade pode mudar não só a experiência do usuário, mas a própria forma de usar a ferramenta
  - Também seria possível receber 3 sugestões diferentes na hora
  - Pessoalmente, não quero me envolver com X, então não pretendo usar o Grok; é só uma preferência pessoal
- Não é a pior métrica que a xAI já inventou
  - Link relacionado
- Já usei a API gratuita da Cerebras (Qwen Coder 480b, gpt-oss-120b disponíveis, não sou afiliado) e ela é realmente rápida, algo em torno de 3000 tokens por segundo
  - Por isso sempre verifico a velocidade do modelo
  - Mas a nuvem da Cerebras tem limite diário de 70 milhões de tokens, e há feedback de que esse limite acaba muito rápido, então para desenvolvimento diário há várias restrições
- Depende do uso
  - Para autocomplete simples de funções (tratamento de strings, definição de funções etc.), a velocidade fica mais importante
  - Em programação mais de decisão/ramificação, a qualidade importa mais, mas se eu sei exatamente o que estou fazendo, um modelo menos inteligente e mais rápido ajuda mais no fluxo de trabalho
  - Modelos lentos exigem um modo de trabalho mais parecido com revisar um PR com cuidado, então o fluxo muda bastante
- Velocidade importa muito
  - Claro, se a qualidade cair demais não adianta, mas se existir um modelo tão bom quanto Claude Sonnet 4 e mais rápido, isso pode mudar o jogo em programação agentic
  - Hoje em dia você manda o prompt e precisa esperar de 30 segundos a vários minutos, então fica difícil experimentar de verdade
  - Se terminasse em poucos segundos, daria para trabalhar de forma muito mais experimental e iterativa
  - Isso é especialmente útil para código frontend, quando você precisa alterar a UI repetidamente
Queria saber o que o pessoal do HN está usando como assistente de programação com IA; queria ouvir dicas de uso real, como recomendações de plugins para VSCode
Fiquei curioso se esta é a versão de “coding” lançada quando muita gente dizia que o desempenho de código do Grok-4 era ruim
- Quando o benchmark é fraco, parece mais fácil destacar um item mais inflável, como velocidade
- Pesquisando, só encontrei no Reddit posts de uma conta claramente de spam elogiando esse modelo
- Link da conta
- Tenho a impressão de que ele é baseado no Grok 3; o Grok 3 era muito rápido e focado em programação
Pelo conjunto total do "SWE-Bench-Verified", dizem que o grok-code-fast-1 faz 70.8% em benchmark interno, mas eu queria ver melhor essa própria ferramenta de benchmark
- Em relatórios de terceiros, fica mais na faixa de 57.6%
- Link relacionado
  - Pode ser preciosismo, mas fiquei surpreso que assim que abri o site a formatação de datas já estava uma bagunça (ordem dia/mês/ano toda misturada)
  - Não é só confuso, a ordenação também não funciona direito
  - Tentei ordenar a coluna de datas e não fez o menor sentido (ordenou com base em itens do meio)
  - Se não dão atenção nem a esse básico, dá vontade de suspeitar que o código também pode ser descuidado
  - [Alguns países ainda usam essa notação, mas a maioria já migrou para um padrão]
  - Ainda assim, comparando com outros modelos, o desempenho em si parece bom
    - Link de comparação
Já vi resultados bem bons até com a versão base do Grok 4
- O problema é que ele tende a só trocar o código sem explicar muito, mas o resultado em si não foi ruim
- Pessoalmente, eu preferiria um pouco mais de feedback e explicação sobre as mudanças sugeridas do que uma versão mais rápida
- Recentemente, senti que o GPT-5 é mais útil que o Sonnet 4
  - Quando pergunto sobre diferentes opções de arquitetura, ele dá respostas muito boas e conduz bem o processo de resolução passo a passo, o que me agrada
  - Gosto mais desse processo de ir ajustando na direção que eu realmente quero do que de uma reescrita total em estilo “one-shot”
  - Acho que Opus 4.1 e a série Sonnet não são muito bem avaliados por métricas de resolução one-shot; o que importa mesmo é como se saem no papel de assistente de verdade
  - O gpt-5 também pode insistir num caminho que eu não quero e, por mais que eu converse, continuar repetindo o mesmo comportamento
    - Nesse ponto, há quem prefira a reação estilo “sim, você está certo” de modelos como o Claude
    - O que se espera do modelo varia conforme o nível de experiência de desenvolvimento, mas para mim é importante que a decisão final fique comigo
  - O Sonnet 4 pode ficar atrás do GPT-5 em design de arquitetura ou análise profunda, mas quando já existe um plano detalhado e o trabalho é só produzir volume de código, o Sonnet 4 se sai melhor
Depois de testar o Grok por alguns dias, tive a sensação de que ele está até piorando
- Fazia tempo que eu não via algo apagar partes do meu código aleatoriamente
- Os modelos de programação do topo têm ficado bem confiáveis ultimamente, e o Grok ainda não parece estar nesse nível
- Não importa se é rápido e gratuito; se eu não posso confiar meu código a ele, não serve como ferramenta
  - Testei o Grok Code Fast 1 no Kilo Code com a avaliação gratuita e os resultados foram muito ruins
    - É menos confiável que o GPT 5 Mini e, ironicamente, também mais lento
  - Full Self Coding?
  - Queria saber qual plataforma/linguagem você está usando
    - Reviews sem esse contexto ficam muito contraditórias
    - Há bastante diferença por linguagem; em desenvolvimento web com TS os resultados sempre parecem melhores
  - Apagar parte do código é realmente um problema tão grande assim? Você não usa controle de versão?
Ele faz coisas absurdas e esquisitas muito rápido, e isso não é uma qualidade
- Pode servir para tarefas simples e específicas como endpoints CRUD, arquivos i8n e afins, mas fora isso tenho dúvidas
  - É exatamente para esse tipo de tarefa que eu uso esse modelo
    - Ele é perfeito para lidar com “tarefas simples e chatas”
    - Nem tudo precisa de um modelo inteligente; dá para usar nisso que ninguém quer fazer e processar bastante coisa rápido
    - Só que, se você não explicar de forma mais específica, o resultado desanda
    - Mas se você der exemplos claros, ele faz bem exatamente o que foi pedido
  - Pedi para melhorar um Justfile e ele se enrolou completamente, estragou tudo e entrou em loop infinito
    - Usei no Kilo Code; pela minha experiência, pode variar bastante de pessoa para pessoa
Mesmo na fase stealth do modelo ‘sonic’, a velocidade era alta, mas a qualidade não era tão precisa quanto precisava ser
- Ele criava testes e os executava repetidamente, mas na prática não verificava o comportamento pretendido, só checava chamadas de mock
- Tem essa limitação de não conseguir prestar atenção aos padrões reais de uso
  - Nesses casos, parece que ele deve ser forte em gerar boilerplate
Eu achei impressionante
- Numa pergunta sobre refatoração, ele fez várias chamadas de ferramenta, leu o código rapidamente e analisou tudo de forma lógica, dizendo que havia encontrado 2 bugs
- Claro, nenhum dos dois era bug
- Mas pelo menos “pareceu legal”

Grok Code Fast 1

Visão geral

Design e conjunto de dados

Principais recursos e ambientes compatíveis

Desempenho em programação

Política de preços

Desempenho e avaliação do modelo

Planos futuros e orientação de uso

Leituras relacionadas

1 comentários

Comentários do Hacker News