7 pontos por GN⁺ 2025-08-30 | 1 comentários | Compartilhar no WhatsApp
  • O grok-code-fast-1, lançado pela xAI, é um modelo de IA ultrarrápido para programação voltado a desenvolvedores, com respostas rápidas e recursos amigáveis para IDEs
  • O modelo foi pré-treinado com foco em conjuntos de dados de programação e, com avaliações de usuários reais, foi projetado para usar bem ferramentas como grep, terminal e edição de arquivos
  • Em desempenho, registra 190 tokens por segundo e 70,8% no SWE-Bench-Verified, além de mostrar força em várias linguagens como TypeScript, Python, Java, Rust, C++, Go
  • O preço foi definido em US$ 0,20 por 1 milhão de tokens de entrada, US$ 1,50 de saída e US$ 0,02 para entrada em cache, e em algumas plataformas parceiras (GitHub Copilot, Cursor etc.) está disponível gratuitamente por tempo limitado
  • Em breve, também deve ser lançada uma variante com suporte a entrada multimodal, chamadas paralelas de ferramentas e contexto expandido

Visão geral

  • O grok-code-fast-1 da xAI é um modelo de IA para programação ultrarrápido desenvolvido para resolver problemas de lentidão em ambientes reais de desenvolvimento, onde raciocínio iterativo e uso de ferramentas acontecem com frequência
  • Com base no feedback de engenheiros que atuam na prática, ele foi reconstruído do zero com uma arquitetura de modelo rápida, ágil e adequada ao trabalho do dia a dia
  • As equipes de inferência e engenharia de computação introduziram várias abordagens inovadoras em uma tecnologia de serving extremamente rápida
    • O usuário pode ter a sensação de que várias chamadas de ferramentas já aconteceram antes mesmo de conseguir acompanhar a linha de raciocínio
  • A otimização de cache de prompts alcançou taxa de acerto superior a 90% em ambientes parceiros

Design e conjunto de dados

  • O ambiente de treinamento foi estruturado com base em grandes volumes de dados de pré-treinamento focados em programação
  • Foi realizado pós-treinamento de alta qualidade com dados reais de pull requests e escrita de código
  • Em estreita colaboração com diversos parceiros de lançamento, o comportamento do modelo dentro de plataformas agentic foi continuamente aprimorado

Principais recursos e ambientes compatíveis

  • O grok-code-fast-1 domina com segurança ferramentas comuns de desenvolvimento como grep, terminal e edição de arquivos
  • Os usuários podem utilizá-lo imediatamente em IDEs e outros ambientes principais de desenvolvimento

Desempenho em programação

  • Dá suporte a toda a stack de desenvolvimento de software
  • Mostra excelente utilidade em TypeScript, Python, Java, Rust, C++, Go e outras linguagens
  • Mesmo com supervisão mínima, executa com rapidez e precisão diversas tarefas de programação, como criação de projetos do zero ao um, perguntas e respostas sobre codebases e correção precisa de bugs
  • O Grok Code Fast 1 oferece a maior responsividade entre os modelos atuais
  • Quando usado em unidades menores de trabalho, é muito vantajoso para compor fluxos iterativos e rápidos
  • Como exemplo real, um protótipo de Battle Simulator foi concluído em apenas um dia no ambiente Cursor
  • É eficiente planejar recursos maiores, dividi-los em etapas e executá-los iterativamente

Política de preços

  • US$ 0,20 por 1 milhão de tokens de entrada
  • US$ 1,50 por 1 milhão de tokens de saída
  • US$ 0,02 por 1 milhão de tokens de entrada em cache
  • Com ótimo desempenho e preço acessível, é possível lidar com tarefas rotineiras de programação de forma rápida e eficiente

Desempenho e avaliação do modelo

  • A velocidade de processamento de tokens (Tokens Per Second, TPS): 190 está em nível de ponta no setor
  • Em comparação com outros modelos (Gemini 2.5 Pro, GPT-5, Claude Sonnet 4, Qwen3-Coder, Grok 4), mostra forte competitividade tanto em preço quanto em velocidade de processamento
  • Foram combinados vários benchmarks públicos e testes reais com desenvolvedores
    • Alcançou 70,8% no subconjunto SWE-Bench-Verified
  • Ao combinar avaliações humanas periódicas com engenheiros em atuação e testes automatizados, maximiza a utilidade prática e a satisfação com o modelo

Planos futuros e orientação de uso

  • Está disponível via API oficial e pelos principais parceiros, com teste gratuito também oferecido por tempo limitado
    • GitHub Copilot, Cursor, Cline, Roo Code, Kilo Code, opencode, Windsurf etc.
  • A empresa promete atualizações contínuas e um ciclo rápido de melhorias
  • Uma nova variante com recursos como entrada multimodal, chamadas paralelas de ferramentas e suporte a contexto expandido também está em treinamento
  • Um guia de prompt engineering também é fornecido separadamente
  • É possível compartilhar opiniões por meio do model card e de canais de feedback (Discord etc.)

1 comentários

 
GN⁺ 2025-08-30
Comentários do Hacker News
  • Testei ontem com o Cline; é rápido, combina bem com um fluxo agentic e a qualidade do código é bem boa. Não entendo por que este tópico está tão negativo (até fui flagged enquanto digitava). Acho que esse modelo é bom, parece estar no nível do gpt5-mini ou acima. Usei o gpt5-mini como principal por alguns dias, cabe no orçamento e faz bem o trabalho.

    • Pontos que notei:

      • É rápido (testado no fuso horário da UE)
      • Lida de forma interessante com a abordagem agentic: em vez de editar o arquivo inteiro de uma vez, vai corrigindo aos poucos em várias passadas
      • Usei cerca de 110 mil tokens numa função relacionada a parsing de HTML (bs4) e mesmo assim concluiu a tarefa sem problemas; não vi dificuldade em contexto alto
      • Se falha na primeira tentativa, cria um arquivo separado para fazer mock/test e, quando dá certo, altera o arquivo principal do módulo; o GPT5-mini às vezes se confundia ao editar arquivos durante o trabalho e falhava
    • No geral é bom, dá para usar como daily driver pelo preço. Dá para imaginar Opus + gpt5 high como planner e esse modelo como implementer. Como é rápido, uma configuração em paralelo estilo pass@x também parece interessante.

    • É bom haver opções variadas em todas as camadas; vários fornecedores precisam competir para manter todo mundo sob pressão e ajudar a derrubar preços. O gpt5-mini custa 2$/MTok e este modelo fica na faixa de 1.5$/MTok, então parece quase “de graça”. Não entendo esse clima negativo.

    • O Qwen3-Coder-480B (hospedado pela Cerebras) custa 2$/Mtok via OpenRouter, incluindo entrada e saída

      • No OpenRouter, a Cerebras afirma entregar mais de 2000 tokens por segundo, o que seria 10x mais rápido
      • Benchmarks independentes parecem mostrar que o modelo Qwen3-Coder-480B é melhor
    • Devemos considerar que o desempenho é bom só até metade do context length? No caso do qwen3-coder, parece que ele se confunde por volta de 65k/256k, e ainda é 50% mais caro que o grok.

    • Li bem a review; queria saber como ele se compara ao claude code.

    • Penso de forma parecida; estou usando esse modelo recentemente e ele é bem bom, além de muito rápido

      • Os comentários no HN são negativos com Elon Musk e mostram reações enviesadas a LLMs, então parece que ele não está sendo avaliado direito
  • O interessante é que o benchmark enfatizado por esse modelo é velocidade de saída de tokens; até colocaram “fast” no nome

    • Em geral, imagino que engenheiros de software considerem a qualidade dos tokens mais importante que a velocidade

    • A questão é o quão rápido ele é

      • Se os resultados de LLMs acabam errando às vezes de qualquer forma, talvez seja mais valioso poder tentar vários prompts rapidamente e iterar
      • No extremo, se desse para processar um projeto inteiro em milissegundos, isso seria muito mais valioso mesmo com a mesma taxa de acerto
      • Esse tipo de velocidade pode mudar não só a experiência do usuário, mas a própria forma de usar a ferramenta
      • Também seria possível receber 3 sugestões diferentes na hora
      • Pessoalmente, não quero me envolver com X, então não pretendo usar o Grok; é só uma preferência pessoal
    • Não é a pior métrica que a xAI já inventou

    • Já usei a API gratuita da Cerebras (Qwen Coder 480b, gpt-oss-120b disponíveis, não sou afiliado) e ela é realmente rápida, algo em torno de 3000 tokens por segundo

      • Por isso sempre verifico a velocidade do modelo
      • Mas a nuvem da Cerebras tem limite diário de 70 milhões de tokens, e há feedback de que esse limite acaba muito rápido, então para desenvolvimento diário há várias restrições
    • Depende do uso

      • Para autocomplete simples de funções (tratamento de strings, definição de funções etc.), a velocidade fica mais importante
      • Em programação mais de decisão/ramificação, a qualidade importa mais, mas se eu sei exatamente o que estou fazendo, um modelo menos inteligente e mais rápido ajuda mais no fluxo de trabalho
      • Modelos lentos exigem um modo de trabalho mais parecido com revisar um PR com cuidado, então o fluxo muda bastante
    • Velocidade importa muito

      • Claro, se a qualidade cair demais não adianta, mas se existir um modelo tão bom quanto Claude Sonnet 4 e mais rápido, isso pode mudar o jogo em programação agentic
      • Hoje em dia você manda o prompt e precisa esperar de 30 segundos a vários minutos, então fica difícil experimentar de verdade
      • Se terminasse em poucos segundos, daria para trabalhar de forma muito mais experimental e iterativa
      • Isso é especialmente útil para código frontend, quando você precisa alterar a UI repetidamente
  • Queria saber o que o pessoal do HN está usando como assistente de programação com IA; queria ouvir dicas de uso real, como recomendações de plugins para VSCode

  • Fiquei curioso se esta é a versão de “coding” lançada quando muita gente dizia que o desempenho de código do Grok-4 era ruim

    • Quando o benchmark é fraco, parece mais fácil destacar um item mais inflável, como velocidade

    • Pesquisando, só encontrei no Reddit posts de uma conta claramente de spam elogiando esse modelo

    • Link da conta

    • Tenho a impressão de que ele é baseado no Grok 3; o Grok 3 era muito rápido e focado em programação

  • Pelo conjunto total do "SWE-Bench-Verified", dizem que o grok-code-fast-1 faz 70.8% em benchmark interno, mas eu queria ver melhor essa própria ferramenta de benchmark

    • Em relatórios de terceiros, fica mais na faixa de 57.6%

    • Link relacionado

      • Pode ser preciosismo, mas fiquei surpreso que assim que abri o site a formatação de datas já estava uma bagunça (ordem dia/mês/ano toda misturada)

      • Não é só confuso, a ordenação também não funciona direito

      • Tentei ordenar a coluna de datas e não fez o menor sentido (ordenou com base em itens do meio)

      • Se não dão atenção nem a esse básico, dá vontade de suspeitar que o código também pode ser descuidado

      • [Alguns países ainda usam essa notação, mas a maioria já migrou para um padrão]

      • Ainda assim, comparando com outros modelos, o desempenho em si parece bom

  • Já vi resultados bem bons até com a versão base do Grok 4

    • O problema é que ele tende a só trocar o código sem explicar muito, mas o resultado em si não foi ruim
    • Pessoalmente, eu preferiria um pouco mais de feedback e explicação sobre as mudanças sugeridas do que uma versão mais rápida
    • Recentemente, senti que o GPT-5 é mais útil que o Sonnet 4
      • Quando pergunto sobre diferentes opções de arquitetura, ele dá respostas muito boas e conduz bem o processo de resolução passo a passo, o que me agrada

      • Gosto mais desse processo de ir ajustando na direção que eu realmente quero do que de uma reescrita total em estilo “one-shot”

      • Acho que Opus 4.1 e a série Sonnet não são muito bem avaliados por métricas de resolução one-shot; o que importa mesmo é como se saem no papel de assistente de verdade

      • O gpt-5 também pode insistir num caminho que eu não quero e, por mais que eu converse, continuar repetindo o mesmo comportamento

        • Nesse ponto, há quem prefira a reação estilo “sim, você está certo” de modelos como o Claude
        • O que se espera do modelo varia conforme o nível de experiência de desenvolvimento, mas para mim é importante que a decisão final fique comigo
      • O Sonnet 4 pode ficar atrás do GPT-5 em design de arquitetura ou análise profunda, mas quando já existe um plano detalhado e o trabalho é só produzir volume de código, o Sonnet 4 se sai melhor

  • Depois de testar o Grok por alguns dias, tive a sensação de que ele está até piorando

    • Fazia tempo que eu não via algo apagar partes do meu código aleatoriamente

    • Os modelos de programação do topo têm ficado bem confiáveis ultimamente, e o Grok ainda não parece estar nesse nível

    • Não importa se é rápido e gratuito; se eu não posso confiar meu código a ele, não serve como ferramenta

      • Testei o Grok Code Fast 1 no Kilo Code com a avaliação gratuita e os resultados foram muito ruins

        • É menos confiável que o GPT 5 Mini e, ironicamente, também mais lento
      • Full Self Coding?

      • Queria saber qual plataforma/linguagem você está usando

        • Reviews sem esse contexto ficam muito contraditórias
        • Há bastante diferença por linguagem; em desenvolvimento web com TS os resultados sempre parecem melhores
      • Apagar parte do código é realmente um problema tão grande assim? Você não usa controle de versão?

  • Ele faz coisas absurdas e esquisitas muito rápido, e isso não é uma qualidade

    • Pode servir para tarefas simples e específicas como endpoints CRUD, arquivos i8n e afins, mas fora isso tenho dúvidas

      • É exatamente para esse tipo de tarefa que eu uso esse modelo

        • Ele é perfeito para lidar com “tarefas simples e chatas”
        • Nem tudo precisa de um modelo inteligente; dá para usar nisso que ninguém quer fazer e processar bastante coisa rápido
        • Só que, se você não explicar de forma mais específica, o resultado desanda
        • Mas se você der exemplos claros, ele faz bem exatamente o que foi pedido
      • Pedi para melhorar um Justfile e ele se enrolou completamente, estragou tudo e entrou em loop infinito

        • Usei no Kilo Code; pela minha experiência, pode variar bastante de pessoa para pessoa
  • Mesmo na fase stealth do modelo ‘sonic’, a velocidade era alta, mas a qualidade não era tão precisa quanto precisava ser

    • Ele criava testes e os executava repetidamente, mas na prática não verificava o comportamento pretendido, só checava chamadas de mock

    • Tem essa limitação de não conseguir prestar atenção aos padrões reais de uso

      • Nesses casos, parece que ele deve ser forte em gerar boilerplate
  • Eu achei impressionante

    • Numa pergunta sobre refatoração, ele fez várias chamadas de ferramenta, leu o código rapidamente e analisou tudo de forma lógica, dizendo que havia encontrado 2 bugs
    • Claro, nenhum dos dois era bug
    • Mas pelo menos “pareceu legal”