Claude Opus 4.6 Fast Mode é lançado: 2,5x mais rápido e 6x mais caro

(x.com/claudeai)

13 pontos por xguru 2026-02-08 | 3 comentários | Compartilhar no WhatsApp

Usa o mesmo modelo Opus 4.6, mas altera a configuração da API para minimizar a latência
Otimizado para tarefas interativas sensíveis ao tempo, como iteração rápida e depuração ao vivo
No CLI ou na extensão do VS Code, digite /fast para ativar/desativar ou defina "fastMode": true no arquivo de configuração do usuário para manter sempre ativo
Quando ativado, muda automaticamente para o Opus 4.6, exibindo uma mensagem de status e o ícone ↯
O Fast Mode tem preço por token mais alto que o Opus 4.6 padrão
- Em contextos abaixo de 200K, aplica-se entrada a $30/MTok e saída a $150/MTok (o padrão é $5 de entrada e $25 de saída)
- Em contextos acima de 200K, aplica-se entrada a $60/MTok e saída a $225/MTok (o padrão é $10 de entrada e $37.5 de saída)
- Desconto de 50% aplicado até 16/2
Há um rate limit separado exclusivo do Fast Mode, e ao exceder o limite ou esgotar os créditos ocorre fallback automático para o modo padrão
O Fast Mode é oferecido como prévia de pesquisa, e seus recursos e preços podem mudar

3 comentários

GN⁺ 2026-02-09

Comentários no Hacker News

A velocidade ficou 2,5x maior, mas o preço é 6x maior
É um prêmio bem caro. Em especial, o Gemini 3 Pro tem velocidade de tokens por segundo 1,8x maior que o Opus 4.6, mas custa cerca de 0,45x
Porém, o desempenho em código é inferior, e o Gemini CLI ainda não tem a mesma capacidade de agente do Claude Code
- Se custa 6x por token, então por segundo sai 15x mais caro. Além disso, isso é com base na API; os planos de assinatura são muito mais baratos
  No fim, é uma estrutura interessante para fazer grandes clientes (whales) gastarem dinheiro rapidamente
- O Gemini é bem decente para trabalho de frontend
- Em vez do Gemini CLI, também dá para usar o OpenCode
Seria bom ter um modo lento (slow-mode). Seria uma função para agendar execuções usando spot GPU de baixo custo
Eu frequentemente rodo processos na hora do almoço ou antes de sair do trabalho, e não preciso que comecem imediatamente. Se puder rodar barato em GPUs ociosas, já é suficiente
- A Batches API roda com 50% da tarifa da API padrão
- A OpenAI também já ofereceu uma função semelhante de processamento em lote
- Penso o mesmo. Seria ótimo poder rodar à noite com tarifa 50% menor. Só que isso ainda não está integrado ao Claude Code
- O plano MAX já com desconto na prática funciona como um modo lento
- Se o tempo não for sensível, uma alternativa é rodar com CPU/RAM em vez de GPU
Este modo não pode aproveitar a cota restante do plano de assinatura
O uso do modo rápido é sempre cobrado separadamente e, independentemente dos tokens incluídos no plano, há cobrança extra desde o primeiro token
No momento, há um evento de uso extra grátis de $50
- No fim, quase não tem utilidade. Mesmo com Claude Max, durante TDD ainda é preciso gerenciar o consumo
  Pelo tool ccusage, com API pode chegar a $200 por dia. Com tarifa 6x, esses $50 somem em 20 minutos
Para mim, essa função provavelmente não será muito útil
O gargalo não é o modelo, e sim a minha velocidade para entender o código gerado pelo LLM
- Muita gente nem olha o código real com cuidado. O mundo de hoje é realmente curioso
- Se a velocidade ficasse alta o bastante, eu usaria mais fazendo perguntas do que lendo o código, mas ainda não chegamos nesse ponto
- Quem programa no “feeling” foca mais no resultado do que no entendimento
- Se você montar bem um test harness e um processo de validação, dá para confiar sem inspecionar o código diretamente
Olhando o documento “como decidir quando usar o Fast mode”,
- agentes de longa duração ou tarefas em background usam o modo normal
- cenários com intervenção humana usam o modo rápido
  Parece que a intenção era essa distinção. Ainda assim, é discutível se a estrutura de preços faz sentido
- A tarifa de API do Opus já é cara, então no fim ele deve continuar como um serviço de alto custo
  Quem prioriza custo-benefício provavelmente vai resolver isso com execução em paralelo
Meu fluxo de trabalho normal se divide em fase de planejamento e fase de implementação
O modo rápido parece ser mais útil na fase de planejamento
Além de “limpar o contexto e executar em modo rápido”,
eu queria também uma opção de “limpar o contexto e executar em velocidade normal”
Agentes exploratórios podem ser lentos, mas se for possível iterar o planejamento rapidamente, a eficiência melhora bastante
Na prática, uma conta Pro comum já é um modo lento
Estou testando o Kimi2.5 CLI agora, e ele é rápido e ainda oferece uma interface web, então dá para usar remotamente mesmo em ambiente com VPN
Já dá para fazer um CNAME do Hacker News para um simples blog de marketing do Claude
- Aí a gente perderia os posts de autopromoção do simonw
- Na verdade há muito mais posts sobre OpenAI. Talvez fosse melhor renomear para AINews
Fico curioso sobre a causa desse ganho de velocidade. Parece difícil explicar isso apenas com ajuste de prioridade
Pode ser hardware novo (Groq, Cerebras etc.). O fato de estar disponível só em algumas nuvens sugere essa possibilidade
Também fico pensando se, no futuro, os provedores de LLM vão precificar separando “velocidade vs inteligência”
- É uma forma de aumentar o processamento de tokens elevando o batching e o multistream na GPU
  Aumentar o lote amplia o paralelismo, mas reduz a velocidade de cada requisição individual.
  No gráfico InferenceMAX™ da SemiAnalysis, existe uma curva de Pareto entre throughput por GPU e velocidade de tokens
- Além de upgrade de hardware ou ajuste de prioridade de tráfego, também dá para mexer em várias coisas, como reduzir a batch window ou manter o cache KV na GPU
- Também pode ser simplesmente um modelo baseado em prioridade que fura a fila. É a forma mais fácil de ganhar mais dinheiro
- Talvez isso tenha sido implementado primeiro para uso interno. Na prática seria só um ajuste de prioridade, mas eles podem ter suposto que não haveria muitos clientes externos
- Ou talvez estejam usando GPUs novas como a Nvidia GB300 (Blackwell)
Ao ver o post “Claude criou um compilador C”, fiquei curioso sobre a velocidade de inferência interna em labs como Anthropic e OpenAI
Quanto mais rápida a inferência, mais vantagem se tem para dominar o mercado de software
Se a Anthropic anunciou velocidade 2,5x maior, talvez internamente já use um modo 5~10x mais rápido
Num futuro em que agentes negociem entre si, o poder computacional mais rápido será o vencedor
- A Anthropic disse que o modo 2,5x que já usava internamente foi lançado na API oficial
  Alguns servidores podem ter sacrificado throughput total para aumentar a velocidade de requisições individuais.
  Talvez ele já esteja rodando em uma nova geração de hardware
- Não faz sentido dizer que estão “escondendo desempenho 10x”. Uma empresa SaaS competindo no mercado não tem essa folga
  Na prática, o mais realista é que tenham obtido ganho de 2,5x via paralelização
- Também parece uma espécie de modelo de velocidade como refém, em que deixam a velocidade base artificialmente mais lenta para fazer as pessoas pagarem pelo modo rápido

kimjoin2 2026-02-09

"Qual seria uma boa próxima tarefa?"
Parece que foi adicionada uma cobrança extra de US$ 3,46 de uma vez, e pelo visto o modelo de assinatura não cobre isso.
Acho que aquele crédito de US$ 50 que deram um tempo atrás talvez tenha sido para fazer a gente testar isso kkkkk

elbum 2026-02-08

Agora a IA está indo cada vez mais para algo que só os ricos usam ...

Claude Opus 4.6 Fast Mode é lançado: 2,5x mais rápido e 6x mais caro

Leituras relacionadas

3 comentários

Comentários no Hacker News