- Usa o mesmo modelo Opus 4.6, mas altera a configuração da API para minimizar a latência
- Otimizado para tarefas interativas sensíveis ao tempo, como iteração rápida e depuração ao vivo
- No CLI ou na extensão do VS Code, digite
/fast para ativar/desativar ou defina "fastMode": true no arquivo de configuração do usuário para manter sempre ativo
- Quando ativado, muda automaticamente para o Opus 4.6, exibindo uma mensagem de status e o ícone
↯
- O Fast Mode tem preço por token mais alto que o Opus 4.6 padrão
- Em contextos abaixo de 200K, aplica-se entrada a $30/MTok e saída a $150/MTok (o padrão é $5 de entrada e $25 de saída)
- Em contextos acima de 200K, aplica-se entrada a $60/MTok e saída a $225/MTok (o padrão é $10 de entrada e $37.5 de saída)
- Desconto de 50% aplicado até 16/2
- Há um rate limit separado exclusivo do Fast Mode, e ao exceder o limite ou esgotar os créditos ocorre fallback automático para o modo padrão
- O Fast Mode é oferecido como prévia de pesquisa, e seus recursos e preços podem mudar
3 comentários
Comentários no Hacker News
A velocidade ficou 2,5x maior, mas o preço é 6x maior
É um prêmio bem caro. Em especial, o Gemini 3 Pro tem velocidade de tokens por segundo 1,8x maior que o Opus 4.6, mas custa cerca de 0,45x
Porém, o desempenho em código é inferior, e o Gemini CLI ainda não tem a mesma capacidade de agente do Claude Code
No fim, é uma estrutura interessante para fazer grandes clientes (whales) gastarem dinheiro rapidamente
Seria bom ter um modo lento (slow-mode). Seria uma função para agendar execuções usando spot GPU de baixo custo
Eu frequentemente rodo processos na hora do almoço ou antes de sair do trabalho, e não preciso que comecem imediatamente. Se puder rodar barato em GPUs ociosas, já é suficiente
Este modo não pode aproveitar a cota restante do plano de assinatura
O uso do modo rápido é sempre cobrado separadamente e, independentemente dos tokens incluídos no plano, há cobrança extra desde o primeiro token
No momento, há um evento de uso extra grátis de $50
Pelo tool ccusage, com API pode chegar a $200 por dia. Com tarifa 6x, esses $50 somem em 20 minutos
Para mim, essa função provavelmente não será muito útil
O gargalo não é o modelo, e sim a minha velocidade para entender o código gerado pelo LLM
Olhando o documento “como decidir quando usar o Fast mode”,
Parece que a intenção era essa distinção. Ainda assim, é discutível se a estrutura de preços faz sentido
Quem prioriza custo-benefício provavelmente vai resolver isso com execução em paralelo
Meu fluxo de trabalho normal se divide em fase de planejamento e fase de implementação
O modo rápido parece ser mais útil na fase de planejamento
Além de “limpar o contexto e executar em modo rápido”,
eu queria também uma opção de “limpar o contexto e executar em velocidade normal”
Agentes exploratórios podem ser lentos, mas se for possível iterar o planejamento rapidamente, a eficiência melhora bastante
Na prática, uma conta Pro comum já é um modo lento
Estou testando o Kimi2.5 CLI agora, e ele é rápido e ainda oferece uma interface web, então dá para usar remotamente mesmo em ambiente com VPN
Já dá para fazer um CNAME do Hacker News para um simples blog de marketing do Claude
Fico curioso sobre a causa desse ganho de velocidade. Parece difícil explicar isso apenas com ajuste de prioridade
Pode ser hardware novo (Groq, Cerebras etc.). O fato de estar disponível só em algumas nuvens sugere essa possibilidade
Também fico pensando se, no futuro, os provedores de LLM vão precificar separando “velocidade vs inteligência”
Aumentar o lote amplia o paralelismo, mas reduz a velocidade de cada requisição individual.
No gráfico InferenceMAX™ da SemiAnalysis, existe uma curva de Pareto entre throughput por GPU e velocidade de tokens
Ao ver o post “Claude criou um compilador C”, fiquei curioso sobre a velocidade de inferência interna em labs como Anthropic e OpenAI
Quanto mais rápida a inferência, mais vantagem se tem para dominar o mercado de software
Se a Anthropic anunciou velocidade 2,5x maior, talvez internamente já use um modo 5~10x mais rápido
Num futuro em que agentes negociem entre si, o poder computacional mais rápido será o vencedor
Alguns servidores podem ter sacrificado throughput total para aumentar a velocidade de requisições individuais.
Talvez ele já esteja rodando em uma nova geração de hardware
Na prática, o mais realista é que tenham obtido ganho de 2,5x via paralelização
"Qual seria uma boa próxima tarefa?"
Parece que foi adicionada uma cobrança extra de US$ 3,46 de uma vez, e pelo visto o modelo de assinatura não cobre isso.
Acho que aquele crédito de US$ 50 que deram um tempo atrás talvez tenha sido para fazer a gente testar isso kkkkk
Agora a IA está indo cada vez mais para algo que só os ricos usam ...