13 pontos por xguru 2026-02-08 | 3 comentários | Compartilhar no WhatsApp
  • Usa o mesmo modelo Opus 4.6, mas altera a configuração da API para minimizar a latência
  • Otimizado para tarefas interativas sensíveis ao tempo, como iteração rápida e depuração ao vivo
  • No CLI ou na extensão do VS Code, digite /fast para ativar/desativar ou defina "fastMode": true no arquivo de configuração do usuário para manter sempre ativo
  • Quando ativado, muda automaticamente para o Opus 4.6, exibindo uma mensagem de status e o ícone
  • O Fast Mode tem preço por token mais alto que o Opus 4.6 padrão
    • Em contextos abaixo de 200K, aplica-se entrada a $30/MTok e saída a $150/MTok (o padrão é $5 de entrada e $25 de saída)
    • Em contextos acima de 200K, aplica-se entrada a $60/MTok e saída a $225/MTok (o padrão é $10 de entrada e $37.5 de saída)
    • Desconto de 50% aplicado até 16/2
  • Há um rate limit separado exclusivo do Fast Mode, e ao exceder o limite ou esgotar os créditos ocorre fallback automático para o modo padrão
  • O Fast Mode é oferecido como prévia de pesquisa, e seus recursos e preços podem mudar

3 comentários

 
GN⁺ 2026-02-09
Comentários no Hacker News
  • A velocidade ficou 2,5x maior, mas o preço é 6x maior
    É um prêmio bem caro. Em especial, o Gemini 3 Pro tem velocidade de tokens por segundo 1,8x maior que o Opus 4.6, mas custa cerca de 0,45x
    Porém, o desempenho em código é inferior, e o Gemini CLI ainda não tem a mesma capacidade de agente do Claude Code

    • Se custa 6x por token, então por segundo sai 15x mais caro. Além disso, isso é com base na API; os planos de assinatura são muito mais baratos
      No fim, é uma estrutura interessante para fazer grandes clientes (whales) gastarem dinheiro rapidamente
    • O Gemini é bem decente para trabalho de frontend
    • Em vez do Gemini CLI, também dá para usar o OpenCode
  • Seria bom ter um modo lento (slow-mode). Seria uma função para agendar execuções usando spot GPU de baixo custo
    Eu frequentemente rodo processos na hora do almoço ou antes de sair do trabalho, e não preciso que comecem imediatamente. Se puder rodar barato em GPUs ociosas, já é suficiente

    • A Batches API roda com 50% da tarifa da API padrão
    • A OpenAI também já ofereceu uma função semelhante de processamento em lote
    • Penso o mesmo. Seria ótimo poder rodar à noite com tarifa 50% menor. Só que isso ainda não está integrado ao Claude Code
    • O plano MAX já com desconto na prática funciona como um modo lento
    • Se o tempo não for sensível, uma alternativa é rodar com CPU/RAM em vez de GPU
  • Este modo não pode aproveitar a cota restante do plano de assinatura
    O uso do modo rápido é sempre cobrado separadamente e, independentemente dos tokens incluídos no plano, há cobrança extra desde o primeiro token
    No momento, há um evento de uso extra grátis de $50

    • No fim, quase não tem utilidade. Mesmo com Claude Max, durante TDD ainda é preciso gerenciar o consumo
      Pelo tool ccusage, com API pode chegar a $200 por dia. Com tarifa 6x, esses $50 somem em 20 minutos
  • Para mim, essa função provavelmente não será muito útil
    O gargalo não é o modelo, e sim a minha velocidade para entender o código gerado pelo LLM

    • Muita gente nem olha o código real com cuidado. O mundo de hoje é realmente curioso
    • Se a velocidade ficasse alta o bastante, eu usaria mais fazendo perguntas do que lendo o código, mas ainda não chegamos nesse ponto
    • Quem programa no “feeling” foca mais no resultado do que no entendimento
    • Se você montar bem um test harness e um processo de validação, dá para confiar sem inspecionar o código diretamente
  • Olhando o documento “como decidir quando usar o Fast mode”,

    • agentes de longa duração ou tarefas em background usam o modo normal
    • cenários com intervenção humana usam o modo rápido
      Parece que a intenção era essa distinção. Ainda assim, é discutível se a estrutura de preços faz sentido
    • A tarifa de API do Opus já é cara, então no fim ele deve continuar como um serviço de alto custo
      Quem prioriza custo-benefício provavelmente vai resolver isso com execução em paralelo
  • Meu fluxo de trabalho normal se divide em fase de planejamento e fase de implementação
    O modo rápido parece ser mais útil na fase de planejamento
    Além de “limpar o contexto e executar em modo rápido”,
    eu queria também uma opção de “limpar o contexto e executar em velocidade normal”
    Agentes exploratórios podem ser lentos, mas se for possível iterar o planejamento rapidamente, a eficiência melhora bastante

  • Na prática, uma conta Pro comum já é um modo lento
    Estou testando o Kimi2.5 CLI agora, e ele é rápido e ainda oferece uma interface web, então dá para usar remotamente mesmo em ambiente com VPN

  • Já dá para fazer um CNAME do Hacker News para um simples blog de marketing do Claude

    • Aí a gente perderia os posts de autopromoção do simonw
    • Na verdade há muito mais posts sobre OpenAI. Talvez fosse melhor renomear para AINews
  • Fico curioso sobre a causa desse ganho de velocidade. Parece difícil explicar isso apenas com ajuste de prioridade
    Pode ser hardware novo (Groq, Cerebras etc.). O fato de estar disponível só em algumas nuvens sugere essa possibilidade
    Também fico pensando se, no futuro, os provedores de LLM vão precificar separando “velocidade vs inteligência”

    • É uma forma de aumentar o processamento de tokens elevando o batching e o multistream na GPU
      Aumentar o lote amplia o paralelismo, mas reduz a velocidade de cada requisição individual.
      No gráfico InferenceMAX™ da SemiAnalysis, existe uma curva de Pareto entre throughput por GPU e velocidade de tokens
    • Além de upgrade de hardware ou ajuste de prioridade de tráfego, também dá para mexer em várias coisas, como reduzir a batch window ou manter o cache KV na GPU
    • Também pode ser simplesmente um modelo baseado em prioridade que fura a fila. É a forma mais fácil de ganhar mais dinheiro
    • Talvez isso tenha sido implementado primeiro para uso interno. Na prática seria só um ajuste de prioridade, mas eles podem ter suposto que não haveria muitos clientes externos
    • Ou talvez estejam usando GPUs novas como a Nvidia GB300 (Blackwell)
  • Ao ver o post “Claude criou um compilador C”, fiquei curioso sobre a velocidade de inferência interna em labs como Anthropic e OpenAI
    Quanto mais rápida a inferência, mais vantagem se tem para dominar o mercado de software
    Se a Anthropic anunciou velocidade 2,5x maior, talvez internamente já use um modo 5~10x mais rápido
    Num futuro em que agentes negociem entre si, o poder computacional mais rápido será o vencedor

    • A Anthropic disse que o modo 2,5x que já usava internamente foi lançado na API oficial
      Alguns servidores podem ter sacrificado throughput total para aumentar a velocidade de requisições individuais.
      Talvez ele já esteja rodando em uma nova geração de hardware
    • Não faz sentido dizer que estão “escondendo desempenho 10x”. Uma empresa SaaS competindo no mercado não tem essa folga
      Na prática, o mais realista é que tenham obtido ganho de 2,5x via paralelização
    • Também parece uma espécie de modelo de velocidade como refém, em que deixam a velocidade base artificialmente mais lenta para fazer as pessoas pagarem pelo modo rápido
 
kimjoin2 2026-02-09

"Qual seria uma boa próxima tarefa?"
Parece que foi adicionada uma cobrança extra de US$ 3,46 de uma vez, e pelo visto o modelo de assinatura não cobre isso.
Acho que aquele crédito de US$ 50 que deram um tempo atrás talvez tenha sido para fazer a gente testar isso kkkkk

 
elbum 2026-02-08

Agora a IA está indo cada vez mais para algo que só os ricos usam ...