1 pontos por GN⁺ 2026-03-14 | 1 comentários | Compartilhar no WhatsApp
  • Claude Opus 4.6 e Sonnet 4.6 agora oferecem janela de contexto de 1 milhão de tokens (1M) na tarifa padrão, permitindo usar toda a capacidade sem premium adicional
  • Os preços permanecem os mesmos, com Opus 4.6 a $5/$25 e Sonnet 4.6 a $3/$15 (entrada/saída), cobrando na mesma proporção tanto para requisições de 9K quanto de 900K
  • Limite de entrada de mídia 6x maior, permitindo processar até 600 imagens ou páginas de PDF de uma vez, com disponibilidade imediata também no Azure Foundry e Google Vertex AI
  • Usuários Max, Team e Enterprise do Claude Code podem usar automaticamente o contexto de 1M, reduzindo a compactação de sessão e melhorando a retenção da conversa
  • É avaliado como um recurso que mantém contextos longos e complexos com mais precisão e eficiência, em casos como grandes bases de código, contratos e logs operacionais

Visão geral da disponibilidade geral do contexto de 1M

  • Opus 4.6 e Sonnet 4.6 passam a oferecer janela de contexto de 1M no Claude Platform com tarifa padrão
    • Opus 4.6 custa $5 por milhão de tokens de entrada / $25 de saída, e Sonnet 4.6 $3/$15
    • Não há diferenciação de tarifa com base no tamanho da requisição
  • Fim do premium para contexto longo, com mesma taxa de processamento em qualquer comprimento de contexto
  • Limite de entrada de mídia 6x maior: suporte a até 600 imagens ou páginas de PDF
  • Sem necessidade de header beta, com tratamento automático de requisições acima de 200K tokens

Integração com o Claude Code

  • O contexto de 1M é ativado automaticamente ao usar o Opus 4.6 nos planos Max, Team e Enterprise do Claude Code
    • Redução da compactação (compaction) da conversa dentro da sessão
    • Antes exigia uso adicional, mas agora está incluído por padrão

Desempenho e precisão do modelo

  • O Opus 4.6 alcança 78,3% no MRCR v2, o melhor desempenho entre modelos com o mesmo comprimento de contexto
  • Mesmo com contexto de 1M, mantém a precisão e melhora a recuperação em textos longos
  • Pode processar mantendo todo o contexto intacto em grandes bases de código, contratos e logs de agentes de longa duração
    • Mantém toda a conversa sem necessidade de resumo ou reinicialização de contexto

Casos de uso reais

  • Pesquisa científica: integração e análise de centenas de artigos, frameworks matemáticos e código de simulação de uma só vez (Alex Wissner-Gross)
  • Trabalho jurídico: comparação de várias versões de um contrato de 100 páginas em uma única sessão (Bardia Pourvakil)
  • Análise de sistemas operacionais: manutenção de todos os sinais e hipóteses visíveis durante resposta a incidentes (Mayank Agarwal)
  • Pesquisa em AI e revisão de código: processamento de grandes arquivos de diff de uma vez para melhorar a qualidade (Adhyyan Sekhsaria)
  • Análise de dados e depuração: preservação dos detalhes sem perda ao pesquisar Datadog, banco de dados e código-fonte (Anton Biryukov)
  • Melhoria da eficiência de agentes: redução de 15% nos eventos de compactação de contexto e preservação das informações iniciais em sessões longas (Jon Bell)

Plataformas disponíveis e como começar

  • O contexto de 1M está disponível imediatamente em Claude Platform, Amazon Bedrock, Google Cloud Vertex AI e Microsoft Foundry
  • Usuários Claude Code Max, Team e Enterprise com base no Opus 4.6 têm contexto de 1M aplicado por padrão
  • Mais detalhes podem ser consultados na documentação oficial e na página de pricing

1 comentários

 
GN⁺ 2026-03-14
Comentários do Hacker News
  • O Opus 4.6 está realmente em um nível impressionante
    Lida bem com qualquer tarefa que eu jogue nele, seja frontend, backend ou algoritmos
    Se começar com um PRD, montar um plano por etapas e executar uma por uma, em poucas horas sai um resultado real funcionando
    Foi a primeira IA que me fez pensar: “isso parece mais inteligente do que eu”
    Além disso, com a tecnologia atual já dá para rodar vários agentes ao mesmo tempo a 1k tokens por segundo

    • Eu queria ter uma experiência assim também
      Pedi ao Claude Code com Opus 4.6 para refatorar código React, trocando useState/useEffect → useMemo
      O plano era excelente, mas em parte do código ele colocou declarações de variável no lugar errado, gerando referências undefined
      Quando tentei corrigir, ele quis mudar demais a estrutura, então no fim arrumei manualmente
      Ainda assim, no geral economizou tempo, mas foi uma experiência bem irritante
    • Fiquei curioso sobre o que você está construindo
      Eu tentei criar um test harness para ferramenta de diff de banco de dados com Opus 4.6, mas ele gerou testes para uma ferramenta antiga e sem relação
      O código de teste nem chamava as funções reais e implementava a lógica diretamente
      Só depois de gastar 4 horas e US$ 75 consegui algo que pelo menos rodava, mas a qualidade era ruim
      Na empresa também mandaram aumentar o orçamento de uso do Claude, mas todo mundo está passando por dificuldades parecidas
      No momento, usar para edições pontuais ou depuração no VS Studio é muito mais eficiente
    • Já fiquei preso num loop de IA uma vez
      Era um problema de cálculo de acúmulo de sedimentos em um tanque de terreno, e o Opus continuava repetindo três explicações contraditórias
      Mesmo após três tentativas, ele caía no mesmo loop, então no fim resolvi à força com uma abordagem brute force
      Um humano provavelmente não cairia nesse tipo de loop já na segunda tentativa
    • Para mim, o Opus 4.6 já está em nível AGI
      Ele não apenas segue instruções, como também propõe sozinho ideias de melhoria que eu não pedi
  • O ponto principal desta atualização é a cobrança padrão para toda a janela de 1M de tokens e o suporte a 600 imagens/páginas de PDF
    Para usuários do Claude Code, isso é uma grande mudança

    • Tenho dúvidas se usar a janela de 1M totalmente cheia é realmente útil
      Para mim, como no estudo do Dex Horthy, manter abaixo de 40% (cerca de 80k tokens) foi mais estável
      Aliás, o vídeo “No vibes allowed” está aqui
    • Na empresa estamos usando de fato a janela de 1M no trabalho real
      Até 700k tokens estava tudo bem, mas acima disso começou a dar uma sensação de ficar mais lerdo aos poucos
      Usar em modo pair programming é mais estável do que automação total
    • Quanto maior o contexto, maior o custo dos tokens de entrada
      800k de entrada custa 8 vezes mais que 100k, então, sem cache batendo, isso pode virar uma explosão na fatura da API
    • Alguém fez a piada: “então uma imagem vale 1.666 palavras?”
    • No meu caso, com janela de 1M a qualidade de código cai drasticamente
      Ele frequentemente esquece o contexto durante a conversa
  • Alguém comentou que é melhor escrever o código diretamente

  • Minha carreira migrou de Python para C/C++
    Em Python, o Opus às vezes é melhor do que eu, mas em embarcados ainda está em nível júnior
    Acho que no fim é um problema de qualidade dos dados de treinamento
    Então não vejo LLMs substituindo engenheiros de hardware tão cedo

  • Criei checks de CI para evitar o problema de thrashing em código gerado por IA
    Muitas vezes o agente tenta corrigir falhas de teste repetidamente e acaba inserindo imports fantasmas ou APIs deprecated
    Então em cada PR eu rodo um scan leve para detectar pacotes npm inexistentes ou desvio de contexto
    A análise estática tradicional só olha a sintaxe, mas código feito por IA muitas vezes está semanticamente errado
    Acho que esse tipo de validação baseada em conhecimento de domínio vai ser essencial daqui para frente

  • Houve uma pergunta sobre por que o desempenho cai perto de 100k tokens
    Muita gente acha que o contexto realmente utilizável é menor

    • No Opus 4.6 eu quase não senti essa queda de desempenho
      Talvez seja só uma impressão causada por experiências antigas
    • Pela minha experiência, a context rot continua existindo
      Se você usa 90k tokens, tanto faz ser 100k ou 1M, fica ruim de forma parecida
      Em codebases grandes, a qualidade do prompt é o fator principal
    • Acho que o gráfico de benchmark já é a própria resposta
    • Como a complexidade de atenção (attention) do Transformer cresce quadraticamente com o tamanho do contexto,
      para processar 1M de tokens é preciso usar várias técnicas de aproximação, e isso pode ser a causa da perda de desempenho
  • No Claude Code 2.1.75, a distinção entre Opus padrão e Opus 1M desapareceu
    No plano Pro também parece assim, mas na prática ainda existem limitações
    Provavelmente é uma estratégia da Anthropic para responder à disputa com a janela de 1M do GPT 5.4

    • No Max 20x ele ainda existe como modelo separado
    • No Pro, o contexto de 1M ainda tem custo extra
  • A política de preços do Claude é estranha
    O plano 5X custa exatamente 5 vezes o plano anterior
    Normalmente há desconto por volume, mas aqui não tem

    • A Anthropic já está com a demanda acima da oferta, então não precisa incentivar mais uso
      Pelo visto, eles acham melhor cinco pessoas usarem do que uma única pessoa usar 5 vezes mais
    • O plano 5X serve mais como isca, e a estratégia real é vender o plano 20x
    • Alguém fez a piada: “depois a gente compensa no volume”
    • Também houve a opinião de que os dois planos ainda são bons negócios subsidiados
  • Testei hoje e realmente foi uma mudança interessante
    Agora dá para colocar várias sessões paralelas de subagentes dentro de uma única sessão mestre
    Dizem que o Opus 1M equivale a algo como os 256k do GPT 5.4, mas quase sem perda de qualidade
    Pelo menos não cai de forma brusca como os modelos de q4 ’25

    • Eu usava bastante o Sonnet 4.5 1M, e o desempenho foi parecido, mas a velocidade era muito maior
      Talvez porque ele usava os tokens de forma mais agressiva, sem economizar
    • Também houve um comentário perguntando se o pagamento era pessoal ou da empresa
      A empresa disse que só oferece suporte ao GitHub Copilot
  • Houve uma pergunta sobre sessões longas consumirem rápido o orçamento de tokens
    Isso acontece porque, quanto mais longa a conversa, mais o contexto anterior precisa ser reenviado continuamente

    • Sim. Mesmo com cache, 800k tokens dá algo em torno de US$ 0,40 por requisição, então acumula rápido
      Se houver muitas chamadas de ferramenta, isso pode ser cobrado várias vezes por minuto
    • Se você usar bem o context caching, dá para reduzir bastante o custo
      É possível fazer cache de até 900k tokens