Opus 4.6 e Sonnet 4.6 passam a oferecer contexto de 1M em disponibilidade geral

(claude.com)

1 pontos por GN⁺ 2026-03-14 | 1 comentários | Compartilhar no WhatsApp

Claude Opus 4.6 e Sonnet 4.6 agora oferecem janela de contexto de 1 milhão de tokens (1M) na tarifa padrão, permitindo usar toda a capacidade sem premium adicional
Os preços permanecem os mesmos, com Opus 4.6 a $5/$25 e Sonnet 4.6 a $3/$15 (entrada/saída), cobrando na mesma proporção tanto para requisições de 9K quanto de 900K
Limite de entrada de mídia 6x maior, permitindo processar até 600 imagens ou páginas de PDF de uma vez, com disponibilidade imediata também no Azure Foundry e Google Vertex AI
Usuários Max, Team e Enterprise do Claude Code podem usar automaticamente o contexto de 1M, reduzindo a compactação de sessão e melhorando a retenção da conversa
É avaliado como um recurso que mantém contextos longos e complexos com mais precisão e eficiência, em casos como grandes bases de código, contratos e logs operacionais

Visão geral da disponibilidade geral do contexto de 1M

Opus 4.6 e Sonnet 4.6 passam a oferecer janela de contexto de 1M no Claude Platform com tarifa padrão
- Opus 4.6 custa $5 por milhão de tokens de entrada / $25 de saída, e Sonnet 4.6 $3/$15
- Não há diferenciação de tarifa com base no tamanho da requisição
Fim do premium para contexto longo, com mesma taxa de processamento em qualquer comprimento de contexto
Limite de entrada de mídia 6x maior: suporte a até 600 imagens ou páginas de PDF
Sem necessidade de header beta, com tratamento automático de requisições acima de 200K tokens

Integração com o Claude Code

O contexto de 1M é ativado automaticamente ao usar o Opus 4.6 nos planos Max, Team e Enterprise do Claude Code
- Redução da compactação (compaction) da conversa dentro da sessão
- Antes exigia uso adicional, mas agora está incluído por padrão

Desempenho e precisão do modelo

O Opus 4.6 alcança 78,3% no MRCR v2, o melhor desempenho entre modelos com o mesmo comprimento de contexto
Mesmo com contexto de 1M, mantém a precisão e melhora a recuperação em textos longos
Pode processar mantendo todo o contexto intacto em grandes bases de código, contratos e logs de agentes de longa duração
- Mantém toda a conversa sem necessidade de resumo ou reinicialização de contexto

Casos de uso reais

Pesquisa científica: integração e análise de centenas de artigos, frameworks matemáticos e código de simulação de uma só vez (Alex Wissner-Gross)
Trabalho jurídico: comparação de várias versões de um contrato de 100 páginas em uma única sessão (Bardia Pourvakil)
Análise de sistemas operacionais: manutenção de todos os sinais e hipóteses visíveis durante resposta a incidentes (Mayank Agarwal)
Pesquisa em AI e revisão de código: processamento de grandes arquivos de diff de uma vez para melhorar a qualidade (Adhyyan Sekhsaria)
Análise de dados e depuração: preservação dos detalhes sem perda ao pesquisar Datadog, banco de dados e código-fonte (Anton Biryukov)
Melhoria da eficiência de agentes: redução de 15% nos eventos de compactação de contexto e preservação das informações iniciais em sessões longas (Jon Bell)

Plataformas disponíveis e como começar

O contexto de 1M está disponível imediatamente em Claude Platform, Amazon Bedrock, Google Cloud Vertex AI e Microsoft Foundry
Usuários Claude Code Max, Team e Enterprise com base no Opus 4.6 têm contexto de 1M aplicado por padrão
Mais detalhes podem ser consultados na documentação oficial e na página de pricing

1 comentários

GN⁺ 2026-03-14

Comentários do Hacker News

O Opus 4.6 está realmente em um nível impressionante
Lida bem com qualquer tarefa que eu jogue nele, seja frontend, backend ou algoritmos
Se começar com um PRD, montar um plano por etapas e executar uma por uma, em poucas horas sai um resultado real funcionando
Foi a primeira IA que me fez pensar: “isso parece mais inteligente do que eu”
Além disso, com a tecnologia atual já dá para rodar vários agentes ao mesmo tempo a 1k tokens por segundo
- Eu queria ter uma experiência assim também
  Pedi ao Claude Code com Opus 4.6 para refatorar código React, trocando useState/useEffect → useMemo
  O plano era excelente, mas em parte do código ele colocou declarações de variável no lugar errado, gerando referências undefined
  Quando tentei corrigir, ele quis mudar demais a estrutura, então no fim arrumei manualmente
  Ainda assim, no geral economizou tempo, mas foi uma experiência bem irritante
- Fiquei curioso sobre o que você está construindo
  Eu tentei criar um test harness para ferramenta de diff de banco de dados com Opus 4.6, mas ele gerou testes para uma ferramenta antiga e sem relação
  O código de teste nem chamava as funções reais e implementava a lógica diretamente
  Só depois de gastar 4 horas e US$ 75 consegui algo que pelo menos rodava, mas a qualidade era ruim
  Na empresa também mandaram aumentar o orçamento de uso do Claude, mas todo mundo está passando por dificuldades parecidas
  No momento, usar para edições pontuais ou depuração no VS Studio é muito mais eficiente
- Já fiquei preso num loop de IA uma vez
  Era um problema de cálculo de acúmulo de sedimentos em um tanque de terreno, e o Opus continuava repetindo três explicações contraditórias
  Mesmo após três tentativas, ele caía no mesmo loop, então no fim resolvi à força com uma abordagem brute force
  Um humano provavelmente não cairia nesse tipo de loop já na segunda tentativa
- Para mim, o Opus 4.6 já está em nível AGI
  Ele não apenas segue instruções, como também propõe sozinho ideias de melhoria que eu não pedi
O ponto principal desta atualização é a cobrança padrão para toda a janela de 1M de tokens e o suporte a 600 imagens/páginas de PDF
Para usuários do Claude Code, isso é uma grande mudança
- Tenho dúvidas se usar a janela de 1M totalmente cheia é realmente útil
  Para mim, como no estudo do Dex Horthy, manter abaixo de 40% (cerca de 80k tokens) foi mais estável
  Aliás, o vídeo “No vibes allowed” está aqui
- Na empresa estamos usando de fato a janela de 1M no trabalho real
  Até 700k tokens estava tudo bem, mas acima disso começou a dar uma sensação de ficar mais lerdo aos poucos
  Usar em modo pair programming é mais estável do que automação total
- Quanto maior o contexto, maior o custo dos tokens de entrada
  800k de entrada custa 8 vezes mais que 100k, então, sem cache batendo, isso pode virar uma explosão na fatura da API
- Alguém fez a piada: “então uma imagem vale 1.666 palavras?”
- No meu caso, com janela de 1M a qualidade de código cai drasticamente
  Ele frequentemente esquece o contexto durante a conversa
Alguém comentou que é melhor escrever o código diretamente
Minha carreira migrou de Python para C/C++
Em Python, o Opus às vezes é melhor do que eu, mas em embarcados ainda está em nível júnior
Acho que no fim é um problema de qualidade dos dados de treinamento
Então não vejo LLMs substituindo engenheiros de hardware tão cedo
Criei checks de CI para evitar o problema de thrashing em código gerado por IA
Muitas vezes o agente tenta corrigir falhas de teste repetidamente e acaba inserindo imports fantasmas ou APIs deprecated
Então em cada PR eu rodo um scan leve para detectar pacotes npm inexistentes ou desvio de contexto
A análise estática tradicional só olha a sintaxe, mas código feito por IA muitas vezes está semanticamente errado
Acho que esse tipo de validação baseada em conhecimento de domínio vai ser essencial daqui para frente
Houve uma pergunta sobre por que o desempenho cai perto de 100k tokens
Muita gente acha que o contexto realmente utilizável é menor
- No Opus 4.6 eu quase não senti essa queda de desempenho
  Talvez seja só uma impressão causada por experiências antigas
- Pela minha experiência, a context rot continua existindo
  Se você usa 90k tokens, tanto faz ser 100k ou 1M, fica ruim de forma parecida
  Em codebases grandes, a qualidade do prompt é o fator principal
- Acho que o gráfico de benchmark já é a própria resposta
- Como a complexidade de atenção (attention) do Transformer cresce quadraticamente com o tamanho do contexto,
  para processar 1M de tokens é preciso usar várias técnicas de aproximação, e isso pode ser a causa da perda de desempenho
No Claude Code 2.1.75, a distinção entre Opus padrão e Opus 1M desapareceu
No plano Pro também parece assim, mas na prática ainda existem limitações
Provavelmente é uma estratégia da Anthropic para responder à disputa com a janela de 1M do GPT 5.4
- No Max 20x ele ainda existe como modelo separado
- No Pro, o contexto de 1M ainda tem custo extra
A política de preços do Claude é estranha
O plano 5X custa exatamente 5 vezes o plano anterior
Normalmente há desconto por volume, mas aqui não tem
- A Anthropic já está com a demanda acima da oferta, então não precisa incentivar mais uso
  Pelo visto, eles acham melhor cinco pessoas usarem do que uma única pessoa usar 5 vezes mais
- O plano 5X serve mais como isca, e a estratégia real é vender o plano 20x
- Alguém fez a piada: “depois a gente compensa no volume”
- Também houve a opinião de que os dois planos ainda são bons negócios subsidiados
Testei hoje e realmente foi uma mudança interessante
Agora dá para colocar várias sessões paralelas de subagentes dentro de uma única sessão mestre
Dizem que o Opus 1M equivale a algo como os 256k do GPT 5.4, mas quase sem perda de qualidade
Pelo menos não cai de forma brusca como os modelos de q4 ’25
- Eu usava bastante o Sonnet 4.5 1M, e o desempenho foi parecido, mas a velocidade era muito maior
  Talvez porque ele usava os tokens de forma mais agressiva, sem economizar
- Também houve um comentário perguntando se o pagamento era pessoal ou da empresa
  A empresa disse que só oferece suporte ao GitHub Copilot
Houve uma pergunta sobre sessões longas consumirem rápido o orçamento de tokens
Isso acontece porque, quanto mais longa a conversa, mais o contexto anterior precisa ser reenviado continuamente
- Sim. Mesmo com cache, 800k tokens dá algo em torno de US$ 0,40 por requisição, então acumula rápido
  Se houver muitas chamadas de ferramenta, isso pode ser cobrado várias vezes por minuto
- Se você usar bem o context caching, dá para reduzir bastante o custo
  É possível fazer cache de até 900k tokens

Opus 4.6 e Sonnet 4.6 passam a oferecer contexto de 1M em disponibilidade geral

Visão geral da disponibilidade geral do contexto de 1M

Integração com o Claude Code

Desempenho e precisão do modelo

Casos de uso reais

Plataformas disponíveis e como começar

Leituras relacionadas

1 comentários

Comentários do Hacker News