- Claude Opus 4.6 e Sonnet 4.6 agora oferecem janela de contexto de 1 milhão de tokens (1M) na tarifa padrão, permitindo usar toda a capacidade sem premium adicional
- Os preços permanecem os mesmos, com Opus 4.6 a $5/$25 e Sonnet 4.6 a $3/$15 (entrada/saída), cobrando na mesma proporção tanto para requisições de 9K quanto de 900K
- Limite de entrada de mídia 6x maior, permitindo processar até 600 imagens ou páginas de PDF de uma vez, com disponibilidade imediata também no Azure Foundry e Google Vertex AI
- Usuários Max, Team e Enterprise do Claude Code podem usar automaticamente o contexto de 1M, reduzindo a compactação de sessão e melhorando a retenção da conversa
- É avaliado como um recurso que mantém contextos longos e complexos com mais precisão e eficiência, em casos como grandes bases de código, contratos e logs operacionais
Visão geral da disponibilidade geral do contexto de 1M
- Opus 4.6 e Sonnet 4.6 passam a oferecer janela de contexto de 1M no Claude Platform com tarifa padrão
- Opus 4.6 custa $5 por milhão de tokens de entrada / $25 de saída, e Sonnet 4.6 $3/$15
- Não há diferenciação de tarifa com base no tamanho da requisição
- Fim do premium para contexto longo, com mesma taxa de processamento em qualquer comprimento de contexto
- Limite de entrada de mídia 6x maior: suporte a até 600 imagens ou páginas de PDF
- Sem necessidade de header beta, com tratamento automático de requisições acima de 200K tokens
Integração com o Claude Code
- O contexto de 1M é ativado automaticamente ao usar o Opus 4.6 nos planos Max, Team e Enterprise do Claude Code
- Redução da compactação (
compaction) da conversa dentro da sessão
- Antes exigia uso adicional, mas agora está incluído por padrão
Desempenho e precisão do modelo
- O Opus 4.6 alcança 78,3% no MRCR v2, o melhor desempenho entre modelos com o mesmo comprimento de contexto
- Mesmo com contexto de 1M, mantém a precisão e melhora a recuperação em textos longos
- Pode processar mantendo todo o contexto intacto em grandes bases de código, contratos e logs de agentes de longa duração
- Mantém toda a conversa sem necessidade de resumo ou reinicialização de contexto
Casos de uso reais
- Pesquisa científica: integração e análise de centenas de artigos, frameworks matemáticos e código de simulação de uma só vez (Alex Wissner-Gross)
- Trabalho jurídico: comparação de várias versões de um contrato de 100 páginas em uma única sessão (Bardia Pourvakil)
- Análise de sistemas operacionais: manutenção de todos os sinais e hipóteses visíveis durante resposta a incidentes (Mayank Agarwal)
- Pesquisa em AI e revisão de código: processamento de grandes arquivos de diff de uma vez para melhorar a qualidade (Adhyyan Sekhsaria)
- Análise de dados e depuração: preservação dos detalhes sem perda ao pesquisar Datadog, banco de dados e código-fonte (Anton Biryukov)
- Melhoria da eficiência de agentes: redução de 15% nos eventos de compactação de contexto e preservação das informações iniciais em sessões longas (Jon Bell)
Plataformas disponíveis e como começar
- O contexto de 1M está disponível imediatamente em Claude Platform, Amazon Bedrock, Google Cloud Vertex AI e Microsoft Foundry
- Usuários Claude Code Max, Team e Enterprise com base no Opus 4.6 têm contexto de 1M aplicado por padrão
- Mais detalhes podem ser consultados na documentação oficial e na página de pricing
1 comentários
Comentários do Hacker News
O Opus 4.6 está realmente em um nível impressionante
Lida bem com qualquer tarefa que eu jogue nele, seja frontend, backend ou algoritmos
Se começar com um PRD, montar um plano por etapas e executar uma por uma, em poucas horas sai um resultado real funcionando
Foi a primeira IA que me fez pensar: “isso parece mais inteligente do que eu”
Além disso, com a tecnologia atual já dá para rodar vários agentes ao mesmo tempo a 1k tokens por segundo
Pedi ao Claude Code com Opus 4.6 para refatorar código React, trocando useState/useEffect → useMemo
O plano era excelente, mas em parte do código ele colocou declarações de variável no lugar errado, gerando referências undefined
Quando tentei corrigir, ele quis mudar demais a estrutura, então no fim arrumei manualmente
Ainda assim, no geral economizou tempo, mas foi uma experiência bem irritante
Eu tentei criar um test harness para ferramenta de diff de banco de dados com Opus 4.6, mas ele gerou testes para uma ferramenta antiga e sem relação
O código de teste nem chamava as funções reais e implementava a lógica diretamente
Só depois de gastar 4 horas e US$ 75 consegui algo que pelo menos rodava, mas a qualidade era ruim
Na empresa também mandaram aumentar o orçamento de uso do Claude, mas todo mundo está passando por dificuldades parecidas
No momento, usar para edições pontuais ou depuração no VS Studio é muito mais eficiente
Era um problema de cálculo de acúmulo de sedimentos em um tanque de terreno, e o Opus continuava repetindo três explicações contraditórias
Mesmo após três tentativas, ele caía no mesmo loop, então no fim resolvi à força com uma abordagem brute force
Um humano provavelmente não cairia nesse tipo de loop já na segunda tentativa
Ele não apenas segue instruções, como também propõe sozinho ideias de melhoria que eu não pedi
O ponto principal desta atualização é a cobrança padrão para toda a janela de 1M de tokens e o suporte a 600 imagens/páginas de PDF
Para usuários do Claude Code, isso é uma grande mudança
Para mim, como no estudo do Dex Horthy, manter abaixo de 40% (cerca de 80k tokens) foi mais estável
Aliás, o vídeo “No vibes allowed” está aqui
Até 700k tokens estava tudo bem, mas acima disso começou a dar uma sensação de ficar mais lerdo aos poucos
Usar em modo pair programming é mais estável do que automação total
800k de entrada custa 8 vezes mais que 100k, então, sem cache batendo, isso pode virar uma explosão na fatura da API
Ele frequentemente esquece o contexto durante a conversa
Alguém comentou que é melhor escrever o código diretamente
Minha carreira migrou de Python para C/C++
Em Python, o Opus às vezes é melhor do que eu, mas em embarcados ainda está em nível júnior
Acho que no fim é um problema de qualidade dos dados de treinamento
Então não vejo LLMs substituindo engenheiros de hardware tão cedo
Criei checks de CI para evitar o problema de thrashing em código gerado por IA
Muitas vezes o agente tenta corrigir falhas de teste repetidamente e acaba inserindo imports fantasmas ou APIs deprecated
Então em cada PR eu rodo um scan leve para detectar pacotes npm inexistentes ou desvio de contexto
A análise estática tradicional só olha a sintaxe, mas código feito por IA muitas vezes está semanticamente errado
Acho que esse tipo de validação baseada em conhecimento de domínio vai ser essencial daqui para frente
Houve uma pergunta sobre por que o desempenho cai perto de 100k tokens
Muita gente acha que o contexto realmente utilizável é menor
Talvez seja só uma impressão causada por experiências antigas
Se você usa 90k tokens, tanto faz ser 100k ou 1M, fica ruim de forma parecida
Em codebases grandes, a qualidade do prompt é o fator principal
para processar 1M de tokens é preciso usar várias técnicas de aproximação, e isso pode ser a causa da perda de desempenho
No Claude Code 2.1.75, a distinção entre Opus padrão e Opus 1M desapareceu
No plano Pro também parece assim, mas na prática ainda existem limitações
Provavelmente é uma estratégia da Anthropic para responder à disputa com a janela de 1M do GPT 5.4
A política de preços do Claude é estranha
O plano 5X custa exatamente 5 vezes o plano anterior
Normalmente há desconto por volume, mas aqui não tem
Pelo visto, eles acham melhor cinco pessoas usarem do que uma única pessoa usar 5 vezes mais
Testei hoje e realmente foi uma mudança interessante
Agora dá para colocar várias sessões paralelas de subagentes dentro de uma única sessão mestre
Dizem que o Opus 1M equivale a algo como os 256k do GPT 5.4, mas quase sem perda de qualidade
Pelo menos não cai de forma brusca como os modelos de q4 ’25
Talvez porque ele usava os tokens de forma mais agressiva, sem economizar
A empresa disse que só oferece suporte ao GitHub Copilot
Houve uma pergunta sobre sessões longas consumirem rápido o orçamento de tokens
Isso acontece porque, quanto mais longa a conversa, mais o contexto anterior precisa ser reenviado continuamente
Se houver muitas chamadas de ferramenta, isso pode ser cobrado várias vezes por minuto
É possível fazer cache de até 900k tokens