- O mais recente modelo de IA da Anthropic, com capacidade de programação aprimorada e persistência em tarefas de longa duração, além de suporte beta para janela de contexto de 1M tokens
- Registrou pontuações em nível de liderança do setor nos principais benchmarks, com vantagem de cerca de 144 pontos Elo sobre o GPT-5.2
- O desempenho foi reforçado em tarefas práticas como revisão de código e depuração, processamento de grandes codebases e análise financeira e redação de documentos
- Foram adicionados recursos de controle para desenvolvedores, como Adaptive thinking, context compaction e ajuste de effort, facilitando a operação de agentes de longa execução
- Nas avaliações de segurança, também apresentou baixas taxas de erro, abuso e recusa excessiva, sendo avaliado como um modelo que alcança alto desempenho e segurança ao mesmo tempo
Principais melhorias do Claude Opus 4.6
- O Opus 4.6 é um modelo com melhorias em capacidade de planejamento, persistência de agentes e controle de qualidade de código em relação à versão anterior
- Funciona com mais estabilidade em grandes codebases e teve reforço na capacidade de detectar e corrigir os próprios erros
- A janela de contexto de 1M tokens (beta) permite lidar com tarefas longas e complexas
- A utilidade em tarefas do dia a dia também foi ampliada, permitindo executar diversos trabalhos como análise financeira, pesquisa, criação de documentos, planilhas e apresentações
- No ambiente Cowork, é capaz de executar multitarefas de forma autônoma, processando trabalhos complexos no lugar do usuário
Benchmarks e avaliação de desempenho
- Obteve a maior pontuação no Terminal-Bench 2.0 e liderou entre todos os modelos de fronteira no Humanity’s Last Exam
- Na avaliação GDPval-AA, apresentou desempenho cerca de 144 pontos Elo acima do GPT-5.2 e 190 pontos acima do Opus 4.5
- Também registrou o melhor desempenho no teste BrowseComp, com capacidade reforçada de busca de informações online
- No MRCR v2 (1M variant), alcançou 76%, um grande salto em relação aos 18,5% do Sonnet 4.5
- A retenção de contexto longo e a capacidade de rastrear informações foram melhoradas, reduzindo o fenômeno de context rot
Experiência inicial de uso e feedback de parceiros
- Nos testes internos de engenharia, houve melhora em resolução de problemas complexos e capacidade de julgamento
- Em problemas difíceis, o modelo repete ciclos de raciocínio mais profundos para chegar a resultados melhores
- Em tarefas simples, pode haver atraso por excesso de reflexão, mas isso pode ser ajustado com o parâmetro
/effort
- Os parceiros iniciais avaliaram o Opus 4.6 como excelente em capacidade de execução autônoma, tratamento de solicitações complexas e suporte à colaboração em equipe
- Desempenho preciso em exploração de grandes codebases, execução paralela de subtarefas e identificação de bloqueios
- Alta precisão na análise de conteúdo jurídico, financeiro e técnico (ex.: BigLaw Bench 90,2%)
- Em testes reais, superou o Opus 4.5 em 38 de 40 investigações de cibersegurança
- Houve relato de um caso em que uma migração de código com milhões de linhas foi concluída em metade do tempo
Reforço de segurança e proteção
- Em auditoria automatizada de comportamento, apresentou baixa proporção de comportamentos desalinhados, como engano, bajulação e cooperação em uso indevido
- É o modelo Claude com a menor taxa de recusa excessiva (over-refusal)
- Foram realizadas novas avaliações de segurança sobre bem-estar do usuário, recusa a solicitações de risco e detecção de comportamentos nocivos encobertos
- Por meio de pesquisa em interpretabilidade, foram analisadas as causas do funcionamento interno do modelo e detectados problemas potenciais
- Com o reforço das capacidades de cibersegurança, foram introduzidas seis novas sondas de segurança para fortalecer a detecção de abuso
- Para uso defensivo, oferece suporte à detecção e correção de vulnerabilidades em open source, com plano futuro de bloquear abusos em tempo real
Atualizações de produto e API
- Na Claude Developer Platform, foram adicionados os seguintes recursos
- Adaptive thinking: o modelo decide automaticamente, conforme a situação, se deve realizar raciocínio aprofundado
- Nível de effort: quatro níveis disponíveis — low, medium, high (padrão) e max
- Context compaction (beta): resume e substitui contexto antigo quando a conversa fica longa
- Suporte a contexto de 1M tokens (beta) e 128k tokens de saída
- Opção de US-only inference (tarifa 1,1x)
- O Claude Code recebeu o recurso agent teams, permitindo colaboração paralela entre vários agentes
- O Claude in Excel teve melhorias na estruturação de dados não estruturados e no tratamento de alterações em múltiplas etapas
- O Claude in PowerPoint (prévia de pesquisa) reconhece templates de slides, fontes e layouts para manter consistência de marca
Acesso e preços
- O Opus 4.6 está disponível imediatamente em claude.ai, API e nas principais plataformas de nuvem
- O nome do modelo na API é
claude-opus-4-6, e o preço permanece o mesmo: $5/$25 per million tokens
- Para prompts acima de 200k tokens, aplica-se tarifa premium ($10/$37.50 per million tokens)
Conclusão
- O Claude Opus 4.6 representa um grande salto em processamento de contexto de longa duração, trabalho autônomo de agentes e capacidade avançada de raciocínio
- Como modelo com melhorias simultâneas em desempenho, segurança e controle para desenvolvedores, estabelece um novo padrão para ferramentas de IA voltadas ao trabalho real
9 comentários
Uso o Max e, por algum motivo, quanto mais tokens eu gasto, mais satisfeito fico... se não uso, parece desperdício...
Parece que a redução de preço que estava circulando na internet não foi aplicada mesmo ;_;
Parece que no Reddit estão pipocando posts dizendo que os assinantes estão esgotando o limite na velocidade da luz.
Como também tenho coisas para tocar, acabei continuando a usar o 4.5 mesmo
Parece que vão dar US$ 50 em créditos adicionais de uso por tempo limitado. haha
Eu esperava que, se o preço da API caísse, o limite semanal aumentaria naturalmente, então é uma pena. snif O limite semanal do plano de 200 dólares não é tão folgado assim..
Aff, está caro demais.. Anthropic, distribui uns tokens aí..!!
Uau, finalmente~~~~
Eu estava esperando o Sonnet 5, mas era o Opus 4.6 haha
Comentários no Hacker News
O quadro da bicicleta está meio torto, mas o pelicano em si é excelente
A imagem pode ser vista aqui
Notei na hora que as duas pernas do pelicano estavam do mesmo lado, mas confirmei na Wikipedia que isso não acontece de verdade
Também queria saber se testaram ajustar o prompt repetidamente para obter um resultado mais realista
Frequentemente erram a estrutura do quadro ou as proporções geométricas
Link
O GPT‑5.3 Codex mostrou um desempenho dominante no Terminal Bench, com 77,3%
Impressiona que o recorde tenha sido quebrado em apenas 35 minutos
Será que logo após o lançamento eles rodam no máximo e depois reduzem para cortar custos?
Gostaria de testar por conta própria e depois trocar opiniões
Talvez os benchmarks já tenham chegado a um ponto de saturação
Este é um resumo das notas de lançamento do Claude Code
Inclui várias atualizações, como adição do Opus 4.6, colaboração multi-agent, registro automático de memória, resumo parcial de conversas e melhorias no VSCode
Pela documentação do recurso de memória, parece um conceito parecido com o artefato Knowledge do Google Antigravity
Acho que há duas coisas sendo confundidas na discussão
A primeira é a rentabilidade baseada no preço por token, e a segunda é a economia do ciclo de vida do modelo
O custo de inferência pode gerar lucro, mas o programa completo do modelo ainda pode operar no prejuízo
A verdadeira questão é: “por quanto tempo o modelo precisa permanecer competitivo para fechar a conta economicamente?”
Mesmo sem ser o melhor, se for bom o suficiente e o custo de migração for alto, ainda pode dominar o mercado
No início, pode fazer sentido absorver prejuízo para conquistar mercado em um domínio específico, como programação
Mas um plano em que o uso aumenta 20 vezes parece de sustentabilidade duvidosa
Não sei se o atual “renascimento do vibe-coding” consegue se manter com essa estrutura de custos
Ver isso apenas em balanços anuais não faz muito sentido para empresas de IA
É isso que hoje sustenta o boom da programação com agentes
Provavelmente há algum subsídio, mas no longo prazo o preço pode dobrar
A janela de contexto de 1M é uma melhoria enorme, e estou muito satisfeito
Ainda não entendo bem a estratégia da Anthropic
Faz marketing voltado ao grande público, mas seu ponto forte real é claramente programação
Para pesquisa geral ou busca de informação, ChatGPT e Gemini são muito mais profundos e se expressam melhor
Faz marketing de humanidade com coisas como “constituição” e “direitos humanos”, mas no fim parece o mais transacional de todos
Mesmo assim, é excelente para programar e continuo pagando por ele
Amigos não técnicos meus migraram do ChatGPT para o Claude e não vi ninguém voltar
Oito meses atrás ele só valia a pena via API, mas agora melhorou bastante
Sou usuário de tcheco, e o Claude inventa palavras, enquanto o Grok às vezes responde em russo
Para programação é bom, mas para conversa geral é inviável
É bom para tarefas agentic ou uso de ferramentas, mas eu não o uso para perguntas do dia a dia
O Opus 4.6 não aparecia na instalação, mas surgiu depois que executei o comando de instalação novamente (v2.1.32)
Guia de instalação
Fico curioso se o custo operacional de AI/LLM está realmente caindo
O conceito de “equipe de agentes” é legal, mas rodar vários modelos ao mesmo tempo parece caro demais para ser algo viável na prática
A OpenAI reduziu o preço do o3 para 1/5 com otimizações de engenharia, e outras empresas tiveram economias parecidas
A antiga ideia de que “perdem dinheiro em toda requisição” não corresponde aos fatos
A empresa como um todo dá prejuízo por causa de P&D e custos de treinamento, mas o uso da API em si dá lucro
Até modelos abertos como o DeepSeek conseguem lucrar com preços muito mais baixos
Por exemplo, o Claude 4 (cerca de 400B de parâmetros) é muito mais caro que o DeepSeek V3 (680B)
Claude: entrada a US$ 1/M e saída a US$ 5/M vs DeepSeek: entrada a US$ 0,4/M e saída a US$ 1,2/M
Essa diferença existe porque a Anthropic precisa recuperar o custo de treinamento
Preço do DeepSeek, Preço do Claude
Considerando só a receita de inferência, parece lucrativo, mas olhando o custo total talvez não seja
Eu uso como apoio para programação, mas ainda preciso corrigir a rota com frequência
Mesmo assim, sai muito mais barato do que contratar mão de obra qualificada
A frase “We build Claude with Claude” é bem interessante
Mesmo com limpeza automática após 60 dias de inatividade, esse número continua crescendo
Fora o fato de a frase revelar um certo viés, ela não significa muita coisa
Usar o próprio produto é uma das melhores formas de melhorar qualidade
Isso ajuda a explicar a explosão de wrappers atuais, e parece só questão de tempo até surgir algum incidente de segurança
Estão oferecendo mais US$ 50 em créditos para experimentar o Opus 4.6
Dá para resgatar direto na página de uso
Imagino que seja para incentivar mais uso de tokens ou promover o modelo