Claude Opus 4.6 é lançado

(anthropic.com)

20 pontos por GN⁺ 2026-02-06 | 9 comentários | Compartilhar no WhatsApp

O mais recente modelo de IA da Anthropic, com capacidade de programação aprimorada e persistência em tarefas de longa duração, além de suporte beta para janela de contexto de 1M tokens
Registrou pontuações em nível de liderança do setor nos principais benchmarks, com vantagem de cerca de 144 pontos Elo sobre o GPT-5.2
O desempenho foi reforçado em tarefas práticas como revisão de código e depuração, processamento de grandes codebases e análise financeira e redação de documentos
Foram adicionados recursos de controle para desenvolvedores, como Adaptive thinking, context compaction e ajuste de effort, facilitando a operação de agentes de longa execução
Nas avaliações de segurança, também apresentou baixas taxas de erro, abuso e recusa excessiva, sendo avaliado como um modelo que alcança alto desempenho e segurança ao mesmo tempo

Principais melhorias do Claude Opus 4.6

O Opus 4.6 é um modelo com melhorias em capacidade de planejamento, persistência de agentes e controle de qualidade de código em relação à versão anterior
- Funciona com mais estabilidade em grandes codebases e teve reforço na capacidade de detectar e corrigir os próprios erros
- A janela de contexto de 1M tokens (beta) permite lidar com tarefas longas e complexas
A utilidade em tarefas do dia a dia também foi ampliada, permitindo executar diversos trabalhos como análise financeira, pesquisa, criação de documentos, planilhas e apresentações
No ambiente Cowork, é capaz de executar multitarefas de forma autônoma, processando trabalhos complexos no lugar do usuário

Benchmarks e avaliação de desempenho

Obteve a maior pontuação no Terminal-Bench 2.0 e liderou entre todos os modelos de fronteira no Humanity’s Last Exam
Na avaliação GDPval-AA, apresentou desempenho cerca de 144 pontos Elo acima do GPT-5.2 e 190 pontos acima do Opus 4.5
Também registrou o melhor desempenho no teste BrowseComp, com capacidade reforçada de busca de informações online
No MRCR v2 (1M variant), alcançou 76%, um grande salto em relação aos 18,5% do Sonnet 4.5
A retenção de contexto longo e a capacidade de rastrear informações foram melhoradas, reduzindo o fenômeno de context rot

Experiência inicial de uso e feedback de parceiros

Nos testes internos de engenharia, houve melhora em resolução de problemas complexos e capacidade de julgamento
- Em problemas difíceis, o modelo repete ciclos de raciocínio mais profundos para chegar a resultados melhores
- Em tarefas simples, pode haver atraso por excesso de reflexão, mas isso pode ser ajustado com o parâmetro /effort
Os parceiros iniciais avaliaram o Opus 4.6 como excelente em capacidade de execução autônoma, tratamento de solicitações complexas e suporte à colaboração em equipe
- Desempenho preciso em exploração de grandes codebases, execução paralela de subtarefas e identificação de bloqueios
- Alta precisão na análise de conteúdo jurídico, financeiro e técnico (ex.: BigLaw Bench 90,2%)
- Em testes reais, superou o Opus 4.5 em 38 de 40 investigações de cibersegurança
- Houve relato de um caso em que uma migração de código com milhões de linhas foi concluída em metade do tempo

Reforço de segurança e proteção

Em auditoria automatizada de comportamento, apresentou baixa proporção de comportamentos desalinhados, como engano, bajulação e cooperação em uso indevido
É o modelo Claude com a menor taxa de recusa excessiva (over-refusal)
Foram realizadas novas avaliações de segurança sobre bem-estar do usuário, recusa a solicitações de risco e detecção de comportamentos nocivos encobertos
Por meio de pesquisa em interpretabilidade, foram analisadas as causas do funcionamento interno do modelo e detectados problemas potenciais
Com o reforço das capacidades de cibersegurança, foram introduzidas seis novas sondas de segurança para fortalecer a detecção de abuso
Para uso defensivo, oferece suporte à detecção e correção de vulnerabilidades em open source, com plano futuro de bloquear abusos em tempo real

Atualizações de produto e API

Na Claude Developer Platform, foram adicionados os seguintes recursos
- Adaptive thinking: o modelo decide automaticamente, conforme a situação, se deve realizar raciocínio aprofundado
- Nível de effort: quatro níveis disponíveis — low, medium, high (padrão) e max
- Context compaction (beta): resume e substitui contexto antigo quando a conversa fica longa
- Suporte a contexto de 1M tokens (beta) e 128k tokens de saída
- Opção de US-only inference (tarifa 1,1x)
O Claude Code recebeu o recurso agent teams, permitindo colaboração paralela entre vários agentes
O Claude in Excel teve melhorias na estruturação de dados não estruturados e no tratamento de alterações em múltiplas etapas
O Claude in PowerPoint (prévia de pesquisa) reconhece templates de slides, fontes e layouts para manter consistência de marca

Acesso e preços

O Opus 4.6 está disponível imediatamente em claude.ai, API e nas principais plataformas de nuvem
O nome do modelo na API é claude-opus-4-6, e o preço permanece o mesmo: $5/$25 per million tokens
Para prompts acima de 200k tokens, aplica-se tarifa premium ($10/$37.50 per million tokens)

Conclusão

O Claude Opus 4.6 representa um grande salto em processamento de contexto de longa duração, trabalho autônomo de agentes e capacidade avançada de raciocínio
Como modelo com melhorias simultâneas em desempenho, segurança e controle para desenvolvedores, estabelece um novo padrão para ferramentas de IA voltadas ao trabalho real

9 comentários

heim2 2026-02-06

Uso o Max e, por algum motivo, quanto mais tokens eu gasto, mais satisfeito fico... se não uso, parece desperdício...

duse0001 2026-02-06

Parece que a redução de preço que estava circulando na internet não foi aplicada mesmo ;_;

wegaia 2026-02-06

Parece que no Reddit estão pipocando posts dizendo que os assinantes estão esgotando o limite na velocidade da luz.
Como também tenho coisas para tocar, acabei continuando a usar o 4.5 mesmo

xguru 2026-02-06

Parece que vão dar US$ 50 em créditos adicionais de uso por tempo limitado. haha

duse0001 2026-02-06

Eu esperava que, se o preço da API caísse, o limite semanal aumentaria naturalmente, então é uma pena. snif O limite semanal do plano de 200 dólares não é tão folgado assim..

princox 2026-02-06

Aff, está caro demais.. Anthropic, distribui uns tokens aí..!!

hmmhmmhm 2026-02-06

Uau, finalmente~~~~