Claude Opus 4.7
(anthropic.com)- Desempenho avançado em engenharia de software foi aprimorado, permitindo lidar com tarefas complexas e de longa duração com alta consistência e precisão
- Reconhecimento visual e compreensão multimodal foram melhorados, tornando possível analisar informações visuais complexas, como imagens em alta resolução, diagramas técnicos e estruturas químicas
- Proteções de cibersegurança estão integradas para detectar e bloquear automaticamente solicitações de alto risco, e pesquisadores de segurança legítimos podem participar do Cyber Verification Program
- Novos recursos como controle de Effort, Task Budget e o comando ultrareview melhoram a eficiência em tarefas longas e a capacidade de validação da qualidade de código
- Melhoria de 13% no desempenho em relação ao Opus 4.6 e alta confiabilidade, enquanto a Anthropic se prepara para a liberação segura de modelos da classe Mythos com base nisso
Visão geral do Claude Opus 4.7
- Claude Opus 4.7 é um modelo com grande avanço em desempenho avançado de engenharia de software em comparação com o Opus 4.6, processando tarefas complexas e de longa duração com alta consistência e precisão
- Os usuários podem confiar e delegar tarefas de programação mais difíceis do que antes, e o modelo relata os resultados após fazer sua própria verificação
- A capacidade de reconhecimento visual foi reforçada, oferecendo alta qualidade e criatividade em imagens em alta resolução, interfaces, slides, documentos e mais
- Embora tenha capacidade geral inferior ao Claude Mythos Preview da Anthropic, registrou resultados melhores que o Opus 4.6 em diversos benchmarks
- Está disponível em toda a linha Claude e na API, Amazon Bedrock, Google Cloud Vertex AI e Microsoft Foundry, com o mesmo preço do Opus 4.6
Medidas relacionadas à cibersegurança
- A Anthropic, por meio do Project Glasswing, divulga os riscos e benefícios de cibersegurança da IA, restringe a divulgação do Mythos Preview e decidiu realizar primeiro experimentos de segurança em modelos menos poderosos
- O Opus 4.7 é o primeiro modelo desse esforço e inclui proteções que detectam e bloqueiam automaticamente solicitações de cibersegurança proibidas ou de alto risco
- Com base em dados de implantação no mundo real, a empresa está se preparando para uma divulgação mais ampla de futuros modelos da classe Mythos
- Pesquisadores de segurança legítimos (análise de vulnerabilidades, testes de intrusão, red team etc.) podem participar do Cyber Verification Program
Principais resultados de desempenho e feedback dos usuários
- Testes iniciais confirmaram a capacidade de detectar erros lógicos por conta própria e aumentar a velocidade de execução
- Mostra desempenho excelente em workflows assíncronos, CI/CD e automações de longa duração, indo além da simples concordância para oferecer abordagem profunda dos problemas e opiniões próprias
- Evita inferências incorretas quando faltam dados e não cai em armadilhas de dados inconsistentes
- Em 93 benchmarks de programação, houve melhoria de 13% em relação ao Opus 4.6, além da resolução de 4 tarefas que antes eram insolúveis
- Apresenta consistência de nível máximo em eficiência de tarefas multietapas; em módulos financeiros, obteve 0.813, superando o Opus 4.6 (0.767)
- A compreensão multimodal foi aprimorada, melhorando a interpretação de estruturas químicas e diagramas técnicos complexos
- A capacidade autônoma de realizar tarefas de longo prazo foi reforçada, permitindo resolver problemas de forma consistente ao longo de várias horas
- Empresas como Replit, Harvey, Hex, Notion, Databricks e Vercel relataram melhorias em qualidade de código, precisão na chamada de ferramentas e confiabilidade de workflows longos
- Como exemplo real, desenvolveu de forma totalmente autônoma um motor de síntese de voz em Rust e verificou por conta própria se ele correspondia ao modelo de referência em Python
Principais melhorias observadas nos testes iniciais
-
Precisão na interpretação de instruções
- O Opus 4.7 interpreta instruções de forma literal e as segue com muito mais rigor do que os modelos anteriores
- Prompts existentes podem gerar resultados inesperados, então pode ser necessário reajustá-los
-
Reforço no suporte multimodal
- Pode processar imagens com resolução de até 2.576 pixels (aprox. 3,75 MP)
- É adequado para tarefas que aproveitam informações visuais detalhadas, como análise de diagramas complexos e extração de dados com base em capturas de tela
-
Desempenho em trabalho real
- Em análise financeira, apresentações e modelagem, oferece maior especialização e consistência do que o Opus 4.6
- Na avaliação externa GDPval-AA, também alcançou nível máximo em áreas de trabalho do conhecimento, como finanças e direito
-
Uso de memória
- Usa de forma eficiente memória baseada em sistema de arquivos, lembrando e reutilizando o contexto de trabalho ao longo de várias sessões
Avaliação de segurança e alinhamento
- No geral, apresenta um perfil de segurança semelhante ao do Opus 4.6, com baixa incidência de problemas como engano, bajulação e cooperação com uso indevido
- Honestidade e resistência a injeção de prompts maliciosos melhoraram, mas houve leve enfraquecimento em algumas áreas (por exemplo, aconselhamento excessivo relacionado a drogas)
- A avaliação concluiu que ele é "em geral bem alinhado e confiável, mas não completamente ideal"
- O Mythos Preview continua sendo avaliado como o modelo mais bem alinhado
Recursos adicionais lançados
-
Controle de Effort reforçado
- Foi adicionado um novo nível
xhighentrehighemax, permitindo ajuste fino entre capacidade de raciocínio e latência - No Claude Code, o nível padrão de Effort foi elevado para
xhigh
- Foi adicionado um novo nível
-
Claude Platform (API)
- Com suporte a imagens em alta resolução, o recurso Task Budget foi disponibilizado em beta público, permitindo ajustar a prioridade de uso de tokens em tarefas longas
-
Claude Code
- O novo comando
/ultrareviewexecuta sessões de revisão de alterações de código e detecção de bugs - Usuários Pro e Max recebem 3 ultrareviews gratuitos
- O Auto Mode foi expandido para usuários Max, reduzindo etapas de aprovação durante tarefas longas e permitindo execução sem interrupções
- O novo comando
Migração do Opus 4.6 para o 4.7
- O Opus 4.7 permite upgrade direto, mas é preciso atenção a mudanças no uso de tokens
- Devido ao novo tokenizer, a mesma entrada pode ser convertida em cerca de 1,0 a 1,35 vez mais tokens
- Níveis mais altos de Effort realizam mais raciocínio, o que pode aumentar os tokens de saída
- É possível controlar o uso de tokens com o parâmetro Effort, o Task Budget e um design de prompt conciso
- Testes internos confirmaram melhorias de eficiência em todos os níveis de Effort
- Métodos detalhados de upgrade são fornecidos no Migration Guide
1 comentários
Comentários do Hacker News
Estou achando muito confuso esse novo conceito de adaptive thinking
Eu vinha escrevendo código com o antigo modo de budget / effort de thinking, mas agora funciona de um jeito completamente diferente
Mesmo olhando a documentação oficial, ainda não entendi direito
Além disso, no 4.7 ele não mostra por padrão um resumo de reasoning legível por humanos. É preciso adicionar manualmente a opção
"display": "summarized"Estou tentando rodar o projeto Pelican agora, mas continuo travando por causa desse novo modo de thinking
Veja a thread relacionada
Desativei o adaptive thinking e aumentei o effort, e voltou ao nível de antes
Mas dizer que “nas avaliações internas funciona bem” não basta. Muitos usuários estão relatando o mesmo problema
captura de tela
--thinking-display summarizedUsuários do VS Code podem criar um wrapper script com
exec "$@" --thinking-display summarizede colocá-lo na configuraçãoclaudeCode.claudeProcessWrapperpara voltar a ver o resumo de reasoningAntes, expor o CoT (Chain of Thought) dos LLMs era considerado essencial para segurança, mas parece que a direção mudou
O novo tokenizador do Opus 4.7 melhora a eficiência no processamento de texto, mas a entrada é mapeada para 1,0~1,35x mais tokens
Por isso, acho que a saída do projeto caveman acaba sendo mais legível
repositório do caveman
Como a maior parte do contexto vai para leitura de arquivos e reasoning, a economia real de tokens não chega nem a 1%. Na verdade, isso pode até confundir o modelo
app para Mac, versão CLI
Achei que palavras frequentes poderiam ser ruído, mas quase não houve diferença no resultado
Quero fazer um experimento comparativo com o caveman
Isso aconteceu porque o uso de reasoning tokens caiu. Mostra que agora já não faz sentido comparar custo de modelo apenas pelo preço por token
Ao ver o anúncio de que a Anthropic lançou o Opus 4.7 como um modelo com restrições de cibersegurança, senti que isso é uma estratégia fracassada
É contraditório censurar conhecimento de segurança e ao mesmo tempo querer desenvolver software seguro
A menos que todas as empresas de IA adotem a mesma política, isso nem terá efeito prático. No fim, parece uma abordagem que vai acabar sendo abandonada
Só que esse tipo de restrição caminha para centralizar a segurança, então é difícil ver isso como um avanço real
É como quando colocam alguém numa entrevista em frente a um quadro branco e o QI parece cair 10%; o modelo também fica retraído
Então parece que estão indo na direção de “torná-los seletivamente burros”. E parece que esse experimento já está acontecendo
Pelo fato de que o atacante só precisa ter sucesso uma vez, enquanto o defensor precisa ter sucesso sempre, isso pode comprar tempo
Na semana passada, por causa da queda de qualidade do 4.6, acabei migrando para o Codex
O 4.6 nem fazia busca na web e preencheu 17K tokens com bobagem. Também implementou de forma totalmente errada um exemplo de processamento paralelo
O uso de tokens explodiu de repente, e a resposta indiferente da equipe de suporte foi a gota d'água
Entendo bugs, mas a forma como trataram os clientes é difícil de aceitar
Depois que migrei para o Codex, pelo menos o trabalho anda, e isso já basta
O Codex dobrou os limites de uso para absorver clientes do Claude, e o PR também está muito melhor
Parece que 90% dos problemas do Claude vêm de falta de compute
A IA sempre precisa parecer “em progresso”; estagnação seria a morte do hype
Ele é rápido, mas não adianta entregar código de baixa qualidade mais rápido
O Gemini CLI era mais lento e também tinha qualidade pior
O Codex tem a tendência perigosa de bajular e dizer que está “perfeito” mesmo quando há bugs
Ele tem forte capacidade de execução, e a OpenAI deixa os resultados falarem por si, sem marketing
Passa uma sensação de competir pela qualidade do produto, como o Google no começo
O filtro de cibersegurança do Opus 4.7 ficou tão forte que bloqueia até pesquisa legítima
Mesmo buscando na web as diretrizes de um programa, a solicitação é barrada como “pedido perigoso”
Se continuar assim, vou migrar para o Codex
Como nesta orientação oficial, alguns acessos a recursos exigem um processo de verificação
Por causa disso, toda a minha pesquisa em andamento ficou bloqueada
Talvez o modelo tenha detectado na própria linha de reasoning alguma etapa que parecia “ofensiva”
Quando a caça a bugs avança para fases mais ofensivas, parece que o filtro entra em ação
Agora vivemos num mundo em que violação de política é o novo segfault
Basta conter certas palavras para haver reação exagerada
Agora parece que eu tenho que pedir permissão à IA para saber se meu projeto é malicioso ou não. Vou cancelar a assinatura
Esta thread é uma boa lição para fundadores
Ela mostra o quanto um pouco de comunicação honesta já consegue apaziguar muita insatisfação
Como alguém que deixou o app travado no Opus 4.5, agora já nem consigo distinguir se o problema é do modelo ou do harness
Às vezes foi só azar mesmo
Aí eu poderia ajustar meu horário de trabalho e deixar as tarefas pesadas para a noite
No meio dessa confusão, acho sensato usar um model broker ou uma camada intermediária como o Copilot
Sinto falta de um serviço que ofereça um “AI padrão”, com o mesmo modelo sempre
Nos benchmarks privados da nossa equipe, o Opus 4.7 é mais estratégico e inteligente que o 4.6/4.5
Ele está praticamente no mesmo nível do GPT-5.4 e, em sessões agentic com uso de ferramentas, chega até a mostrar o melhor desempenho
link do benchmark
Mas houve uma pequena regressão no tratamento de contexto. Estamos adicionando um benchmark para visualizar isso
Ultimamente a confiança na Anthropic caiu
Ver o 4.7 sair logo depois do downgrade do 4.6 deixa tudo mais preocupante
Agora é preciso haver comunicação transparente
A OpenAI investiu cedo em compute, e agora isso virou uma grande vantagem
Pode ser que estejam destilando (distillation) o Mythos no Opus 4.7
Provavelmente a causa foi uma atualização do harness
Ultimamente aumentaram muito os comentários do tipo “migrei para o Codex”
Mas, usando na prática, o Codex ainda não alcança o nível do Claude
Esse tipo de comentário promocional só prejudica a credibilidade
Na nossa empresa usamos os dois modelos, mas agora eu quase só uso o Codex
Sinto que a velocidade e os resultados são melhores
Mas a qualidade das respostas do Claude é melhor. Os prós e contras são bem claros
Mas o Codex produziu um resultado “tecnicamente correto, mas humanamente estranho”
Então eu uso o Claude para escrever a especificação e o Codex para executar
A suspeita é que depois vão aumentar os preços
A política de restrições de segurança do Opus 4.7 pode ser fatal
Pesquisar ataques e defender-se contra eles exige capacidades simétricas, e bloquear isso é perigoso