- Claude Opus 4.5 é um modelo de IA com desempenho de ponta em escrita de código, execução de agentes e uso do computador
- Alcançou a maior pontuação em testes reais de engenharia de software (SWE-bench Verified), com grande melhora em eficiência de tokens e capacidade de raciocínio
- O preço foi reduzido para $5/$25 por 1 milhão de tokens, permitindo que mais desenvolvedores e empresas usem recursos de nível Opus
- A Claude Developer Platform e o Claude Code receberam grandes atualizações com o novo parâmetro
effort, gerenciamento de contexto e melhorias no uso de ferramentas
- O reforço em segurança e alinhamento e a maior resistência a prompt injection marcam um ponto de virada para a confiabilidade no uso de IA em vários setores
Visão geral do Claude Opus 4.5
- A Anthropic apresentou o Claude Opus 4.5, descrevendo-o como um modelo de nível mundial em codificação, agentes e uso do computador
- Também houve melhora de desempenho em tarefas do dia a dia, como pesquisa, slides e planilhas
- É visto como um passo que amplia o escopo do que sistemas de IA podem realizar
- O Opus 4.5 registrou a maior pontuação no teste SWE-bench Verified
- Disponível imediatamente no app da Anthropic, na API e nas três principais plataformas de nuvem
- Nome do modelo na API:
claude-opus-4-5-20251101
- Preço: entrada $5 / saída $25 (por 1 milhão de tokens)
Feedback de usuários iniciais e testes
- Testes internos indicaram melhora na capacidade de lidar com problemas ambíguos e resolver bugs complexos
- Usuários iniciais de várias empresas deram os seguintes retornos
- Melhora na qualidade do código e redução de metade no uso de tokens
- Excelente desempenho em raciocínio de múltiplas etapas, tarefas autônomas de longa duração e workflows de agentes
- Eficiência mais de 15% superior em relação ao Sonnet 4.5
- Confirmação da possibilidade de implementar agentes de IA com autoaperfeiçoamento
- Melhor desempenho em diversas áreas, como automação de Excel, visualização 3D, revisão de código e geração de histórias
- Relatos de redução de 50% a 75% em erros de chamada de ferramentas e erros de build, além de ganho de velocidade
Avaliação de desempenho
- No exame interno de engenharia de software da Anthropic, superou a maior pontuação entre candidatos humanos
- Obteve o melhor resultado dentro do limite de 2 horas
- Visão, raciocínio e capacidade matemática melhoraram de forma geral, alcançando estado da arte (SOTA) em vários benchmarks
- O teste τ2-bench apresentou um caso de resolução criativa de problema
- Sem tentar burlar a política de não alteração de passagem aérea, resolveu o caso por um procedimento legal (upgrade de assento seguido de mudança de itinerário)
- O benchmark registrou isso como falha, mas o caso foi citado como exemplo de capacidade de raciocínio criativo
Melhorias em segurança e alinhamento
- O Claude Opus 4.5 é o modelo mais fortemente alinhado já lançado pela Anthropic
- A resistência a ataques de prompt injection está entre as melhores do setor
- Também obteve bons resultados em um forte benchmark de ataques desenvolvido pela Gray Swan
- A baixa pontuação em “comportamento preocupante (concerning behavior)” reduz a possibilidade de uso malicioso e mau funcionamento autônomo
- Avaliações detalhadas de segurança e desempenho estão no system card do Claude Opus 4.5
Atualizações da Claude Developer Platform
- O Opus 4.5 gera resultados melhores com menos tokens
- O novo parâmetro
effort permite ajustar o equilíbrio entre velocidade, custo e desempenho
- Em nível intermediário de effort, alcança o mesmo desempenho do Sonnet 4.5 com 76% menos tokens de saída
- No nível máximo de effort, entrega 4,3% mais desempenho que o Sonnet 4.5 com 48% menos tokens
- Recursos como effort control, context compaction e uso avançado de ferramentas aumentam a eficiência em tarefas longas
- O gerenciamento de contexto e os recursos de memória elevam em 15% o desempenho em tarefas de agentes
- A plataforma está evoluindo gradualmente para uma estrutura modular e combinável
Atualizações de produto
- O Claude Code, com base no Opus 4.5, melhora a precisão e a execução do Plan Mode
- Antes da execução, gera um arquivo plan.md para revisão do usuário
- O app para desktop passa a oferecer suporte à execução paralela de múltiplas sessões
- O app Claude mantém o contexto com recurso de resumo automático para conversas longas
- Claude for Chrome passa a ser oferecido a todos os usuários Max
- Claude for Excel amplia o beta para usuários Max, Team e Enterprise
- O aumento do limite de uso dedicado do Opus 4.5 permite uso em tarefas do dia a dia
Informações adicionais
- Todas as avaliações (evals) foram executadas com média de 5 rodadas usando 64K thinking budget, janela de contexto de 200K e configuração padrão de effort (high)
- Alguns testes, como SWE-bench Verified e Terminal Bench, usaram configurações separadas
- Pesquisas relacionadas e resultados detalhados podem ser consultados no system card do Claude Opus 4.5
Notícias relacionadas
- Claude foi integrado ao Microsoft Foundry e ao Microsoft 365 Copilot
- Microsoft, NVIDIA e Anthropic firmaram uma parceria estratégica
- A Anthropic planeja comprar US$ 30 bilhões em capacidade computacional da Azure e firmar contrato adicional de até 1 GW
- Em parceria com o governo de Ruanda e a ALX, ampliação da educação em IA na África
2 comentários
Tenho que pagar a conta do 5G e ainda assinar a Netflix, agora também tenho que assinar IA buá buá.
Opiniões no Hacker News
O ponto central deste anúncio é a redução de preço do Opus 4.5
$5/$25 por MTok representa uma queda de 3x em relação ao Opus 4, então agora ele deixa de ser um “modelo para usar só em coisas importantes” e passa a ser um modelo viável para cargas de trabalho reais em produção
Eles também afirmam ter resistência a prompt injection em nível SOTA; se os números do system card se mantiverem em testes agressivos, isso tem grande importância para quem implanta agentes com acesso a ferramentas
Ainda assim, a expressão “o modelo mais alinhado” parece um pouco exagerada, e fico curioso para ver os resultados de red teams independentes
O teto exclusivo do Opus foi removido, e usuários Max e Team Premium agora podem usar uma quantidade de tokens parecida com a da era Sonnet
Disseram que ajustaram os limites de uso para permitir o uso do Opus 4.5 no trabalho do dia a dia
O custo médio por thread da equipe da Amp foi de $1.83 com o Sonnet 4.5 e cerca de $1.30 com o Opus 4.5
Mais do que o preço unitário por token, o maior fator de economia foi a redução de erros graças ao aumento de inteligência
Parece haver mais fine-tuning voltado para benchmarks, e fico curioso sobre o desempenho em testes não direcionados como eqbench.com
Parece que o termo “segurança” está evoluindo para outro significado
Isso pode ser algo separado da resistência a prompt injection
Este modelo será revolucionário por 2 a 4 semanas, e depois deve vir um “nerf”
Nos meses seguintes, quem apontar queda de desempenho será acusado de “falta de habilidade”, e então sairão anúncios de que um engenheiro encontrou “alguns bugs”, antes da chegada do Opus 4.7
Minha lealdade agora é medida em ciclos de nerf
Afinal, nos benchmarks não há evidência de regressão
Se a piora percebida por humanos for real, isso sugere a existência de um fator x que os benchmarks não capturam
Desde a geração v2.5 não houve regressão, e suspeito que a Anthropic talvez esteja trocando por modelos quantizados
Em consultas únicas com pouca dependência de contexto, a queda de desempenho é menor
Testei o Gemini 3 Pro no Cursor, e ele é muito mais fraco que o Sonnet 4.5
Houve problemas que só o Claude Code conseguiu resolver, e o Sonnet 4.5 funciona especialmente bem dentro do Cursor
Acho que a Anthropic acertou ao adotar uma estratégia centrada em engenharia de software
É o modelo que mais me anima rumo a 2026
str_replace_editorO Cursor não tem esse tipo de ferramenta, e daí vem a diferença de desempenho
Veja o tweet relacionado aqui
Opus/Sonnet/GPT são muito mais adequados para workflows baseados em agentes
Azure GPT-4.1, Bedrock Sonnet 4 e Perplexity foram muito mais estáveis
Fico curioso sobre a experiência de outras pessoas
O system card do Claude Opus 4.5 é muito mais detalhado que o blog de marketing
É um PDF de 150 páginas, e a seção sobre decepção é especialmente interessante
Por exemplo, há um caso em que ele recebe a notícia do desmonte da equipe de segurança da Anthropic e ainda assim esconde essa informação do usuário
Também trata de riscos relacionados a CBRN, e o Opus ainda está em nível ASL-3, então não representa um risco em larga escala
Publiquei um resumo em blog sobre isso aqui
Fiquei realmente feliz com estes resultados de benchmark
Graças a isso, posso manter meu Coding Agent atual
Estava cada vez mais difícil acompanhar o cenário de IA em rápida mudança sem sentir FOMO, mas desta vez a Anthropic provou sua competitividade de novo
A combinação de Sonnet com Claude Code já era estável o suficiente, e depois do 4.5 melhorou automaticamente
Estou simplesmente ignorando a tentação de migrar para o Codex
Mesmo que o Claude gere um código um pouco melhor, o GPT permite requisições ilimitadas, o que dá mais liberdade para experimentar
O Opus é um avanço significativo, mas provavelmente não muda o workflow de forma fundamental
Espero que ela continue firme na concorrência
Só uso o Codex temporariamente quando bato em limites
As capacidades avançadas de uso de ferramentas do Opus 4.5 foram particularmente impressionantes
Segundo o documento Advanced Tool Use, ele consegue fazer busca de ferramentas, chamadas programáticas e aprendizado por exemplos em contexto
Fiquei surpreso ao ver que só a definição das ferramentas consumiu 130 mil tokens
O vídeo de demonstração com jogo de puzzle também foi interessante
Li a review do Opus do Simon Willison
Na maioria das tarefas, a diferença de tooling pesa mais do que o modelo
There model→Their modelOlhando o leaderboard do ARC-AGI-2, a comparação de custo-benefício entre modelos fica bem clara
O Opus 4.5 tem um desempenho excelente frente ao Gemini 3, enquanto o Gemini 3 Deep Think ainda está em 1º lugar, mas custa mais de 30x
Em dezembro de 2024, quando a OpenAI superou o desempenho humano no ARC-AGI-1, o custo era de $3.000 por tarefa; agora caiu para alguns dólares, uma redução de 80x
Veja o leaderboard e o blog relacionado
Se ambos tivessem o mesmo acesso a ferramentas, a diferença entre eles seria menor
Tenho a impressão de que o ritmo de melhoria recente dos LLMs desacelerou
O ganho de precisão é pequeno, mas a melhoria de eficiência parece grande
Ultimamente, o Sonnet 4.5 parece ter ficado mais burro
Nem um CSS simples ele conseguiu tratar direito
É bom que o Opus tenha ficado 3x mais barato, mas ele ainda não pode ser usado na assinatura Claude Code Pro
Dá para usar o Opus na fase de planejamento com o comando
/model opusplan, mas a estrutura de consumo de créditos é pouco transparenteUma correção simples de CSS me custou $0.95, o que é caro demais
Daqui para frente, pretendo alternar manualmente entre Opus e Sonnet
Em horários de pico, a queda de desempenho parece inevitável, então seria bom haver um indicador de carga
Talvez tenham reduzido de propósito para promover o novo modelo, ou talvez o aumento de carga por distribuir créditos grátis tenha levado ao uso de uma versão quantizada
É frustrante a falta de transparência e a instabilidade da Anthropic
Achei que fosse apenas um erro temporário, mas tenho a sensação de que algo mudou