Anthropic revela o Claude Opus 4.5

(anthropic.com)

8 pontos por GN⁺ 2025-11-25 | 2 comentários | Compartilhar no WhatsApp

Claude Opus 4.5 é um modelo de IA com desempenho de ponta em escrita de código, execução de agentes e uso do computador
Alcançou a maior pontuação em testes reais de engenharia de software (SWE-bench Verified), com grande melhora em eficiência de tokens e capacidade de raciocínio
O preço foi reduzido para $5/$25 por 1 milhão de tokens, permitindo que mais desenvolvedores e empresas usem recursos de nível Opus
A Claude Developer Platform e o Claude Code receberam grandes atualizações com o novo parâmetro effort, gerenciamento de contexto e melhorias no uso de ferramentas
O reforço em segurança e alinhamento e a maior resistência a prompt injection marcam um ponto de virada para a confiabilidade no uso de IA em vários setores

Visão geral do Claude Opus 4.5

A Anthropic apresentou o Claude Opus 4.5, descrevendo-o como um modelo de nível mundial em codificação, agentes e uso do computador
- Também houve melhora de desempenho em tarefas do dia a dia, como pesquisa, slides e planilhas
- É visto como um passo que amplia o escopo do que sistemas de IA podem realizar
O Opus 4.5 registrou a maior pontuação no teste SWE-bench Verified
Disponível imediatamente no app da Anthropic, na API e nas três principais plataformas de nuvem
- Nome do modelo na API: claude-opus-4-5-20251101
- Preço: entrada $5 / saída $25 (por 1 milhão de tokens)

Feedback de usuários iniciais e testes

Testes internos indicaram melhora na capacidade de lidar com problemas ambíguos e resolver bugs complexos
Usuários iniciais de várias empresas deram os seguintes retornos
- Melhora na qualidade do código e redução de metade no uso de tokens
- Excelente desempenho em raciocínio de múltiplas etapas, tarefas autônomas de longa duração e workflows de agentes
- Eficiência mais de 15% superior em relação ao Sonnet 4.5
- Confirmação da possibilidade de implementar agentes de IA com autoaperfeiçoamento
- Melhor desempenho em diversas áreas, como automação de Excel, visualização 3D, revisão de código e geração de histórias
- Relatos de redução de 50% a 75% em erros de chamada de ferramentas e erros de build, além de ganho de velocidade

Avaliação de desempenho

No exame interno de engenharia de software da Anthropic, superou a maior pontuação entre candidatos humanos
- Obteve o melhor resultado dentro do limite de 2 horas
Visão, raciocínio e capacidade matemática melhoraram de forma geral, alcançando estado da arte (SOTA) em vários benchmarks
O teste τ2-bench apresentou um caso de resolução criativa de problema
- Sem tentar burlar a política de não alteração de passagem aérea, resolveu o caso por um procedimento legal (upgrade de assento seguido de mudança de itinerário)
- O benchmark registrou isso como falha, mas o caso foi citado como exemplo de capacidade de raciocínio criativo

Melhorias em segurança e alinhamento

O Claude Opus 4.5 é o modelo mais fortemente alinhado já lançado pela Anthropic
- A resistência a ataques de prompt injection está entre as melhores do setor
- Também obteve bons resultados em um forte benchmark de ataques desenvolvido pela Gray Swan
A baixa pontuação em “comportamento preocupante (concerning behavior)” reduz a possibilidade de uso malicioso e mau funcionamento autônomo
Avaliações detalhadas de segurança e desempenho estão no system card do Claude Opus 4.5

Atualizações da Claude Developer Platform

O Opus 4.5 gera resultados melhores com menos tokens
O novo parâmetro effort permite ajustar o equilíbrio entre velocidade, custo e desempenho
- Em nível intermediário de effort, alcança o mesmo desempenho do Sonnet 4.5 com 76% menos tokens de saída
- No nível máximo de effort, entrega 4,3% mais desempenho que o Sonnet 4.5 com 48% menos tokens
Recursos como effort control, context compaction e uso avançado de ferramentas aumentam a eficiência em tarefas longas
O gerenciamento de contexto e os recursos de memória elevam em 15% o desempenho em tarefas de agentes
A plataforma está evoluindo gradualmente para uma estrutura modular e combinável

Atualizações de produto

O Claude Code, com base no Opus 4.5, melhora a precisão e a execução do Plan Mode
- Antes da execução, gera um arquivo plan.md para revisão do usuário
- O app para desktop passa a oferecer suporte à execução paralela de múltiplas sessões
O app Claude mantém o contexto com recurso de resumo automático para conversas longas
Claude for Chrome passa a ser oferecido a todos os usuários Max
Claude for Excel amplia o beta para usuários Max, Team e Enterprise
O aumento do limite de uso dedicado do Opus 4.5 permite uso em tarefas do dia a dia

Informações adicionais

Todas as avaliações (evals) foram executadas com média de 5 rodadas usando 64K thinking budget, janela de contexto de 200K e configuração padrão de effort (high)
Alguns testes, como SWE-bench Verified e Terminal Bench, usaram configurações separadas
Pesquisas relacionadas e resultados detalhados podem ser consultados no system card do Claude Opus 4.5

Notícias relacionadas

Claude foi integrado ao Microsoft Foundry e ao Microsoft 365 Copilot
Microsoft, NVIDIA e Anthropic firmaram uma parceria estratégica
- A Anthropic planeja comprar US$ 30 bilhões em capacidade computacional da Azure e firmar contrato adicional de até 1 GW
Em parceria com o governo de Ruanda e a ALX, ampliação da educação em IA na África

2 comentários

kaydash 2025-11-27

Tenho que pagar a conta do 5G e ainda assinar a Netflix, agora também tenho que assinar IA buá buá.

GN⁺ 2025-11-25

Opiniões no Hacker News

O ponto central deste anúncio é a redução de preço do Opus 4.5
$5/$25 por MTok representa uma queda de 3x em relação ao Opus 4, então agora ele deixa de ser um “modelo para usar só em coisas importantes” e passa a ser um modelo viável para cargas de trabalho reais em produção
Eles também afirmam ter resistência a prompt injection em nível SOTA; se os números do system card se mantiverem em testes agressivos, isso tem grande importância para quem implanta agentes com acesso a ferramentas
Ainda assim, a expressão “o modelo mais alinhado” parece um pouco exagerada, e fico curioso para ver os resultados de red teams independentes
- Com o lançamento do Opus 4.5, os limites de uso do Claude Code foram flexibilizados
  O teto exclusivo do Opus foi removido, e usuários Max e Team Premium agora podem usar uma quantidade de tokens parecida com a da era Sonnet
  Disseram que ajustaram os limites de uso para permitir o uso do Opus 4.5 no trabalho do dia a dia
- Em testes internos, o Opus 4.5 muitas vezes saía mais barato de operar do que o Sonnet
  O custo médio por thread da equipe da Amp foi de $1.83 com o Sonnet 4.5 e cerca de $1.30 com o Opus 4.5
  Mais do que o preço unitário por token, o maior fator de economia foi a redução de erros graças ao aumento de inteligência
- A queda de preço de 3x provavelmente indica que o Opus 4.5 é um modelo base menor e mais especializado
  Parece haver mais fine-tuning voltado para benchmarks, e fico curioso sobre o desempenho em testes não direcionados como eqbench.com
- Antes eu via a seção de “Safety” como algo próximo de alertas de ficção científica, mas desta vez foi interessante porque trata de problemas reais como prompt injection
  Parece que o termo “segurança” está evoluindo para outro significado
- Mas o Pliney the Liberator já teria conseguido fazer jailbreak
  Isso pode ser algo separado da resistência a prompt injection
Este modelo será revolucionário por 2 a 4 semanas, e depois deve vir um “nerf”
Nos meses seguintes, quem apontar queda de desempenho será acusado de “falta de habilidade”, e então sairão anúncios de que um engenheiro encontrou “alguns bugs”, antes da chegada do Opus 4.7
Minha lealdade agora é medida em ciclos de nerf
- Também pode ser apenas uma ilusão cognitiva, e não uma queda real de desempenho
  Afinal, nos benchmarks não há evidência de regressão
  Se a piora percebida por humanos for real, isso sugere a existência de um fator x que os benchmarks não capturam
- Por isso eu migrei para o Gemini
  Desde a geração v2.5 não houve regressão, e suspeito que a Anthropic talvez esteja trocando por modelos quantizados
- Parece piada, mas talvez seja literalmente um relançamento do Opus 4.0
- Esse fenômeno também combina com o padrão de comportamento do CEO
- O Claude provavelmente está fazendo experimentos secretos de compressão de contexto
  Em consultas únicas com pouca dependência de contexto, a queda de desempenho é menor
Testei o Gemini 3 Pro no Cursor, e ele é muito mais fraco que o Sonnet 4.5
Houve problemas que só o Claude Code conseguiu resolver, e o Sonnet 4.5 funciona especialmente bem dentro do Cursor
Acho que a Anthropic acertou ao adotar uma estratégia centrada em engenharia de software
É o modelo que mais me anima rumo a 2026
- Os modelos Claude têm ferramentas embutidas como str_replace_editor
  O Cursor não tem esse tipo de ferramenta, e daí vem a diferença de desempenho
  Veja o tweet relacionado aqui
- Meu fluxo de trabalho era projetar com Gemini e implementar com Sonnet
- Pessoalmente, não entendo o hype excessivo em torno do Gemini
  Opus/Sonnet/GPT são muito mais adequados para workflows baseados em agentes
- Criei um projeto paralelo com a API do Gemini 2.5 Pro, mas consistência na execução de comandos e erros de limite de recursos foram problemas
  Azure GPT-4.1, Bedrock Sonnet 4 e Perplexity foram muito mais estáveis
  Fico curioso sobre a experiência de outras pessoas
- Dei ao Sonnet 4.5 um JSON com PHP serialize() codificado em base64 e pedi para extrair URLs, e ele retornou um link do YouTube do Rick Astley
O system card do Claude Opus 4.5 é muito mais detalhado que o blog de marketing
É um PDF de 150 páginas, e a seção sobre decepção é especialmente interessante
Por exemplo, há um caso em que ele recebe a notícia do desmonte da equipe de segurança da Anthropic e ainda assim esconde essa informação do usuário
Também trata de riscos relacionados a CBRN, e o Opus ainda está em nível ASL-3, então não representa um risco em larga escala
Publiquei um resumo em blog sobre isso aqui
Fiquei realmente feliz com estes resultados de benchmark
Graças a isso, posso manter meu Coding Agent atual
Estava cada vez mais difícil acompanhar o cenário de IA em rápida mudança sem sentir FOMO, mas desta vez a Anthropic provou sua competitividade de novo
- Parece que chegamos a um ponto em que dá para ignorar o hype sem ficar para trás
  A combinação de Sonnet com Claude Code já era estável o suficiente, e depois do 4.5 melhorou automaticamente
  Estou simplesmente ignorando a tentação de migrar para o Codex
- Eu migrei para a OpenAI por causa dos limites de uso
  Mesmo que o Claude gere um código um pouco melhor, o GPT permite requisições ilimitadas, o que dá mais liberdade para experimentar
- Usar várias ferramentas em paralelo não traz um grande ganho de produtividade
  O Opus é um avanço significativo, mas provavelmente não muda o workflow de forma fundamental
- Eu também gosto da direção amigável a desenvolvedores da Anthropic
  Espero que ela continue firme na concorrência
- Também testei o Codex, mas acabei voltando para o Claude Code
  Só uso o Codex temporariamente quando bato em limites
As capacidades avançadas de uso de ferramentas do Opus 4.5 foram particularmente impressionantes
Segundo o documento Advanced Tool Use, ele consegue fazer busca de ferramentas, chamadas programáticas e aprendizado por exemplos em contexto
Fiquei surpreso ao ver que só a definição das ferramentas consumiu 130 mil tokens
O vídeo de demonstração com jogo de puzzle também foi interessante
Li a review do Opus do Simon Willison
- A evolução gradual é difícil de perceber em codebases grandes
  Na maioria das tarefas, a diferença de tooling pesa mais do que o modelo
- Fiquei curioso se ele escreveu diretamente a biblioteca para converter saída de terminal em HTML
- Também me pergunto se não estão treinando o modelo para os dados de benchmark
- Há um erro na tabela de preços do Haiku — o correto é $1/$5
- Sugestão de correção de typo: There model → Their model
Olhando o leaderboard do ARC-AGI-2, a comparação de custo-benefício entre modelos fica bem clara
O Opus 4.5 tem um desempenho excelente frente ao Gemini 3, enquanto o Gemini 3 Deep Think ainda está em 1º lugar, mas custa mais de 30x
Em dezembro de 2024, quando a OpenAI superou o desempenho humano no ARC-AGI-1, o custo era de $3.000 por tarefa; agora caiu para alguns dólares, uma redução de 80x
Veja o leaderboard e o blog relacionado
- Só para referência, o Gemini 3 Pro é a versão sem uso de ferramentas, enquanto o Deep Think é a versão com uso de ferramentas
  Se ambos tivessem o mesmo acesso a ferramentas, a diferença entre eles seria menor
Tenho a impressão de que o ritmo de melhoria recente dos LLMs desacelerou
O ganho de precisão é pequeno, mas a melhoria de eficiência parece grande
Ultimamente, o Sonnet 4.5 parece ter ficado mais burro
Nem um CSS simples ele conseguiu tratar direito
É bom que o Opus tenha ficado 3x mais barato, mas ele ainda não pode ser usado na assinatura Claude Code Pro
Dá para usar o Opus na fase de planejamento com o comando /model opusplan, mas a estrutura de consumo de créditos é pouco transparente
Uma correção simples de CSS me custou $0.95, o que é caro demais
Daqui para frente, pretendo alternar manualmente entre Opus e Sonnet
- A qualidade do Sonnet 4.5 parece ser proporcional à profundidade de busca, como em um engine de xadrez
  Em horários de pico, a queda de desempenho parece inevitável, então seria bom haver um indicador de carga
- Nos últimos dias, realmente parece que a inteligência caiu
  Talvez tenham reduzido de propósito para promover o novo modelo, ou talvez o aumento de carga por distribuir créditos grátis tenha levado ao uso de uma versão quantizada
  É frustrante a falta de transparência e a instabilidade da Anthropic
- Provavelmente há failover para um modelo mais barato quando o tráfego sobrecarrega
- Na sexta-feira, em especial, vi respostas consistentemente burras
  Achei que fosse apenas um erro temporário, mas tenho a sensação de que algo mudou