8 pontos por GN⁺ 2025-11-25 | 2 comentários | Compartilhar no WhatsApp
  • Claude Opus 4.5 é um modelo de IA com desempenho de ponta em escrita de código, execução de agentes e uso do computador
  • Alcançou a maior pontuação em testes reais de engenharia de software (SWE-bench Verified), com grande melhora em eficiência de tokens e capacidade de raciocínio
  • O preço foi reduzido para $5/$25 por 1 milhão de tokens, permitindo que mais desenvolvedores e empresas usem recursos de nível Opus
  • A Claude Developer Platform e o Claude Code receberam grandes atualizações com o novo parâmetro effort, gerenciamento de contexto e melhorias no uso de ferramentas
  • O reforço em segurança e alinhamento e a maior resistência a prompt injection marcam um ponto de virada para a confiabilidade no uso de IA em vários setores

Visão geral do Claude Opus 4.5

  • A Anthropic apresentou o Claude Opus 4.5, descrevendo-o como um modelo de nível mundial em codificação, agentes e uso do computador
    • Também houve melhora de desempenho em tarefas do dia a dia, como pesquisa, slides e planilhas
    • É visto como um passo que amplia o escopo do que sistemas de IA podem realizar
  • O Opus 4.5 registrou a maior pontuação no teste SWE-bench Verified
  • Disponível imediatamente no app da Anthropic, na API e nas três principais plataformas de nuvem
    • Nome do modelo na API: claude-opus-4-5-20251101
    • Preço: entrada $5 / saída $25 (por 1 milhão de tokens)

Feedback de usuários iniciais e testes

  • Testes internos indicaram melhora na capacidade de lidar com problemas ambíguos e resolver bugs complexos
  • Usuários iniciais de várias empresas deram os seguintes retornos
    • Melhora na qualidade do código e redução de metade no uso de tokens
    • Excelente desempenho em raciocínio de múltiplas etapas, tarefas autônomas de longa duração e workflows de agentes
    • Eficiência mais de 15% superior em relação ao Sonnet 4.5
    • Confirmação da possibilidade de implementar agentes de IA com autoaperfeiçoamento
    • Melhor desempenho em diversas áreas, como automação de Excel, visualização 3D, revisão de código e geração de histórias
    • Relatos de redução de 50% a 75% em erros de chamada de ferramentas e erros de build, além de ganho de velocidade

Avaliação de desempenho

  • No exame interno de engenharia de software da Anthropic, superou a maior pontuação entre candidatos humanos
    • Obteve o melhor resultado dentro do limite de 2 horas
  • Visão, raciocínio e capacidade matemática melhoraram de forma geral, alcançando estado da arte (SOTA) em vários benchmarks
  • O teste τ2-bench apresentou um caso de resolução criativa de problema
    • Sem tentar burlar a política de não alteração de passagem aérea, resolveu o caso por um procedimento legal (upgrade de assento seguido de mudança de itinerário)
    • O benchmark registrou isso como falha, mas o caso foi citado como exemplo de capacidade de raciocínio criativo

Melhorias em segurança e alinhamento

  • O Claude Opus 4.5 é o modelo mais fortemente alinhado já lançado pela Anthropic
    • A resistência a ataques de prompt injection está entre as melhores do setor
    • Também obteve bons resultados em um forte benchmark de ataques desenvolvido pela Gray Swan
  • A baixa pontuação em “comportamento preocupante (concerning behavior)” reduz a possibilidade de uso malicioso e mau funcionamento autônomo
  • Avaliações detalhadas de segurança e desempenho estão no system card do Claude Opus 4.5

Atualizações da Claude Developer Platform

  • O Opus 4.5 gera resultados melhores com menos tokens
  • O novo parâmetro effort permite ajustar o equilíbrio entre velocidade, custo e desempenho
    • Em nível intermediário de effort, alcança o mesmo desempenho do Sonnet 4.5 com 76% menos tokens de saída
    • No nível máximo de effort, entrega 4,3% mais desempenho que o Sonnet 4.5 com 48% menos tokens
  • Recursos como effort control, context compaction e uso avançado de ferramentas aumentam a eficiência em tarefas longas
  • O gerenciamento de contexto e os recursos de memória elevam em 15% o desempenho em tarefas de agentes
  • A plataforma está evoluindo gradualmente para uma estrutura modular e combinável

Atualizações de produto

  • O Claude Code, com base no Opus 4.5, melhora a precisão e a execução do Plan Mode
    • Antes da execução, gera um arquivo plan.md para revisão do usuário
    • O app para desktop passa a oferecer suporte à execução paralela de múltiplas sessões
  • O app Claude mantém o contexto com recurso de resumo automático para conversas longas
  • Claude for Chrome passa a ser oferecido a todos os usuários Max
  • Claude for Excel amplia o beta para usuários Max, Team e Enterprise
  • O aumento do limite de uso dedicado do Opus 4.5 permite uso em tarefas do dia a dia

Informações adicionais

  • Todas as avaliações (evals) foram executadas com média de 5 rodadas usando 64K thinking budget, janela de contexto de 200K e configuração padrão de effort (high)
  • Alguns testes, como SWE-bench Verified e Terminal Bench, usaram configurações separadas
  • Pesquisas relacionadas e resultados detalhados podem ser consultados no system card do Claude Opus 4.5

Notícias relacionadas

  • Claude foi integrado ao Microsoft Foundry e ao Microsoft 365 Copilot
  • Microsoft, NVIDIA e Anthropic firmaram uma parceria estratégica
    • A Anthropic planeja comprar US$ 30 bilhões em capacidade computacional da Azure e firmar contrato adicional de até 1 GW
  • Em parceria com o governo de Ruanda e a ALX, ampliação da educação em IA na África

2 comentários

 
kaydash 2025-11-27

Tenho que pagar a conta do 5G e ainda assinar a Netflix, agora também tenho que assinar IA buá buá.

 
GN⁺ 2025-11-25
Opiniões no Hacker News
  • O ponto central deste anúncio é a redução de preço do Opus 4.5
    $5/$25 por MTok representa uma queda de 3x em relação ao Opus 4, então agora ele deixa de ser um “modelo para usar só em coisas importantes” e passa a ser um modelo viável para cargas de trabalho reais em produção
    Eles também afirmam ter resistência a prompt injection em nível SOTA; se os números do system card se mantiverem em testes agressivos, isso tem grande importância para quem implanta agentes com acesso a ferramentas
    Ainda assim, a expressão “o modelo mais alinhado” parece um pouco exagerada, e fico curioso para ver os resultados de red teams independentes

    • Com o lançamento do Opus 4.5, os limites de uso do Claude Code foram flexibilizados
      O teto exclusivo do Opus foi removido, e usuários Max e Team Premium agora podem usar uma quantidade de tokens parecida com a da era Sonnet
      Disseram que ajustaram os limites de uso para permitir o uso do Opus 4.5 no trabalho do dia a dia
    • Em testes internos, o Opus 4.5 muitas vezes saía mais barato de operar do que o Sonnet
      O custo médio por thread da equipe da Amp foi de $1.83 com o Sonnet 4.5 e cerca de $1.30 com o Opus 4.5
      Mais do que o preço unitário por token, o maior fator de economia foi a redução de erros graças ao aumento de inteligência
    • A queda de preço de 3x provavelmente indica que o Opus 4.5 é um modelo base menor e mais especializado
      Parece haver mais fine-tuning voltado para benchmarks, e fico curioso sobre o desempenho em testes não direcionados como eqbench.com
    • Antes eu via a seção de “Safety” como algo próximo de alertas de ficção científica, mas desta vez foi interessante porque trata de problemas reais como prompt injection
      Parece que o termo “segurança” está evoluindo para outro significado
    • Mas o Pliney the Liberator já teria conseguido fazer jailbreak
      Isso pode ser algo separado da resistência a prompt injection
  • Este modelo será revolucionário por 2 a 4 semanas, e depois deve vir um “nerf”
    Nos meses seguintes, quem apontar queda de desempenho será acusado de “falta de habilidade”, e então sairão anúncios de que um engenheiro encontrou “alguns bugs”, antes da chegada do Opus 4.7
    Minha lealdade agora é medida em ciclos de nerf

    • Também pode ser apenas uma ilusão cognitiva, e não uma queda real de desempenho
      Afinal, nos benchmarks não há evidência de regressão
      Se a piora percebida por humanos for real, isso sugere a existência de um fator x que os benchmarks não capturam
    • Por isso eu migrei para o Gemini
      Desde a geração v2.5 não houve regressão, e suspeito que a Anthropic talvez esteja trocando por modelos quantizados
    • Parece piada, mas talvez seja literalmente um relançamento do Opus 4.0
    • Esse fenômeno também combina com o padrão de comportamento do CEO
    • O Claude provavelmente está fazendo experimentos secretos de compressão de contexto
      Em consultas únicas com pouca dependência de contexto, a queda de desempenho é menor
  • Testei o Gemini 3 Pro no Cursor, e ele é muito mais fraco que o Sonnet 4.5
    Houve problemas que só o Claude Code conseguiu resolver, e o Sonnet 4.5 funciona especialmente bem dentro do Cursor
    Acho que a Anthropic acertou ao adotar uma estratégia centrada em engenharia de software
    É o modelo que mais me anima rumo a 2026

    • Os modelos Claude têm ferramentas embutidas como str_replace_editor
      O Cursor não tem esse tipo de ferramenta, e daí vem a diferença de desempenho
      Veja o tweet relacionado aqui
    • Meu fluxo de trabalho era projetar com Gemini e implementar com Sonnet
    • Pessoalmente, não entendo o hype excessivo em torno do Gemini
      Opus/Sonnet/GPT são muito mais adequados para workflows baseados em agentes
    • Criei um projeto paralelo com a API do Gemini 2.5 Pro, mas consistência na execução de comandos e erros de limite de recursos foram problemas
      Azure GPT-4.1, Bedrock Sonnet 4 e Perplexity foram muito mais estáveis
      Fico curioso sobre a experiência de outras pessoas
    • Dei ao Sonnet 4.5 um JSON com PHP serialize() codificado em base64 e pedi para extrair URLs, e ele retornou um link do YouTube do Rick Astley
  • O system card do Claude Opus 4.5 é muito mais detalhado que o blog de marketing
    É um PDF de 150 páginas, e a seção sobre decepção é especialmente interessante
    Por exemplo, há um caso em que ele recebe a notícia do desmonte da equipe de segurança da Anthropic e ainda assim esconde essa informação do usuário
    Também trata de riscos relacionados a CBRN, e o Opus ainda está em nível ASL-3, então não representa um risco em larga escala
    Publiquei um resumo em blog sobre isso aqui

  • Fiquei realmente feliz com estes resultados de benchmark
    Graças a isso, posso manter meu Coding Agent atual
    Estava cada vez mais difícil acompanhar o cenário de IA em rápida mudança sem sentir FOMO, mas desta vez a Anthropic provou sua competitividade de novo

    • Parece que chegamos a um ponto em que dá para ignorar o hype sem ficar para trás
      A combinação de Sonnet com Claude Code já era estável o suficiente, e depois do 4.5 melhorou automaticamente
      Estou simplesmente ignorando a tentação de migrar para o Codex
    • Eu migrei para a OpenAI por causa dos limites de uso
      Mesmo que o Claude gere um código um pouco melhor, o GPT permite requisições ilimitadas, o que dá mais liberdade para experimentar
    • Usar várias ferramentas em paralelo não traz um grande ganho de produtividade
      O Opus é um avanço significativo, mas provavelmente não muda o workflow de forma fundamental
    • Eu também gosto da direção amigável a desenvolvedores da Anthropic
      Espero que ela continue firme na concorrência
    • Também testei o Codex, mas acabei voltando para o Claude Code
      Só uso o Codex temporariamente quando bato em limites
  • As capacidades avançadas de uso de ferramentas do Opus 4.5 foram particularmente impressionantes
    Segundo o documento Advanced Tool Use, ele consegue fazer busca de ferramentas, chamadas programáticas e aprendizado por exemplos em contexto
    Fiquei surpreso ao ver que só a definição das ferramentas consumiu 130 mil tokens
    O vídeo de demonstração com jogo de puzzle também foi interessante

  • Li a review do Opus do Simon Willison

    • A evolução gradual é difícil de perceber em codebases grandes
      Na maioria das tarefas, a diferença de tooling pesa mais do que o modelo
    • Fiquei curioso se ele escreveu diretamente a biblioteca para converter saída de terminal em HTML
    • Também me pergunto se não estão treinando o modelo para os dados de benchmark
    • Há um erro na tabela de preços do Haiku — o correto é $1/$5
    • Sugestão de correção de typo: There modelTheir model
  • Olhando o leaderboard do ARC-AGI-2, a comparação de custo-benefício entre modelos fica bem clara
    O Opus 4.5 tem um desempenho excelente frente ao Gemini 3, enquanto o Gemini 3 Deep Think ainda está em 1º lugar, mas custa mais de 30x
    Em dezembro de 2024, quando a OpenAI superou o desempenho humano no ARC-AGI-1, o custo era de $3.000 por tarefa; agora caiu para alguns dólares, uma redução de 80x
    Veja o leaderboard e o blog relacionado

    • Só para referência, o Gemini 3 Pro é a versão sem uso de ferramentas, enquanto o Deep Think é a versão com uso de ferramentas
      Se ambos tivessem o mesmo acesso a ferramentas, a diferença entre eles seria menor
  • Tenho a impressão de que o ritmo de melhoria recente dos LLMs desacelerou
    O ganho de precisão é pequeno, mas a melhoria de eficiência parece grande

  • Ultimamente, o Sonnet 4.5 parece ter ficado mais burro
    Nem um CSS simples ele conseguiu tratar direito
    É bom que o Opus tenha ficado 3x mais barato, mas ele ainda não pode ser usado na assinatura Claude Code Pro
    Dá para usar o Opus na fase de planejamento com o comando /model opusplan, mas a estrutura de consumo de créditos é pouco transparente
    Uma correção simples de CSS me custou $0.95, o que é caro demais
    Daqui para frente, pretendo alternar manualmente entre Opus e Sonnet

    • A qualidade do Sonnet 4.5 parece ser proporcional à profundidade de busca, como em um engine de xadrez
      Em horários de pico, a queda de desempenho parece inevitável, então seria bom haver um indicador de carga
    • Nos últimos dias, realmente parece que a inteligência caiu
      Talvez tenham reduzido de propósito para promover o novo modelo, ou talvez o aumento de carga por distribuir créditos grátis tenha levado ao uso de uma versão quantizada
      É frustrante a falta de transparência e a instabilidade da Anthropic
    • Provavelmente há failover para um modelo mais barato quando o tráfego sobrecarrega
    • Na sexta-feira, em especial, vi respostas consistentemente burras
      Achei que fosse apenas um erro temporário, mas tenho a sensação de que algo mudou