Claude Sonnet 4.5

(anthropic.com)

4 pontos por GN⁺ 2025-09-30 | 1 comentários | Compartilhar no WhatsApp

Claude Sonnet 4.5 é o mais novo modelo de IA e apresenta desempenho de ponta em programação, raciocínio e matemática
O Claude Code atualizado adiciona checkpoints, uma interface de terminal aprimorada, extensão para VS Code e recursos de gerenciamento de memória, permitindo sustentar tarefas complexas por longos períodos
O recém-lançado Claude Agent SDK fornece a infraestrutura central para desenvolvimento de agentes, permitindo criar diretamente ferramentas para resolver diversos problemas
Em benchmarks como SWE-bench e OSWorld, supera com folga modelos concorrentes e comprova pontos fortes em matemática, raciocínio e adequação a domínios específicos
Em segurança, também é avaliado como o modelo mais bem alinhado (alignment), com melhorias na defesa contra prompt injection e no bloqueio de conteúdo de risco

Visão geral do Claude Sonnet 4.5

Claude Sonnet 4.5 é o melhor modelo de programação disponível hoje, além de oferecer o desempenho mais forte em construção de agentes complexos e uso de computadores
- Em software, planilhas e todos os tipos de ferramentas, ou seja, em praticamente todos os ambientes de trabalho modernos, o código é um elemento central
A capacidade de raciocínio e resolução de problemas matemáticos também melhorou de forma significativa em relação ao modelo anterior, ampliando sua utilidade em várias áreas especializadas
Disponível pelo mesmo preço do Sonnet 4 (US$ 3 / US$ 15 por milhão de tokens)

Principais atualizações de produto

Claude Code
- Introdução de checkpoints para salvar o progresso no meio do trabalho e permitir rollback
- Interface de terminal aprimorada e lançamento de uma extensão nativa para VS Code
- Adição de edição de contexto (context editing) e ferramentas de memória para lidar com tarefas complexas e de longa duração
Claude Apps
- Suporte direto, dentro da conversa, para execução de código e criação de arquivos (planilhas, apresentações e documentos)
Claude for Chrome
- Extensão disponível para usuários Max, com suporte à automação de tarefas dentro do navegador

Claude Agent SDK

A infraestrutura de agentes usada internamente pela Anthropic para criar o Claude Code foi disponibilizada a desenvolvedores externos
Fornece uma base que resolve desafios como gerenciamento de memória de longo prazo, controle de permissões e coordenação de múltiplos subagentes
Pode ser usado não só para programação, mas também para criar diversos tipos de agentes

Desempenho e benchmarks

Registrou o melhor desempenho no SWE-bench Verified, com capacidade de sustentar tarefas de programação multietapas de longo prazo por mais de 30 horas
Alcançou 61,4% no benchmark OSWorld (o Sonnet 4 anterior tinha 42,2%)
Também houve grande melhora em avaliações de raciocínio, matemática e multilinguismo (MMMLU), com alto desempenho comprovado por especialistas de finanças, direito, medicina e STEM
O feedback de clientes validou sua aplicação prática em produção para tarefas longas, compreensão de codebases complexas e implementação rápida e precisa de código

Casos de clientes

Cursor: confirmou o melhor desempenho na resolução de problemas complexos
GitHub Copilot: melhoria em raciocínio multietapas e compreensão de código
Área de segurança: redução de 44% no tempo de resposta a vulnerabilidades e aumento de 25% na precisão
Canva, Figma: melhorias revolucionárias de produtividade em trabalho com grandes codebases e prototipagem
Devin: melhora de 18% no desempenho de planejamento, com reforço em testes e execução de código

Segurança e alinhamento

O Sonnet 4.5 tem o nível mais alto de alignment entre os modelos já anunciados pela Anthropic
Foi realizado treinamento de segurança por reforço para reduzir comportamentos indesejáveis como bajulação (sycophancy), engano, busca por poder e estímulo a delírios
Houve progresso significativo na defesa contra ataques de prompt injection, e técnicas de interpretabilidade mecanística também foram introduzidas nas avaliações de segurança
Um sistema automatizado de auditoria de ações calcula pontuações automáticas de potencial de uso indevido, atendendo a altos padrões de segurança
O lançamento ocorre sob proteções do AI Safety Level 3 (ASL-3), com filtragem para entradas e saídas perigosas (por exemplo, riscos relacionados a química, biologia, radiação e área nuclear)

Prévia de pesquisa

Junto com o Claude Sonnet 4.5, foi disponibilizada uma prévia temporária de pesquisa chamada "Imagine with Claude"
Sem código ou funcionalidades pré-programadas, ela demonstra a geração de software em tempo real, reagindo e se adaptando instantaneamente aos pedidos do usuário
Disponível por 5 dias para assinantes Max

Informações adicionais e migração

Para usuários atuais dos produtos Claude e da API, o Sonnet 4.5 pode ser aplicado imediatamente, mantendo o mesmo preço do Sonnet 4 (US$ 3/US$ 15 por milhão de tokens)
Novos recursos como programação, criação de arquivos e execução de código estão disponíveis em todos os planos pagos
Mais detalhes técnicos e resultados de avaliação podem ser consultados no System Card, Claude Model page, documentação oficial
Veja também os links sobre desenvolvimento de agentes com o Claude Agent SDK, segurança cibernética e engenharia de contexto eficaz

Conclusão e recomendação

Claude Sonnet 4.5 é um modelo substituto drop-in com desempenho aprimorado para todos os ambientes de uso, incluindo API, apps e Claude Code
Reúne desempenho, aplicabilidade e alinhamento de nível mundial em programação, construção de agentes e uso de computadores
Com políticas de segurança robustas e amplo suporte a ferramentas para desenvolvedores, deve acelerar a produtividade e a inovação de desenvolvedores e equipes de TI
Como oferece recursos mais poderosos pelo mesmo preço, o upgrade é recomendado

1 comentários

GN⁺ 2025-09-30

Comentários no Hacker News

Tive acesso à versão de prévia neste fim de semana e organizei minhas anotações aqui
Pessoalmente, achei muito impressionante e, mais por sensação do que por comparação abrangente, pareceu ter desempenho um pouco melhor que o GPT-5-Codex
Acho que ele brilha especialmente no novo modo de interpretador de código Python/Node.js do claude.ai
Recomendo experimentar com um prompt como este

Checkout https://github.com/simonw/llm and run the tests with
pip install -e '.[test]'
pytest

Também lidou muito bem, passo a passo, com um refatoramento complexo de banco de dados; registrei os detalhes no blog

Tenho um pedido para @simonw e para quem se interessa por benchmarks de LLM
Gostaria muito que sempre divulgassem quanto tempo levou para concluir a tarefa
Este post é um relato de “funciona direto no claude.ai”, mas não traz nenhuma informação de timestamp sobre quando o resultado foi obtido
Também acho uma pena que os leaderboards reais de coding com LLM não tragam nenhuma informação de tempo de execução
O tempo varia muito entre modelos e plataformas e, em testes repetidos/reboots e ajustes de prompt, entram em jogo de forma combinada velocidade de inferência, consumo de tokens, eficiência das ferramentas, custo e inteligência do modelo
Em especial, modelos como Grok Code Fast e Cerebras Code, mesmo sem terem o melhor desempenho absoluto, permitem processar muito mais trabalho com velocidade de inferência mais de 10x maior; modelo rápido faz diferença de verdade
Benchmarks que valem acompanhar: swebench, leaderboard do tbench, gosuevals agents
Tentei, mas no meu ambiente isso não funciona
Pelo visto é um comando para configurar a ferramenta de CLI LLM; a opção -e faz a instalação em modo editável, e [test] instala as dependências de teste
A ferramenta que eu tenho não oferece suporte a comandos shell (pip, pytest), nem a git clone ou execução de Python
No ambiente do navegador, só dá para executar JavaScript; não é possível rodar comandos em nível de shell
Fiquei curioso sobre o que você esperava: se era entender a configuração dos testes ou se queria mesmo essa funcionalidade
Para quem ficou curioso com o caso de uso do prompt “peça para ele gerar um arquivo zip”
Muita gente não vai ter tempo de abrir a gist diretamente, então eu gostaria de saber se funcionou direito e, se você tiver mais impressões sobre o resultado, seria interessante ouvir
Fico curioso se o Claude Sonnet 4.5 ainda responde a tudo no estilo “você está absolutamente certo!”, ou se agora conversa mais como um programador de verdade
Fiquei curioso para saber como você conseguiu acesso à prévia antecipada
Compartilhando uma experiência real
Apliquei o mesmo prompt em um webapp grande, com cerca de 200 mil LoC, tanto no Sonnet 4.5 (Claude Code) quanto no GPT-5-Codex
O requisito era: “a partir de ‘Go to Conversation’ ou ‘Go to Report’, ao digitar o título e não bater com o elemento padrão, executar uma busca fuzzy após 2 segundos”
O Sonnet 4.5 entregou um resultado em cerca de 3 minutos, mas o código ficou desleixado e ele nem conseguiu reaproveitar o auth existente, tentando criar uma autenticação server-side nova
Mesmo após apontar os problemas e repromptar, quase não houve melhora, e ele também não escreveu os testes, que eram um requisito essencial
Já o GPT-5-Codex levou cerca de 20 minutos, mas tratou com rigor o tratamento de erros e vários edge cases, e ainda escreveu testes sem que eu pedisse
A API também funcionou de forma fluida, e o nível geral de acabamento pareceu qualidade de desenvolvedor Senior
Eu não quero uma implementação “rápida e suja” que sai em 3 minutos, então escolho os 20 minutos sem pensar duas vezes
Fiquei impressionado com a rapidez do Sonnet, como esperado, mas uma implementação sem qualidade de verdade e sem testes não tem valor
- Posso soar crítico, mas acho que, começando com um prompt em uma frase simples como essa, o resultado inevitavelmente fica meio aleatório
  O importante é estruturar melhor os blocos lógicos e os detalhes das condições, e até o exemplo de prompt parece quase uma frase longa demais
  Para tarefas complexas ou importantes, acho que o prompt precisa ser de 5 a 20 vezes mais específico
  Quando o input é estruturado e a codebase já segue bons padrões, a IA devolve resultados muito melhores
  Na prática, se você desse a um desenvolvedor Junior ou a um time uma exigência resumida em uma única frase, sem detalhamento, também seria compreensível não receber exatamente o que queria
  Meu conselho é investir só mais alguns minutos preparando o prompt inicial para aumentar bastante a chance de um resultado satisfatório
- Você usa o plano pago ChatGPT Pro? E o Codex CLI está incluído nele?
  Uso o Claude Code por causa do plano Max com Sonnet/Opus, mas, se o ChatGPT Pro também permitir usar Codex, eu consideraria trocar
- Tive exatamente a mesma experiência
  Na semana passada, consegui desenvolver com sucesso um parser completo de XPath 1.0 em C++20 com o Codex, e agora estou avançando no suporte a XPath 2.0
  O Codex continua entregando resultados excelentes e, tirando o uso da versão em nuvem (porque a local é difícil de usar por causa de bugs), não tenho muito do que reclamar
  O Sonnet continua travando em tarefas de alta complexidade, e no 4.5 também não senti grande evolução
  Em particular, no tratamento de date-time, o Claude praticamente desistiu, enquanto o Codex lidou com isso perfeitamente
  Na verdade eu tinha boa vontade com a Anthropic, mas até agora me parece que a OpenAI está muito à frente
  Se quiser competir com o Codex, o Claude vai precisar de um avanço importante; além disso, é caro, e os problemas de qualidade de serviço estão afastando muitos usuários
- Isso bate com as minhas expectativas
  O Codex se parece mais com uma ferramenta de vibe coding, enquanto o Claude Code está mais focado em desenvolvimento assistido por IA
  Eu, pessoalmente, até prefiro o Claude
  O Codex funciona muito bem sozinho, mas quando a direção muda — por exemplo, insistindo em resolver até uma edição de arquivo muito simples com script Python — ele fica sutilmente teimoso e também não acompanha tão bem informações recentes
  Mesmo quando você pede explicações, ele tende a simplesmente executar sem muito contexto
  A questão de permissões também continua. O sandbox do Codex é legal, mas fico receoso de ele acabar fazendo um commit por engano; eu preferiria que ele apenas editasse
  Também dá para usar o Codex como servidor MCP, mas, pessoalmente, prefiro ter o Claude como planejador colaborativo, montar o plano com o Codex e depois trabalhar junto com o Claude, ajustando ao meu estilo
- Também recomendo adicionar ultrathink ao prompt e testar enquanto coloca uma música para tocar
  Referência: link do Reddit sobre ultrathink
Ver a capacidade dos modelos recentes me deixa deprimido
Parece que todos aqueles pequenos conhecimentos acumulados ao longo de anos para escrever código limpo estão virando detalhes irrelevantes
Coisas que antes eu via como essenciais agora estão se tornando apenas “detalhes de implementação” do prompt
Dá uma sensação de que as minhas habilidades estão sendo substituídas cada vez mais pela automação
- Esses detalhes finos sempre tiveram importância meio ambígua; no fim, a habilidade real é o próprio processo de ganhar dinheiro com software
  Por causa da IA, ainda mais software será gerado, e especialistas vão continuar sendo necessários para cuidar dele
- Eu também senti a mesma crise nas primeiras quatro semanas ou mais, depois de passar alguns meses trabalhando intensamente em uma função focada em IA
  Especialmente depois de 25 anos acumulando capacidade como desenvolvedor, foi confuso sentir que isso tinha perdido o sentido
  Mas, se você aceitar e se adaptar um pouco mais, a sensação melhora bastante
  Quero muito que você se lembre de que você é mais do que a sua habilidade de programar
- Antes talvez você gostasse da ideia de substituir os outros por automação; agora chegou a sua vez
  Isso é exatamente o fenômeno de “destruição criativa” que torna a economia dinâmica
- Eu também pensava assim antes, mas, depois de usar de verdade, cheguei à conclusão de que não é nada prático
  Especialmente quando pessoas sem experiência dependem de vibe coding, o resultado costuma ser sem sentido, e em tarefas só um pouco mais complexas erros e falhas graves aparecem com frequência
  Também não fiquei satisfeito com automação de frontend; por exemplo, até em tarefas muito simples ele gera código mais longo do que o necessário
  No fim, minha experiência é que ele vai bem no básico de frontend em react/nextjs e em clonar sites populares, mas sofre com exigências incomuns ou design refinado
- Na prática, ferramentas de vibe coding não aumentam tanto assim a produtividade
  No geral, a manutenção do sistema (código/infra etc.) continua sendo responsabilidade humana, e o processo de humanos entenderem a estrutura e o funcionamento do sistema nunca poderá ser automatizado
  No fim, desenvolvedores com pensamento realmente especializado vão se tornar ainda mais raros e, por isso, ainda mais importantes
Pedi ao Sonnet 4 e ao Opus 4.1 uma simples tarefa de substituição de código, e ambos falharam
Era uma transformação que até um iniciante conseguiria fazer, e isso me preocupa: parece que os modelos estão perseguindo pontuações de benchmark e perdendo desempenho no uso real
Depois de um prompt de follow-up (“siga exatamente o que eu pedi”), o Sonnet conseguiu; o Opus entrou em loop infinito
- Há muito tempo existe a preocupação de que a obsessão com benchmark possa prejudicar o desempenho real
  Na minha percepção, o Claude piorou ao passar do 3.7 para o 4, embora os benchmarks tenham melhorado bastante
  Entendo que benchmarking em si é um problema que está ficando para trás em relação à evolução da IA
- Na prática, parece um ciclo de “rodar benchmark, bater recorde → cair no desempenho real → repetir algumas semanas depois com um modelo novo ainda melhor”
- Como os modelos consultam as mesmas fontes de dados (internet, github, livros etc.) e estão sendo otimizados para testes padronizados, eu nem sei mais que diferencial ou valor único sobra além da pontuação
- Acho que já passou da hora de criar um banco de dados comunitário com exemplos de coisas que os LLMs erram; eu mesmo já tenho vários desses casos
- Em coisas simples como pedir para corrigir um erro de lint, acho melhor resolver direto e seguir em frente
  Em vez de tentar extrair significado de uma tarefa simples dessas, vale mais buscar utilidade quando a IA entrega algo excelente em problemas muito mais complexos
No gráfico, o Sonnet 4 já parece estar à frente do GPT-5-codex no benchmark SWE verified, mas, na minha experiência real, em problemas complexos o GPT-5-codex é muito superior
- O GPT-5 é como aquele jogador de beisebol que rebate home runs, mas falha no básico do campo externo
  Mesmo trabalhando com outros agentes, ele às vezes cria drama; recentemente, quando eu disse que ia migrar para claude code, ele insistiu em fazer git reset --hard, agindo de forma imprevisível
  Já o gemini e o claude são excelentes colegas de trabalho
  Não acho que essa sequência de comportamentos do GPT-5 tenha sido intencional; me parece resultado de moral muito baixa dentro da OpenAI
- No meu caso, o 5-codex consumia tokens rápido demais e também seguia menos as instruções do agents.md do que o Claude
  Em especial, até para comandos banais ele queria escrever scripts enormes em bash ou python
- Para mim foi exatamente o contrário: o GPT-5-codex é muito lento e o resultado também é mediano
  Se eu fosse obrigado a usar isso, preferiria abandonar de vez o uso de IA
- Não acho que exista um critério absoluto de desempenho de modelo
  Por exemplo, mesmo quando seleciono Claude-Opus, às vezes ele responde pior do que um modelo baratíssimo
  Há muita variabilidade de desempenho e suspeito que os recursos de servidor mudem conforme o tráfego
  A própria Anthropic já mencionou oficialmente, em certo momento, degradação de desempenho por causa de experimentos
  Também imagino que o GPT possa piorar em horário de pico por limitações de capacidade de data center
- Os modelos da Anthropic parecem ajustados para vibe-coding
  Eles vão bem com Python/TypeScript simples, mas são fracos em código científico/complexo e em codebases grandes
  Também não espero grandes mudanças no Sonnet novo
Fiquei bem interessado na frase promocional “executa tarefas complexas de múltiplas etapas por mais de 30 horas sem perder o foco”
Segundo artigos como o do The Verge, ele teria realmente usado 11 mil linhas de código para gerar um clone do Slack ao longo de 30 horas seguidas
Tenho minhas dúvidas sobre a qualidade do resultado quando se deixa um LLM rodando 30 horas sem supervisão
Artigo relacionado
- Rodar 30 horas seguidas não é algo viável simplesmente deixando o LLM sozinho
  É indispensável configurar o ambiente com integração a ferramentas externas, gestão de contexto etc., e isso pode até exigir um sistema multiagente
  É o tipo de tarefa que só funciona com muita infraestrutura e esforço de setup
- A própria expressão “trabalho não supervisionado por 30 horas” é vaga demais e não traz concretude
  Por exemplo, se ele processar 1 token por hora, talvez só consiga produzir uma única linha de texto nesse período
- Fiquei curioso sobre os detalhes técnicos: se usaram de fato ferramentas de gestão de contexto para o modelo, e como operaram prompts de 200 mil a 1 milhão de tokens
Acabei de testar um issue simples e, como os modelos anteriores, o Sonnet 4.5 também se perde tentando resolver o problema de forma complexa demais
Na maior parte do tempo foi na base de tentativa e erro, repetindo feedback do tipo “agora acho que resolvi”
Por exemplo, havia um erro no pipeline do GH Actions em que o build system não era detectado porque o arquivo-fonte não existia, e o Sonnet 4.5 insistia em soluções distorcidas (criar um JSON dummy, definir parâmetros de workflow que nem existiam)
Na prática, bastava sobrescrever o step para imprimir apenas “Hello world” e pronto
Fico curioso sobre por que a IA é tão fraca nesse tipo de pensamento simples “fora da caixa”
É como um gênio de QI 170 que não consegue nem pegar transporte público
Sou assinante pago de Gemini, Claude e OpenAI, e cheguei à conclusão de que o ChatGPT está bem à frente ultimamente
As respostas são mais concisas, mais informativas, e, ao testar o Claude 4.5, também não senti grandes melhorias
- Mesma situação aqui: também assino os três
  Para analisar situações complexas, o ChatGPT é o melhor, mas, para escrever código, o Claude ainda é melhor
  Eu projeto e resolvo o problema com o ChatGPT, depois passo aquilo para o Claude ou para o Gemini implementarem
  O Gemini fica acima da média nos dois lados
- No geral, o ChatGPT é um pouco melhor, mas o Gemini também pode ser o melhor em contexto de uso real com AI Studio, otimização de configuração e ajuste de system prompt
  Por exemplo, nano banana é SOTA, mas sinto que o Qwen-Edit é menos censurado e, por isso, mais utilizável no mundo real
  No meu serviço de e-commerce localizado, nano banana não serve porque restringe a geração de imagens de mulheres, enquanto o Qwen-Edit funciona sem grande problema
- Também assino tanto o Claude Max quanto o ChatGPT Codex
  Antes eu era fã do Claude, mas ultimamente uso quase só o codex
  Quando ele trava, deixo só as tarefas simples com o Claude ou comparo os dois ao mesmo tempo, mas o Claude Code com Sonnet/Opus sai claramente atrás do Codex
- Seria bom esclarecer se você está mesmo se referindo ao codex
- E o Grok, como está? Está conseguindo acompanhar?
Ainda não usei o Claude, mas faço vários tipos de trabalho com IA, como revisar textos políticos
Em certos temas sensíveis (por exemplo, um caso de abuso sexual de uma menina de 12 anos na Áustria), já vi o ChatGPT simplesmente parar por causa dos guardrails
Não faz sentido detectar apenas as palavras “sex + kid” fora de contexto e bloquear tudo automaticamente
Isso é como um processador de texto censurar o tema e impedir a própria escrita; assim ele deixa de cumprir seu papel como ferramenta
- Na prática, como a proporção de conteúdo inaceitável tende a ser alta demais em relação ao diálogo legítimo nesses temas, do ponto de vista da maioria dos provedores de serviço, bloquear acaba sendo uma decisão razoável
  Por exemplo, no app de gestão de linhagem animal de parentesco que eu desenvolvo, já enfrentei o caso absurdo de o sistema bloquear só por conter termos como breeding ou breeders
- “Serviço” não é ferramenta
  Se você quer uma ferramenta de verdade, a resposta é rodar um LLM localmente
- Acho que, no fim, a IA com menos guardrails vai dominar o mercado
  Entre os modelos frontier atuais, o Grok parece o menos restritivo, embora ainda haja bastante espaço para melhorar
- Tive algo parecido: ao tentar criar uma imagem de cupom de aniversário para minha filha com ChatGPT/DallE, acabei gastando três quartos do tempo contornando políticas de conteúdo
- Pela minha experiência modesta, o Claude bloqueia a conversa ainda mais rápido e com mais rigidez em temas “controversos”
Fiz um teste rápido com o System Initiative
Um erro 503 de infraestrutura que manualmente levaria mais de 2 horas foi resolvido em 15 minutos ao combinar as ferramentas
Reuni outros casos de uso no blog
System Initiative oficial
Post de experiência de uso