- Claude Sonnet 4.5 é o mais novo modelo de IA e apresenta desempenho de ponta em programação, raciocínio e matemática
- O Claude Code atualizado adiciona checkpoints, uma interface de terminal aprimorada, extensão para VS Code e recursos de gerenciamento de memória, permitindo sustentar tarefas complexas por longos períodos
- O recém-lançado Claude Agent SDK fornece a infraestrutura central para desenvolvimento de agentes, permitindo criar diretamente ferramentas para resolver diversos problemas
- Em benchmarks como SWE-bench e OSWorld, supera com folga modelos concorrentes e comprova pontos fortes em matemática, raciocínio e adequação a domínios específicos
- Em segurança, também é avaliado como o modelo mais bem alinhado (alignment), com melhorias na defesa contra prompt injection e no bloqueio de conteúdo de risco
Visão geral do Claude Sonnet 4.5
- Claude Sonnet 4.5 é o melhor modelo de programação disponível hoje, além de oferecer o desempenho mais forte em construção de agentes complexos e uso de computadores
- Em software, planilhas e todos os tipos de ferramentas, ou seja, em praticamente todos os ambientes de trabalho modernos, o código é um elemento central
- A capacidade de raciocínio e resolução de problemas matemáticos também melhorou de forma significativa em relação ao modelo anterior, ampliando sua utilidade em várias áreas especializadas
- Disponível pelo mesmo preço do Sonnet 4 (US$ 3 / US$ 15 por milhão de tokens)
Principais atualizações de produto
- Claude Code
- Introdução de checkpoints para salvar o progresso no meio do trabalho e permitir rollback
- Interface de terminal aprimorada e lançamento de uma extensão nativa para VS Code
- Adição de edição de contexto (
context editing) e ferramentas de memória para lidar com tarefas complexas e de longa duração
- Claude Apps
- Suporte direto, dentro da conversa, para execução de código e criação de arquivos (planilhas, apresentações e documentos)
- Claude for Chrome
- Extensão disponível para usuários Max, com suporte à automação de tarefas dentro do navegador
Claude Agent SDK
- A infraestrutura de agentes usada internamente pela Anthropic para criar o Claude Code foi disponibilizada a desenvolvedores externos
- Fornece uma base que resolve desafios como gerenciamento de memória de longo prazo, controle de permissões e coordenação de múltiplos subagentes
- Pode ser usado não só para programação, mas também para criar diversos tipos de agentes
Desempenho e benchmarks
- Registrou o melhor desempenho no SWE-bench Verified, com capacidade de sustentar tarefas de programação multietapas de longo prazo por mais de 30 horas
- Alcançou 61,4% no benchmark OSWorld (o Sonnet 4 anterior tinha 42,2%)
- Também houve grande melhora em avaliações de raciocínio, matemática e multilinguismo (MMMLU), com alto desempenho comprovado por especialistas de finanças, direito, medicina e STEM
- O feedback de clientes validou sua aplicação prática em produção para tarefas longas, compreensão de codebases complexas e implementação rápida e precisa de código
Casos de clientes
- Cursor: confirmou o melhor desempenho na resolução de problemas complexos
- GitHub Copilot: melhoria em raciocínio multietapas e compreensão de código
- Área de segurança: redução de 44% no tempo de resposta a vulnerabilidades e aumento de 25% na precisão
- Canva, Figma: melhorias revolucionárias de produtividade em trabalho com grandes codebases e prototipagem
- Devin: melhora de 18% no desempenho de planejamento, com reforço em testes e execução de código
Segurança e alinhamento
- O Sonnet 4.5 tem o nível mais alto de alignment entre os modelos já anunciados pela Anthropic
- Foi realizado treinamento de segurança por reforço para reduzir comportamentos indesejáveis como bajulação (
sycophancy), engano, busca por poder e estímulo a delírios
- Houve progresso significativo na defesa contra ataques de prompt injection, e técnicas de interpretabilidade mecanística também foram introduzidas nas avaliações de segurança
- Um sistema automatizado de auditoria de ações calcula pontuações automáticas de potencial de uso indevido, atendendo a altos padrões de segurança
- O lançamento ocorre sob proteções do AI Safety Level 3 (ASL-3), com filtragem para entradas e saídas perigosas (por exemplo, riscos relacionados a química, biologia, radiação e área nuclear)
Prévia de pesquisa
- Junto com o Claude Sonnet 4.5, foi disponibilizada uma prévia temporária de pesquisa chamada "Imagine with Claude"
- Sem código ou funcionalidades pré-programadas, ela demonstra a geração de software em tempo real, reagindo e se adaptando instantaneamente aos pedidos do usuário
- Disponível por 5 dias para assinantes Max
Informações adicionais e migração
Conclusão e recomendação
- Claude Sonnet 4.5 é um modelo substituto drop-in com desempenho aprimorado para todos os ambientes de uso, incluindo API, apps e Claude Code
- Reúne desempenho, aplicabilidade e alinhamento de nível mundial em programação, construção de agentes e uso de computadores
- Com políticas de segurança robustas e amplo suporte a ferramentas para desenvolvedores, deve acelerar a produtividade e a inovação de desenvolvedores e equipes de TI
- Como oferece recursos mais poderosos pelo mesmo preço, o upgrade é recomendado
1 comentários
Comentários no Hacker News
Pessoalmente, achei muito impressionante e, mais por sensação do que por comparação abrangente, pareceu ter desempenho um pouco melhor que o GPT-5-Codex
Acho que ele brilha especialmente no novo modo de interpretador de código Python/Node.js do claude.ai
Recomendo experimentar com um prompt como este
Também lidou muito bem, passo a passo, com um refatoramento complexo de banco de dados; registrei os detalhes no blog
Tenho um pedido para @simonw e para quem se interessa por benchmarks de LLM
Gostaria muito que sempre divulgassem quanto tempo levou para concluir a tarefa
Este post é um relato de “funciona direto no claude.ai”, mas não traz nenhuma informação de timestamp sobre quando o resultado foi obtido
Também acho uma pena que os leaderboards reais de coding com LLM não tragam nenhuma informação de tempo de execução
O tempo varia muito entre modelos e plataformas e, em testes repetidos/reboots e ajustes de prompt, entram em jogo de forma combinada velocidade de inferência, consumo de tokens, eficiência das ferramentas, custo e inteligência do modelo
Em especial, modelos como Grok Code Fast e Cerebras Code, mesmo sem terem o melhor desempenho absoluto, permitem processar muito mais trabalho com velocidade de inferência mais de 10x maior; modelo rápido faz diferença de verdade
Benchmarks que valem acompanhar: swebench, leaderboard do tbench, gosuevals agents
Tentei, mas no meu ambiente isso não funciona
Pelo visto é um comando para configurar a ferramenta de CLI LLM; a opção
-efaz a instalação em modo editável, e[test]instala as dependências de testeA ferramenta que eu tenho não oferece suporte a comandos shell (
pip,pytest), nem agit cloneou execução de PythonNo ambiente do navegador, só dá para executar JavaScript; não é possível rodar comandos em nível de shell
Fiquei curioso sobre o que você esperava: se era entender a configuração dos testes ou se queria mesmo essa funcionalidade
Para quem ficou curioso com o caso de uso do prompt “peça para ele gerar um arquivo zip”
Muita gente não vai ter tempo de abrir a gist diretamente, então eu gostaria de saber se funcionou direito e, se você tiver mais impressões sobre o resultado, seria interessante ouvir
Fico curioso se o Claude Sonnet 4.5 ainda responde a tudo no estilo “você está absolutamente certo!”, ou se agora conversa mais como um programador de verdade
Fiquei curioso para saber como você conseguiu acesso à prévia antecipada
Compartilhando uma experiência real
Apliquei o mesmo prompt em um webapp grande, com cerca de 200 mil LoC, tanto no Sonnet 4.5 (Claude Code) quanto no GPT-5-Codex
O requisito era: “a partir de ‘Go to Conversation’ ou ‘Go to Report’, ao digitar o título e não bater com o elemento padrão, executar uma busca fuzzy após 2 segundos”
O Sonnet 4.5 entregou um resultado em cerca de 3 minutos, mas o código ficou desleixado e ele nem conseguiu reaproveitar o auth existente, tentando criar uma autenticação server-side nova
Mesmo após apontar os problemas e repromptar, quase não houve melhora, e ele também não escreveu os testes, que eram um requisito essencial
Já o GPT-5-Codex levou cerca de 20 minutos, mas tratou com rigor o tratamento de erros e vários edge cases, e ainda escreveu testes sem que eu pedisse
A API também funcionou de forma fluida, e o nível geral de acabamento pareceu qualidade de desenvolvedor Senior
Eu não quero uma implementação “rápida e suja” que sai em 3 minutos, então escolho os 20 minutos sem pensar duas vezes
Fiquei impressionado com a rapidez do Sonnet, como esperado, mas uma implementação sem qualidade de verdade e sem testes não tem valor
Posso soar crítico, mas acho que, começando com um prompt em uma frase simples como essa, o resultado inevitavelmente fica meio aleatório
O importante é estruturar melhor os blocos lógicos e os detalhes das condições, e até o exemplo de prompt parece quase uma frase longa demais
Para tarefas complexas ou importantes, acho que o prompt precisa ser de 5 a 20 vezes mais específico
Quando o input é estruturado e a codebase já segue bons padrões, a IA devolve resultados muito melhores
Na prática, se você desse a um desenvolvedor Junior ou a um time uma exigência resumida em uma única frase, sem detalhamento, também seria compreensível não receber exatamente o que queria
Meu conselho é investir só mais alguns minutos preparando o prompt inicial para aumentar bastante a chance de um resultado satisfatório
Você usa o plano pago ChatGPT Pro? E o Codex CLI está incluído nele?
Uso o Claude Code por causa do plano Max com Sonnet/Opus, mas, se o ChatGPT Pro também permitir usar Codex, eu consideraria trocar
Tive exatamente a mesma experiência
Na semana passada, consegui desenvolver com sucesso um parser completo de XPath 1.0 em C++20 com o Codex, e agora estou avançando no suporte a XPath 2.0
O Codex continua entregando resultados excelentes e, tirando o uso da versão em nuvem (porque a local é difícil de usar por causa de bugs), não tenho muito do que reclamar
O Sonnet continua travando em tarefas de alta complexidade, e no 4.5 também não senti grande evolução
Em particular, no tratamento de date-time, o Claude praticamente desistiu, enquanto o Codex lidou com isso perfeitamente
Na verdade eu tinha boa vontade com a Anthropic, mas até agora me parece que a OpenAI está muito à frente
Se quiser competir com o Codex, o Claude vai precisar de um avanço importante; além disso, é caro, e os problemas de qualidade de serviço estão afastando muitos usuários
Isso bate com as minhas expectativas
O Codex se parece mais com uma ferramenta de vibe coding, enquanto o Claude Code está mais focado em desenvolvimento assistido por IA
Eu, pessoalmente, até prefiro o Claude
O Codex funciona muito bem sozinho, mas quando a direção muda — por exemplo, insistindo em resolver até uma edição de arquivo muito simples com script Python — ele fica sutilmente teimoso e também não acompanha tão bem informações recentes
Mesmo quando você pede explicações, ele tende a simplesmente executar sem muito contexto
A questão de permissões também continua. O sandbox do Codex é legal, mas fico receoso de ele acabar fazendo um commit por engano; eu preferiria que ele apenas editasse
Também dá para usar o Codex como servidor MCP, mas, pessoalmente, prefiro ter o Claude como planejador colaborativo, montar o plano com o Codex e depois trabalhar junto com o Claude, ajustando ao meu estilo
Também recomendo adicionar
ultrathinkao prompt e testar enquanto coloca uma música para tocarReferência: link do Reddit sobre ultrathink
Ver a capacidade dos modelos recentes me deixa deprimido
Parece que todos aqueles pequenos conhecimentos acumulados ao longo de anos para escrever código limpo estão virando detalhes irrelevantes
Coisas que antes eu via como essenciais agora estão se tornando apenas “detalhes de implementação” do prompt
Dá uma sensação de que as minhas habilidades estão sendo substituídas cada vez mais pela automação
Esses detalhes finos sempre tiveram importância meio ambígua; no fim, a habilidade real é o próprio processo de ganhar dinheiro com software
Por causa da IA, ainda mais software será gerado, e especialistas vão continuar sendo necessários para cuidar dele
Eu também senti a mesma crise nas primeiras quatro semanas ou mais, depois de passar alguns meses trabalhando intensamente em uma função focada em IA
Especialmente depois de 25 anos acumulando capacidade como desenvolvedor, foi confuso sentir que isso tinha perdido o sentido
Mas, se você aceitar e se adaptar um pouco mais, a sensação melhora bastante
Quero muito que você se lembre de que você é mais do que a sua habilidade de programar
Antes talvez você gostasse da ideia de substituir os outros por automação; agora chegou a sua vez
Isso é exatamente o fenômeno de “destruição criativa” que torna a economia dinâmica
Eu também pensava assim antes, mas, depois de usar de verdade, cheguei à conclusão de que não é nada prático
Especialmente quando pessoas sem experiência dependem de vibe coding, o resultado costuma ser sem sentido, e em tarefas só um pouco mais complexas erros e falhas graves aparecem com frequência
Também não fiquei satisfeito com automação de frontend; por exemplo, até em tarefas muito simples ele gera código mais longo do que o necessário
No fim, minha experiência é que ele vai bem no básico de frontend em react/nextjs e em clonar sites populares, mas sofre com exigências incomuns ou design refinado
Na prática, ferramentas de vibe coding não aumentam tanto assim a produtividade
No geral, a manutenção do sistema (código/infra etc.) continua sendo responsabilidade humana, e o processo de humanos entenderem a estrutura e o funcionamento do sistema nunca poderá ser automatizado
No fim, desenvolvedores com pensamento realmente especializado vão se tornar ainda mais raros e, por isso, ainda mais importantes
Pedi ao Sonnet 4 e ao Opus 4.1 uma simples tarefa de substituição de código, e ambos falharam
Era uma transformação que até um iniciante conseguiria fazer, e isso me preocupa: parece que os modelos estão perseguindo pontuações de benchmark e perdendo desempenho no uso real
Depois de um prompt de follow-up (“siga exatamente o que eu pedi”), o Sonnet conseguiu; o Opus entrou em loop infinito
Há muito tempo existe a preocupação de que a obsessão com benchmark possa prejudicar o desempenho real
Na minha percepção, o Claude piorou ao passar do 3.7 para o 4, embora os benchmarks tenham melhorado bastante
Entendo que benchmarking em si é um problema que está ficando para trás em relação à evolução da IA
Na prática, parece um ciclo de “rodar benchmark, bater recorde → cair no desempenho real → repetir algumas semanas depois com um modelo novo ainda melhor”
Como os modelos consultam as mesmas fontes de dados (internet, github, livros etc.) e estão sendo otimizados para testes padronizados, eu nem sei mais que diferencial ou valor único sobra além da pontuação
Acho que já passou da hora de criar um banco de dados comunitário com exemplos de coisas que os LLMs erram; eu mesmo já tenho vários desses casos
Em coisas simples como pedir para corrigir um erro de lint, acho melhor resolver direto e seguir em frente
Em vez de tentar extrair significado de uma tarefa simples dessas, vale mais buscar utilidade quando a IA entrega algo excelente em problemas muito mais complexos
No gráfico, o Sonnet 4 já parece estar à frente do GPT-5-codex no benchmark SWE verified, mas, na minha experiência real, em problemas complexos o GPT-5-codex é muito superior
O GPT-5 é como aquele jogador de beisebol que rebate home runs, mas falha no básico do campo externo
Mesmo trabalhando com outros agentes, ele às vezes cria drama; recentemente, quando eu disse que ia migrar para claude code, ele insistiu em fazer
git reset --hard, agindo de forma imprevisívelJá o gemini e o claude são excelentes colegas de trabalho
Não acho que essa sequência de comportamentos do GPT-5 tenha sido intencional; me parece resultado de moral muito baixa dentro da OpenAI
No meu caso, o 5-codex consumia tokens rápido demais e também seguia menos as instruções do
agents.mddo que o ClaudeEm especial, até para comandos banais ele queria escrever scripts enormes em bash ou python
Para mim foi exatamente o contrário: o GPT-5-codex é muito lento e o resultado também é mediano
Se eu fosse obrigado a usar isso, preferiria abandonar de vez o uso de IA
Não acho que exista um critério absoluto de desempenho de modelo
Por exemplo, mesmo quando seleciono Claude-Opus, às vezes ele responde pior do que um modelo baratíssimo
Há muita variabilidade de desempenho e suspeito que os recursos de servidor mudem conforme o tráfego
A própria Anthropic já mencionou oficialmente, em certo momento, degradação de desempenho por causa de experimentos
Também imagino que o GPT possa piorar em horário de pico por limitações de capacidade de data center
Os modelos da Anthropic parecem ajustados para vibe-coding
Eles vão bem com Python/TypeScript simples, mas são fracos em código científico/complexo e em codebases grandes
Também não espero grandes mudanças no Sonnet novo
Fiquei bem interessado na frase promocional “executa tarefas complexas de múltiplas etapas por mais de 30 horas sem perder o foco”
Segundo artigos como o do The Verge, ele teria realmente usado 11 mil linhas de código para gerar um clone do Slack ao longo de 30 horas seguidas
Tenho minhas dúvidas sobre a qualidade do resultado quando se deixa um LLM rodando 30 horas sem supervisão
Artigo relacionado
Rodar 30 horas seguidas não é algo viável simplesmente deixando o LLM sozinho
É indispensável configurar o ambiente com integração a ferramentas externas, gestão de contexto etc., e isso pode até exigir um sistema multiagente
É o tipo de tarefa que só funciona com muita infraestrutura e esforço de setup
A própria expressão “trabalho não supervisionado por 30 horas” é vaga demais e não traz concretude
Por exemplo, se ele processar 1 token por hora, talvez só consiga produzir uma única linha de texto nesse período
Fiquei curioso sobre os detalhes técnicos: se usaram de fato ferramentas de gestão de contexto para o modelo, e como operaram prompts de 200 mil a 1 milhão de tokens
Acabei de testar um issue simples e, como os modelos anteriores, o Sonnet 4.5 também se perde tentando resolver o problema de forma complexa demais
Na maior parte do tempo foi na base de tentativa e erro, repetindo feedback do tipo “agora acho que resolvi”
Por exemplo, havia um erro no pipeline do GH Actions em que o build system não era detectado porque o arquivo-fonte não existia, e o Sonnet 4.5 insistia em soluções distorcidas (criar um JSON dummy, definir parâmetros de workflow que nem existiam)
Na prática, bastava sobrescrever o step para imprimir apenas “Hello world” e pronto
Fico curioso sobre por que a IA é tão fraca nesse tipo de pensamento simples “fora da caixa”
É como um gênio de QI 170 que não consegue nem pegar transporte público
Sou assinante pago de Gemini, Claude e OpenAI, e cheguei à conclusão de que o ChatGPT está bem à frente ultimamente
As respostas são mais concisas, mais informativas, e, ao testar o Claude 4.5, também não senti grandes melhorias
Mesma situação aqui: também assino os três
Para analisar situações complexas, o ChatGPT é o melhor, mas, para escrever código, o Claude ainda é melhor
Eu projeto e resolvo o problema com o ChatGPT, depois passo aquilo para o Claude ou para o Gemini implementarem
O Gemini fica acima da média nos dois lados
No geral, o ChatGPT é um pouco melhor, mas o Gemini também pode ser o melhor em contexto de uso real com AI Studio, otimização de configuração e ajuste de system prompt
Por exemplo, nano banana é SOTA, mas sinto que o Qwen-Edit é menos censurado e, por isso, mais utilizável no mundo real
No meu serviço de e-commerce localizado, nano banana não serve porque restringe a geração de imagens de mulheres, enquanto o Qwen-Edit funciona sem grande problema
Também assino tanto o Claude Max quanto o ChatGPT Codex
Antes eu era fã do Claude, mas ultimamente uso quase só o codex
Quando ele trava, deixo só as tarefas simples com o Claude ou comparo os dois ao mesmo tempo, mas o Claude Code com Sonnet/Opus sai claramente atrás do Codex
Seria bom esclarecer se você está mesmo se referindo ao codex
E o Grok, como está? Está conseguindo acompanhar?
Ainda não usei o Claude, mas faço vários tipos de trabalho com IA, como revisar textos políticos
Em certos temas sensíveis (por exemplo, um caso de abuso sexual de uma menina de 12 anos na Áustria), já vi o ChatGPT simplesmente parar por causa dos guardrails
Não faz sentido detectar apenas as palavras “sex + kid” fora de contexto e bloquear tudo automaticamente
Isso é como um processador de texto censurar o tema e impedir a própria escrita; assim ele deixa de cumprir seu papel como ferramenta
Na prática, como a proporção de conteúdo inaceitável tende a ser alta demais em relação ao diálogo legítimo nesses temas, do ponto de vista da maioria dos provedores de serviço, bloquear acaba sendo uma decisão razoável
Por exemplo, no app de gestão de linhagem animal de parentesco que eu desenvolvo, já enfrentei o caso absurdo de o sistema bloquear só por conter termos como
breedingoubreeders“Serviço” não é ferramenta
Se você quer uma ferramenta de verdade, a resposta é rodar um LLM localmente
Acho que, no fim, a IA com menos guardrails vai dominar o mercado
Entre os modelos frontier atuais, o Grok parece o menos restritivo, embora ainda haja bastante espaço para melhorar
Tive algo parecido: ao tentar criar uma imagem de cupom de aniversário para minha filha com ChatGPT/DallE, acabei gastando três quartos do tempo contornando políticas de conteúdo
Pela minha experiência modesta, o Claude bloqueia a conversa ainda mais rápido e com mais rigidez em temas “controversos”
Fiz um teste rápido com o System Initiative
Um erro 503 de infraestrutura que manualmente levaria mais de 2 horas foi resolvido em 15 minutos ao combinar as ferramentas
Reuni outros casos de uso no blog
System Initiative oficial
Post de experiência de uso