Claude Sonnet 5 é lançado
(anthropic.com)- A Anthropic lançou o Claude Sonnet 5 em 30 de junho de 2026 e busca oferecer capacidade de execução agentic mais próxima de modelos da classe Opus, mas com custo de nível Sonnet
- Em comparação com o Sonnet 4.6, houve melhorias em raciocínio, uso de ferramentas, programação e trabalho com conhecimento, e o ajuste de effort permite escolher com mais precisão o equilíbrio entre custo e desempenho para cada tarefa
- Nas avaliações de segurança, apresentou níveis menores que o Sonnet 4.6 em comportamento indesejado, alucinações, bajulação, aceitação de solicitações maliciosas e vulnerabilidade a sequestro por prompt injection, embora alguns comportamentos desalinhados tenham ficado acima do Opus 4.8 e do Claude Mythos Preview
- Nos planos Free e Pro, é oferecido como modelo padrão; também pode ser usado no Max, Team, Enterprise, Claude Code e Claude Platform, e o nome do modelo na API é
claude-sonnet-5 - O preço no Claude Platform até 31 de agosto de 2026 é de $2 por 1 milhão de tokens de entrada e $10 por 1 milhão de tokens de saída; depois disso, passa para $3 na entrada e $15 na saída, e com o novo tokenizador a quantidade de tokens para a mesma entrada pode variar cerca de 1,0–1,35x dependendo do tipo de conteúdo
Faixa mais ampla de execução agentic na classe Sonnet
- O Claude Sonnet 5 foi projetado como o modelo Sonnet mais agentic até agora, com foco em atingir um nível de execução autônoma que, há alguns meses, exigiria um modelo maior e mais caro
- Foi aprimorado para lidar, em um modelo da classe Sonnet, com planejamento, uso de ferramentas como navegador e terminal, e execução autônoma
- Sonnet 3.5, 3.6 e 3.7 se consolidaram como os primeiros modelos da classe Sonnet a mostrar aos desenvolvedores capacidade de programação e uso de ferramentas, e depois disso as melhorias mais claras em capacidades agentic apareceram nos modelos da classe Opus
- O Sonnet 5 reduz a distância em relação ao Opus 4.8 e entrega desempenho próximo ao Opus 4.8 em uma faixa de preço mais baixa
Avaliação de desempenho e ajuste de effort
- Em relação ao Sonnet 4.6, o Sonnet 5 melhorou bastante em itens de desempenho agentic como raciocínio, uso de ferramentas, programação e tarefas de conhecimento
- Nas avaliações de busca agentic BrowseComp e de uso de computador OSWorld-Verified, mostrou resultados consistentemente melhores que o Sonnet 4.6
- Na comparação por níveis de effort, o Sonnet 5 oferece uma faixa mais ampla de escolhas entre custo e desempenho do que o Opus 4.8
- Em effort médio, a eficiência de custo melhora bastante
- Em effort alto, pode igualar o desempenho do Opus 4.8 em algumas tarefas
- O usuário pode ajustar o nível de effort entre Sonnet 5 e Opus 4.8 para escolher o equilíbrio de custo e desempenho adequado ao projeto
Forma de trabalho observada nos casos iniciais de uso
- Parceiros com acesso antecipado avaliaram o Sonnet 5 como muito mais agentic do que os modelos Sonnet anteriores
- Houve casos em que ele concluiu tarefas complexas nas quais modelos Sonnet anteriores paravam no meio e verificou seus próprios resultados mesmo sem solicitação explícita
- Os fluxos de trabalho confirmados incluem tarefas de programação e não programação
- Em tarefas de engenharia de software em várias etapas, lidou com programação contínua, uso de ferramentas e depuração
- Concluiu de ponta a ponta uma tarefa em duas etapas composta por atualização de classificação de contas no Salesforce e envio de anúncio de lançamento para contatos corporativos
- Executou por conta própria dezenas de pull requests reais até chegar a resultados testados e validados
- Na investigação de bugs, realizou de uma vez a criação de testes de reprodução, implementação da correção,
stashdas mudanças e verificação de recorrência do bug - Mostrou pontos fortes em código brownfield ao rastrear race condition, hidden test e a causa-raiz real da falha
- Também surgiram casos de melhora em desempenho e velocidade em trabalhos não relacionados a programação, como pesquisa e análise jurídica, exploração de dados ao vivo no ClickHouse e fluxos de trabalho de seguros da Pace
Avaliações de segurança e restrições de cibersegurança
- Nas avaliações de segurança antes da implantação, o Sonnet 5 mostrou melhora geral de segurança em relação ao Sonnet 4.6
- No aspecto de segurança agentic, melhorou na recusa a solicitações maliciosas e na resistência a tentativas de sequestro por ataques de prompt injection
- Apresentou taxas menores de alucinação e bajulação que o Sonnet 4.6 e, em auditorias automáticas de comportamento que verificam desalinhamentos como cooperação com uso indevido e engano, obteve pontuação menor, ou seja, resultado mais seguro
- Ainda assim, em comparação com o Opus 4.8 e o Claude Mythos Preview, que têm capacidades mais altas, algumas taxas de comportamento desalinhado ficaram um pouco mais altas nessa avaliação
- O Sonnet 5 não foi treinado intencionalmente para tarefas de cibersegurança
- Pode realizar algumas tarefas cibernéticas cotidianas e inofensivas
- Em avaliações de habilidades cibernéticas potencialmente perigosas, como desenvolvimento de exploits de software, teve desempenho muito inferior ao Opus 4.8 e ao Mythos 5
- Na avaliação de desenvolvimento de exploit para vulnerabilidade do navegador Firefox, não conseguiu criar um exploit totalmente funcional, embora sua taxa de sucesso parcial tenha sido um pouco maior que a do Sonnet 4.6
- Como ficou um pouco mais forte nessa categoria do que modelos anteriores, foi lançado com proteções cibernéticas ativadas por padrão
- Detecta e bloqueia em tempo real usos cibernéticos perigosos
- São as mesmas proteções aplicadas ao Claude Opus 4.7 e 4.8
- Como o nível geral de risco de cibersegurança do Sonnet 5 foi considerado baixo, as proteções são menos rígidas do que as do Fable 5, que bloqueiam uma faixa mais ampla de tarefas de cibersegurança
- A avaliação completa pode ser consultada em Claude Sonnet 5 System Card
Disponibilidade, preço e API
- O Claude Sonnet 5 está disponível em todos os planos
- É o modelo padrão dos planos Free e Pro
- Usuários Max, Team e Enterprise podem utilizá-lo
- Também está disponível no Claude Code e no Claude Platform
- Desenvolvedores podem usar
claude-sonnet-5na Claude API - O preço de lançamento no Claude Platform até 31 de agosto de 2026 é de $2 por 1 milhão de tokens de entrada e $10 por 1 milhão de tokens de saída
- Depois disso, o preço padrão passa para $3 por 1 milhão de tokens de entrada e $15 por 1 milhão de tokens de saída
- Para acomodar o aumento no uso de tokens em níveis altos de effort, os limites de solicitação foram ampliados em Chat, Cowork, Claude Code e Claude Platform
- O Sonnet 5 é uma atualização do Sonnet 4.6, mas usa um tokenizador atualizado
- A forma de processar texto mudou para melhorar o desempenho
- A mesma entrada pode ser mapeada para cerca de 1,0–1,35x em tokens, dependendo do tipo de conteúdo
- O preço de introdução foi definido para que a migração para o Sonnet 5 seja, em geral, neutra em custo
Atualização do gráfico do BrowseComp
- Em uma edição de 30 de junho de 2026, o gráfico de custo-desempenho da avaliação BrowseComp foi atualizado
- O gráfico original se baseava em dados de uma metodologia mais simples que não refletia a metodologia padrão usada pela Anthropic para avaliar busca agentic, e por isso subestimava o desempenho do Sonnet 5
- O gráfico atualizado foi alinhado à metodologia padrão e à abordagem usada e discutida no system card do Sonnet 5
- Essa abordagem usa orçamento de 10M tokens, compressão e chamadas de ferramentas programáticas
- O texto explicativo ao redor também foi atualizado
4 comentários
Talvez seja porque me acostumei com o opus4.8, ou porque fiquei um bom tempo sem usar o Sonnet...
Usei o Sonnet um pouco hoje e fiquei muito decepcionado.
No passado, talvez eu tivesse ficado plenamente satisfeito, mas ele alucinou bem mais do que eu esperava.
Me dá o fable...
Lança logo o Fable... 😢😢
Opiniões no Hacker News
Olhando o gráfico de custo por tarefa, parece que Sonnet 5 não deve ser usado acima do nível médio de esforço. Pelo mesmo custo, o Opus sempre é melhor, então, se o Sonnet 5 no nível médio não for suficiente, a conclusão parece ser trocar de modelo em vez de aumentar o nível de esforço
Na prática, acabo só usando o padrão do Claude Code, e isso já funciona bem o bastante. Ainda assim, fico curioso para saber o quanto outros usuários experimentam e otimizam essas configurações de acordo com o projeto
Além disso, em algumas tarefas, o mais importante é simplesmente o volume puro de tokens de entrada. Por exemplo, tarefas multimodais de uso do computador não ficam mais eficientes no Opus só por reduzir o raciocínio, então um modelo mais barato como o Sonnet é útil
Dito isso, na prática se perde tempo demais corrigindo o que o modelo produziu, então acho que um modelo mais inteligente, mesmo sendo mais lento, reduz o tempo total
[0]: https://aibenchy.com/compare/anthropic-claude-sonnet-4-6-med...
Testando no meu benchmark[0], ele ficou em nível de GLM-5.2, com custo 2x maior, mas também 2x mais rápido
Os pontos fracos são 0/3 em quiz de conhecimento geral, então quase não tem conhecimento embutido; 45/100 em tarefas compostas de chamada de ferramentas, então às vezes faz chamadas erradas; e 77 em resolução de quebra-cabeças, cometendo erros em testes do tipo lava-rápido
[0]: https://aibenchy.com/compare/anthropic-claude-sonnet-4-6-med...
Já o Sonnet 5 foi muito mais preguiçoso do que qualquer Claude que usei, e depois de não acrescentar os complementos de plano que pedi, ainda mentiu quando perguntei se tinha feito isso. Pela análise[0], para mim ele parece não ter valor, embora possa ser diferente para outras pessoas. O Fable foi claramente muito melhor
[0]: https://artificialanalysis.ai/models/claude-sonnet-5
Em vários benchmarks, em níveis de esforço acima do médio, o custo por tarefa passa do Opus, então é difícil entender por que usar isso em vez de simplesmente usar Opus em baixo esforço
A única coisa que me vem à cabeça é ficar sem créditos de Opus. Claro, pode haver casos de uso com cobrança via API, mas mesmo assim eu provavelmente usaria Opus em baixo esforço
Parece que os modelos estão sendo otimizados mais para extrair dinheiro do usuário e da empresa do que para resolver problemas. Eu dei instruções claras para uma tarefa simples de Python de 2 ou 3 linhas, e não sei por que o Opus quer construir uma biblioteca inteira
Mas, ao resolver problemas reais de forma iterativa e exploratória, o contexto vai ficando cada vez maior, e aí o Opus muitas vezes fica caro
[0] https://www.anthropic.com/claude-sonnet-5-system-card
Dizem que o Claude Sonnet 5 foi feito para ser o mais agentic entre os Sonnet até agora. Ele faz planos, usa ferramentas como navegador ou terminal e consegue executar tarefas de forma autônoma em um nível que, até poucos meses atrás, exigiria modelos maiores e mais caros
Eu tenho usado mais desenvolvimento assistido por agente do que desenvolvimento totalmente conduzido por agente, então vinha usando mais o Sonnet 4.6 do que o Opus. Mas esse anúncio não me parece positivo. Quanto mais um modelo é otimizado para desenvolvimento totalmente agentic, pior ele tende a ficar para desenvolvimento assistido, e mesmo com instruções muito rígidas e específicas muitas vezes ele faz coisa demais
Nas últimas semanas tenho migrado cada vez mais para K2.7 Code e GLM-5.2. Para uso assistido eles costumam ser suficientes, além de serem muito rápidos e baratos
O problema é que as pessoas dentro dessas empresas parecem acreditar que, daqui a 1 ou 2 anos, ninguém mais vai trabalhar desse jeito
Precisa de um pouco mais de correção do que o Opus. Mas o verdadeiro critério está entre “preciso ler cada linha” e “posso confiar sem ler cada linha”, e para mim nenhum modelo chegou ao segundo ponto, nem parece que vai chegar tão cedo. Ele não é tão bom quanto o Opus para fazer brainstorming de arquitetura e transformar isso em código, mas esse nem sempre é o problema, e quando for preciso dá para usar o Opus
Isso faz com que, mesmo em semanas com muito código, eu não bata no limite de gastos já na quarta ou quinta-feira e tenha folga a semana inteira. Mas, na prática, sinto que preciso segurar o K2.6 muito mais do que o Opus. Se eu só quiser fazer uma pergunta, preciso tomar muito mais cuidado para que ele não saia imediatamente inferindo que é uma tarefa de programação e corra para codificar. Uso ambos em modo de planejamento, mas com o K2.6 preciso ser mais defensivo do que com o Opus
A maior parte do meu trabalho é mais próxima de engenharia agentic do que de um modo de “jogar e esquecer”. Continuo envolvido até na fase de planejamento, reviso os resultados e faço muito mais perguntas ao agente do que outras pessoas. O modo que funciona melhor para mim é usá-lo como uma “autocompletar superpotente”: eu defino requisitos, escopo, design e às vezes até limites específicos de módulos, e ele preenche os espaços em branco
Também parece ter pior custo-benefício do que o GLM 5.2. E isso mesmo com o GLM 5.2 tendo apenas 744B parâmetros
No system card está escrito: “na descoberta de vulnerabilidades do CyberGym, o Claude Sonnet 5 é menos competente que o Sonnet 4.6 e muito menos competente que o Opus 4.8 e o Mythos 5”
Também diz: “como nas outras avaliações desta seção, este resultado foi obtido com todas as proteções desativadas. Quando executado com as mitigações padrão ativadas, o Sonnet 5 tirou 0 no CyberGym”
Foi parecido em planejamento e programação. No papel, o GLM-5.2 parece bom, mas o resultado no uso real foi diferente
Não estou tentando defender nem o Claude nem o GLM-5.2. O que aprendi usando grandes modelos de linguagem todos os dias desde novembro de 2022 é que testes genéricos precisam ser verificados no seu próprio projeto. Não existe “um modelo que domina tudo”; é preciso encontrar o modelo certo dentro de um palheiro com milhares deles
Benchmarks ajudam, mas estão ficando cada vez mais parecidos com especificações de consumo em publicidade de carro. O consumo real varia de pessoa para pessoa
É sempre algo como: “o modelo X é Y% melhor ou pior que o Claude Z no benchmark T”, “isso não significa nada, é otimizado para benchmark”, “não serve para programação do dia a dia nem para trabalho agentic, a sensação é totalmente errada”, “é quase igual e muito mais barato, então eu uso sem pensar”, “a diferença incremental de desempenho faz com que o menor custo dos modelos abertos não compense a perda de produtividade e, por isso, não se justifique”
Sou um cliente insatisfeito da Anthropic e realmente torço por modelos abertos e por inteligência não fechada. Mas já não sei como sair da repetição desse discurso sobre lançamentos de modelos que virou quase um meme. Eu também não sou alguém que projeta grandes modelos de linguagem nem benchmarks, e sou sinceramente grato pelos esforços para fornecer informação, mesmo que não sejam perfeitos. Imagino que a maioria das pessoas que lê regularmente os comentários desses anúncios sinta algo parecido
O Claude Sonnet 5 descreveu seu próprio pelicano como se fosse um ganso
“um ganso branco está andando de bicicleta, com uma asa estendida para a frente segurando o guidão, sobre um fundo branco simples com uma linha marrom no chão”
https://simonwillison.net/2026/Jun/30/claude-sonnet-5/
Já o GLM 5.2 desenhou um pelicano SVG totalmente animado, bonito e funcionando de forma independente
https://simonwillison.net/2026/Jun/17/glm-52
Hoje usei um pouco o Sonnet 5 por engano, e em desenvolvimento de software ele pareceu consideravelmente pior do que o Opus 4.8
Fico me perguntando se a paranoia excessiva com cibersegurança acaba fazendo o modelo gerar código menos seguro. Ter a capacidade de produzir código seguro significa que ele sabe alguma coisa sobre cibersegurança, e com esse conhecimento também daria para dizer que ele poderia hackear bancos no mundo todo
Eu estava bem animado com esse modelo, então em três projetos diferentes pedi aos planejadores Opus que usassem Sonnet em vez de subagentes Opus para ajudar a acelerar experimentos de kernel HPC. Mas ele não escreveu uma única linha de código, e os Sonnets só ficaram rodando em círculos e desperdiçando tokens
Nem lembro da última vez que isso aconteceu com Opus na minha base de código. Estou revertendo agora
Sumiu sozinho
O ponto importante é este. “Sonnet 5 é um upgrade do Sonnet 4.6, mas usa um tokenizer atualizado que muda a forma como o modelo processa texto para melhorar o desempenho. Isso é parecido com a mudança de tokenizer introduzida no Claude Opus 4.7. O custo é que a mesma entrada pode ser mapeada para mais tokens. Dependendo do tipo de conteúdo, isso fica em torno de 1,0~1,35x. O preço de lançamento foi definido para que a migração para o Sonnet 5 fique aproximadamente neutra em custo”