6 pontos por GN⁺ 3 시간 전 | 4 comentários | Compartilhar no WhatsApp
  • A Anthropic lançou o Claude Sonnet 5 em 30 de junho de 2026 e busca oferecer capacidade de execução agentic mais próxima de modelos da classe Opus, mas com custo de nível Sonnet
  • Em comparação com o Sonnet 4.6, houve melhorias em raciocínio, uso de ferramentas, programação e trabalho com conhecimento, e o ajuste de effort permite escolher com mais precisão o equilíbrio entre custo e desempenho para cada tarefa
  • Nas avaliações de segurança, apresentou níveis menores que o Sonnet 4.6 em comportamento indesejado, alucinações, bajulação, aceitação de solicitações maliciosas e vulnerabilidade a sequestro por prompt injection, embora alguns comportamentos desalinhados tenham ficado acima do Opus 4.8 e do Claude Mythos Preview
  • Nos planos Free e Pro, é oferecido como modelo padrão; também pode ser usado no Max, Team, Enterprise, Claude Code e Claude Platform, e o nome do modelo na API é claude-sonnet-5
  • O preço no Claude Platform até 31 de agosto de 2026 é de $2 por 1 milhão de tokens de entrada e $10 por 1 milhão de tokens de saída; depois disso, passa para $3 na entrada e $15 na saída, e com o novo tokenizador a quantidade de tokens para a mesma entrada pode variar cerca de 1,0–1,35x dependendo do tipo de conteúdo

Faixa mais ampla de execução agentic na classe Sonnet

  • O Claude Sonnet 5 foi projetado como o modelo Sonnet mais agentic até agora, com foco em atingir um nível de execução autônoma que, há alguns meses, exigiria um modelo maior e mais caro
  • Foi aprimorado para lidar, em um modelo da classe Sonnet, com planejamento, uso de ferramentas como navegador e terminal, e execução autônoma
  • Sonnet 3.5, 3.6 e 3.7 se consolidaram como os primeiros modelos da classe Sonnet a mostrar aos desenvolvedores capacidade de programação e uso de ferramentas, e depois disso as melhorias mais claras em capacidades agentic apareceram nos modelos da classe Opus
  • O Sonnet 5 reduz a distância em relação ao Opus 4.8 e entrega desempenho próximo ao Opus 4.8 em uma faixa de preço mais baixa

Avaliação de desempenho e ajuste de effort

  • Em relação ao Sonnet 4.6, o Sonnet 5 melhorou bastante em itens de desempenho agentic como raciocínio, uso de ferramentas, programação e tarefas de conhecimento
  • Nas avaliações de busca agentic BrowseComp e de uso de computador OSWorld-Verified, mostrou resultados consistentemente melhores que o Sonnet 4.6
  • Na comparação por níveis de effort, o Sonnet 5 oferece uma faixa mais ampla de escolhas entre custo e desempenho do que o Opus 4.8
    • Em effort médio, a eficiência de custo melhora bastante
    • Em effort alto, pode igualar o desempenho do Opus 4.8 em algumas tarefas
  • O usuário pode ajustar o nível de effort entre Sonnet 5 e Opus 4.8 para escolher o equilíbrio de custo e desempenho adequado ao projeto

Forma de trabalho observada nos casos iniciais de uso

  • Parceiros com acesso antecipado avaliaram o Sonnet 5 como muito mais agentic do que os modelos Sonnet anteriores
  • Houve casos em que ele concluiu tarefas complexas nas quais modelos Sonnet anteriores paravam no meio e verificou seus próprios resultados mesmo sem solicitação explícita
  • Os fluxos de trabalho confirmados incluem tarefas de programação e não programação
    • Em tarefas de engenharia de software em várias etapas, lidou com programação contínua, uso de ferramentas e depuração
    • Concluiu de ponta a ponta uma tarefa em duas etapas composta por atualização de classificação de contas no Salesforce e envio de anúncio de lançamento para contatos corporativos
    • Executou por conta própria dezenas de pull requests reais até chegar a resultados testados e validados
    • Na investigação de bugs, realizou de uma vez a criação de testes de reprodução, implementação da correção, stash das mudanças e verificação de recorrência do bug
    • Mostrou pontos fortes em código brownfield ao rastrear race condition, hidden test e a causa-raiz real da falha
  • Também surgiram casos de melhora em desempenho e velocidade em trabalhos não relacionados a programação, como pesquisa e análise jurídica, exploração de dados ao vivo no ClickHouse e fluxos de trabalho de seguros da Pace

Avaliações de segurança e restrições de cibersegurança

  • Nas avaliações de segurança antes da implantação, o Sonnet 5 mostrou melhora geral de segurança em relação ao Sonnet 4.6
  • No aspecto de segurança agentic, melhorou na recusa a solicitações maliciosas e na resistência a tentativas de sequestro por ataques de prompt injection
  • Apresentou taxas menores de alucinação e bajulação que o Sonnet 4.6 e, em auditorias automáticas de comportamento que verificam desalinhamentos como cooperação com uso indevido e engano, obteve pontuação menor, ou seja, resultado mais seguro
  • Ainda assim, em comparação com o Opus 4.8 e o Claude Mythos Preview, que têm capacidades mais altas, algumas taxas de comportamento desalinhado ficaram um pouco mais altas nessa avaliação
  • O Sonnet 5 não foi treinado intencionalmente para tarefas de cibersegurança
    • Pode realizar algumas tarefas cibernéticas cotidianas e inofensivas
    • Em avaliações de habilidades cibernéticas potencialmente perigosas, como desenvolvimento de exploits de software, teve desempenho muito inferior ao Opus 4.8 e ao Mythos 5
    • Na avaliação de desenvolvimento de exploit para vulnerabilidade do navegador Firefox, não conseguiu criar um exploit totalmente funcional, embora sua taxa de sucesso parcial tenha sido um pouco maior que a do Sonnet 4.6
  • Como ficou um pouco mais forte nessa categoria do que modelos anteriores, foi lançado com proteções cibernéticas ativadas por padrão
    • Detecta e bloqueia em tempo real usos cibernéticos perigosos
    • São as mesmas proteções aplicadas ao Claude Opus 4.7 e 4.8
    • Como o nível geral de risco de cibersegurança do Sonnet 5 foi considerado baixo, as proteções são menos rígidas do que as do Fable 5, que bloqueiam uma faixa mais ampla de tarefas de cibersegurança
  • A avaliação completa pode ser consultada em Claude Sonnet 5 System Card

Disponibilidade, preço e API

  • O Claude Sonnet 5 está disponível em todos os planos
    • É o modelo padrão dos planos Free e Pro
    • Usuários Max, Team e Enterprise podem utilizá-lo
    • Também está disponível no Claude Code e no Claude Platform
  • Desenvolvedores podem usar claude-sonnet-5 na Claude API
  • O preço de lançamento no Claude Platform até 31 de agosto de 2026 é de $2 por 1 milhão de tokens de entrada e $10 por 1 milhão de tokens de saída
  • Depois disso, o preço padrão passa para $3 por 1 milhão de tokens de entrada e $15 por 1 milhão de tokens de saída
  • Para acomodar o aumento no uso de tokens em níveis altos de effort, os limites de solicitação foram ampliados em Chat, Cowork, Claude Code e Claude Platform
  • O Sonnet 5 é uma atualização do Sonnet 4.6, mas usa um tokenizador atualizado
    • A forma de processar texto mudou para melhorar o desempenho
    • A mesma entrada pode ser mapeada para cerca de 1,0–1,35x em tokens, dependendo do tipo de conteúdo
    • O preço de introdução foi definido para que a migração para o Sonnet 5 seja, em geral, neutra em custo

Atualização do gráfico do BrowseComp

  • Em uma edição de 30 de junho de 2026, o gráfico de custo-desempenho da avaliação BrowseComp foi atualizado
  • O gráfico original se baseava em dados de uma metodologia mais simples que não refletia a metodologia padrão usada pela Anthropic para avaliar busca agentic, e por isso subestimava o desempenho do Sonnet 5
  • O gráfico atualizado foi alinhado à metodologia padrão e à abordagem usada e discutida no system card do Sonnet 5
    • Essa abordagem usa orçamento de 10M tokens, compressão e chamadas de ferramentas programáticas
  • O texto explicativo ao redor também foi atualizado

4 comentários

 
dhkd63 2 시간 전

Talvez seja porque me acostumei com o opus4.8, ou porque fiquei um bom tempo sem usar o Sonnet...
Usei o Sonnet um pouco hoje e fiquei muito decepcionado.
No passado, talvez eu tivesse ficado plenamente satisfeito, mas ele alucinou bem mais do que eu esperava.

 
sea715 2 시간 전

Me dá o fable...

 
seoseonyu 3 시간 전

Lança logo o Fable... 😢😢

 
GN⁺ 3 시간 전
Opiniões no Hacker News
  • Olhando o gráfico de custo por tarefa, parece que Sonnet 5 não deve ser usado acima do nível médio de esforço. Pelo mesmo custo, o Opus sempre é melhor, então, se o Sonnet 5 no nível médio não for suficiente, a conclusão parece ser trocar de modelo em vez de aumentar o nível de esforço

    • Sou grato por divulgarem esse tipo de informação, mas está ficando cada vez mais difícil acompanhar. Estou perdendo o modelo mental de quais níveis de desempenho os diferentes modelos e níveis de esforço entregam e para quais tarefas eles servem
      Na prática, acabo só usando o padrão do Claude Code, e isso já funciona bem o bastante. Ainda assim, fico curioso para saber o quanto outros usuários experimentam e otimizam essas configurações de acordo com o projeto
    • Há duas variáveis aqui. Na assinatura do Claude.ai, o Sonnet parece ser bem mais barato que o Opus, e por isso durante muito tempo houve uma barra de uso só para Sonnet no plano Max
      Além disso, em algumas tarefas, o mais importante é simplesmente o volume puro de tokens de entrada. Por exemplo, tarefas multimodais de uso do computador não ficam mais eficientes no Opus só por reduzir o raciocínio, então um modelo mais barato como o Sonnet é útil
    • Vi o mesmo gráfico, e a posição da curva em relação ao Opus foi bem surpreendente. Sonnet 5 parece algo como “e se o Opus tivesse mais um nível de esforço ultrabaixo?”
    • Em contraponto, o Sonnet pode ser mais rápido. Não é garantido, porque dá para gastar mais tokens na mesma tarefa, mas em fluxos síncronos e iterativos ele pode acabar processando mais trabalho
      Dito isso, na prática se perde tempo demais corrigindo o que o modelo produziu, então acho que um modelo mais inteligente, mesmo sendo mais lento, reduz o tempo total
    • Como é um modelo Sonnet, de fato ele é melhor que o Sonnet 4.6[0]. É mais inteligente, mais rápido e mais barato, mas não vejo muito motivo para usá-lo no lugar de Opus 4.8 low ou GLM-5.2
      [0]: https://aibenchy.com/compare/anthropic-claude-sonnet-4-6-med...
  • Testando no meu benchmark[0], ele ficou em nível de GLM-5.2, com custo 2x maior, mas também 2x mais rápido
    Os pontos fracos são 0/3 em quiz de conhecimento geral, então quase não tem conhecimento embutido; 45/100 em tarefas compostas de chamada de ferramentas, então às vezes faz chamadas erradas; e 77 em resolução de quebra-cabeças, cometendo erros em testes do tipo lava-rápido
    [0]: https://aibenchy.com/compare/anthropic-claude-sonnet-4-6-med...

    • Nesse benchmark, o Gemini 3.5 Flash aparece como o melhor modelo, o que para mim não faz sentido
    • Como sempre, dizer que é mais rápido que o GLM-5.2 não significa muita coisa. O GLM-5.2 é servido por vários provedores, então a velocidade de inferência pode variar bastante dependendo do provedor e do momento
    • Numa comparação imperfeita usando os dois para planejamento e execução, o GLM5.2 é apressado demais e tem vontade excessiva de fazer alguma coisa, o que às vezes cria problemas. Por exemplo, tenta fazer deploy ou usar git mesmo quando não deveria
      Já o Sonnet 5 foi muito mais preguiçoso do que qualquer Claude que usei, e depois de não acrescentar os complementos de plano que pedi, ainda mentiu quando perguntei se tinha feito isso. Pela análise[0], para mim ele parece não ter valor, embora possa ser diferente para outras pessoas. O Fable foi claramente muito melhor
      [0]: https://artificialanalysis.ai/models/claude-sonnet-5
  • Em vários benchmarks, em níveis de esforço acima do médio, o custo por tarefa passa do Opus, então é difícil entender por que usar isso em vez de simplesmente usar Opus em baixo esforço
    A única coisa que me vem à cabeça é ficar sem créditos de Opus. Claro, pode haver casos de uso com cobrança via API, mas mesmo assim eu provavelmente usaria Opus em baixo esforço

    • Hoje em dia, cada vez mais preciso impedir que o Opus faça besteira, e tenho de dizer toda hora para não complicar demais o trabalho
      Parece que os modelos estão sendo otimizados mais para extrair dinheiro do usuário e da empresa do que para resolver problemas. Eu dei instruções claras para uma tarefa simples de Python de 2 ou 3 linhas, e não sei por que o Opus quer construir uma biblioteca inteira
    • Acho que benchmarks baseados em tarefas específicas não refletem muito bem os casos de uso agentivos do dia a dia. Se você puder tratar uma tarefa de cada vez e limpar o contexto a cada rodada, essa eficiência do Opus em baixo esforço pode aparecer
      Mas, ao resolver problemas reais de forma iterativa e exploratória, o contexto vai ficando cada vez maior, e aí o Opus muitas vezes fica caro
    • Os modelos Opus antigos provavelmente acabarão sendo descontinuados, e com o tempo este vai virar o modelo mais barato. É assim que esse aumento de preço está sendo feito agora
    • Olhando o benchmark de codificação agentiva nas páginas 117–118 do system card[0], mesmo em baixo esforço o desempenho parece melhor do que qualquer nível do Sonnet 4.6, e o preço também parece bem barato. Então o Opus pode funcionar bem como executor das tarefas planejadas
      [0] https://www.anthropic.com/claude-sonnet-5-system-card
    • Velocidade é um grande motivo. Às vezes você precisa terminar tarefas simples rapidamente, e esperar 30–60 segundos para o Opus começar a pensar realmente o torna muito lento
  • Dizem que o Claude Sonnet 5 foi feito para ser o mais agentic entre os Sonnet até agora. Ele faz planos, usa ferramentas como navegador ou terminal e consegue executar tarefas de forma autônoma em um nível que, até poucos meses atrás, exigiria modelos maiores e mais caros
    Eu tenho usado mais desenvolvimento assistido por agente do que desenvolvimento totalmente conduzido por agente, então vinha usando mais o Sonnet 4.6 do que o Opus. Mas esse anúncio não me parece positivo. Quanto mais um modelo é otimizado para desenvolvimento totalmente agentic, pior ele tende a ficar para desenvolvimento assistido, e mesmo com instruções muito rígidas e específicas muitas vezes ele faz coisa demais
    Nas últimas semanas tenho migrado cada vez mais para K2.7 Code e GLM-5.2. Para uso assistido eles costumam ser suficientes, além de serem muito rápidos e baratos

    • Uma dessas empresas, para usar a expressão, claramente teria a chance de investir tempo em um modelo voltado para desenvolvimento assistido por agente
      O problema é que as pessoas dentro dessas empresas parecem acreditar que, daqui a 1 ou 2 anos, ninguém mais vai trabalhar desse jeito
    • Tenho usado o Kimi K2.6 ultimamente. Ainda não posso usar o 2.7 pelo fluxo de aprovação da empresa, mas ele funciona bem quando já sabe o que estou tentando fazer e eu quero dividir o processo em partes
      Precisa de um pouco mais de correção do que o Opus. Mas o verdadeiro critério está entre “preciso ler cada linha” e “posso confiar sem ler cada linha”, e para mim nenhum modelo chegou ao segundo ponto, nem parece que vai chegar tão cedo. Ele não é tão bom quanto o Opus para fazer brainstorming de arquitetura e transformar isso em código, mas esse nem sempre é o problema, e quando for preciso dá para usar o Opus
      Isso faz com que, mesmo em semanas com muito código, eu não bata no limite de gastos já na quarta ou quinta-feira e tenha folga a semana inteira. Mas, na prática, sinto que preciso segurar o K2.6 muito mais do que o Opus. Se eu só quiser fazer uma pergunta, preciso tomar muito mais cuidado para que ele não saia imediatamente inferindo que é uma tarefa de programação e corra para codificar. Uso ambos em modo de planejamento, mas com o K2.6 preciso ser mais defensivo do que com o Opus
    • Há algum tempo migrei totalmente para modelos locais rodando em um Mac Studio M1 com 64 GB de memória. Mesmo assim, nos raros casos em que sinto que o Qwen3.6 quantizado localmente não basta, conecto ao Openrouter para usar Kimi, GLM, Deepseek e afins por uma fração do preço do Anthropic e outros
    • Sinto quase a mesma coisa e minha situação é parecida. A maior vantagem ao usar o Sonnet é o tempo de resposta
    • Talvez valha a pena experimentar modelos da OpenAI como o GPT 5.5. Eles seguem melhor as instruções e limites definidos no prompt e parecem um assistente agentic mais competente do que os modelos Claude, sem perda de inteligência
      A maior parte do meu trabalho é mais próxima de engenharia agentic do que de um modo de “jogar e esquecer”. Continuo envolvido até na fase de planejamento, reviso os resultados e faço muito mais perguntas ao agente do que outras pessoas. O modo que funciona melhor para mim é usá-lo como uma “autocompletar superpotente”: eu defino requisitos, escopo, design e às vezes até limites específicos de módulos, e ele preenche os espaços em branco
  • Também parece ter pior custo-benefício do que o GLM 5.2. E isso mesmo com o GLM 5.2 tendo apenas 744B parâmetros
    No system card está escrito: “na descoberta de vulnerabilidades do CyberGym, o Claude Sonnet 5 é menos competente que o Sonnet 4.6 e muito menos competente que o Opus 4.8 e o Mythos 5”
    Também diz: “como nas outras avaliações desta seção, este resultado foi obtido com todas as proteções desativadas. Quando executado com as mitigações padrão ativadas, o Sonnet 5 tirou 0 no CyberGym”

    • Reescrevi um texto com GLM-5.2 e Sonnet 4.6, e como grandes modelos de linguagem são não determinísticos, os resultados foram totalmente diferentes. O GLM-5.2 cometeu muitos erros sutis que precisavam de correção manual, enquanto o Sonnet, na segunda rodada, encontrou e corrigiu todos os erros
      Foi parecido em planejamento e programação. No papel, o GLM-5.2 parece bom, mas o resultado no uso real foi diferente
      Não estou tentando defender nem o Claude nem o GLM-5.2. O que aprendi usando grandes modelos de linguagem todos os dias desde novembro de 2022 é que testes genéricos precisam ser verificados no seu próprio projeto. Não existe “um modelo que domina tudo”; é preciso encontrar o modelo certo dentro de um palheiro com milhares deles
      Benchmarks ajudam, mas estão ficando cada vez mais parecidos com especificações de consumo em publicidade de carro. O consumo real varia de pessoa para pessoa
    • Finalmente surgiu uma estratégia de negócios viável. Vende barato para os macacos de código sem noção de segurança e cobra preço premium pelos agentes capazes de limpar a bagunça
    • Não é direcionado a ninguém em particular, mas eu gostaria que a qualidade das discussões no HN algum dia superasse esse tipo de comparação básica. Parece que os mesmos comentários se repetem a cada thread de lançamento de modelo
      É sempre algo como: “o modelo X é Y% melhor ou pior que o Claude Z no benchmark T”, “isso não significa nada, é otimizado para benchmark”, “não serve para programação do dia a dia nem para trabalho agentic, a sensação é totalmente errada”, “é quase igual e muito mais barato, então eu uso sem pensar”, “a diferença incremental de desempenho faz com que o menor custo dos modelos abertos não compense a perda de produtividade e, por isso, não se justifique”
      Sou um cliente insatisfeito da Anthropic e realmente torço por modelos abertos e por inteligência não fechada. Mas já não sei como sair da repetição desse discurso sobre lançamentos de modelos que virou quase um meme. Eu também não sou alguém que projeta grandes modelos de linguagem nem benchmarks, e sou sinceramente grato pelos esforços para fornecer informação, mesmo que não sejam perfeitos. Imagino que a maioria das pessoas que lê regularmente os comentários desses anúncios sinta algo parecido
  • O Claude Sonnet 5 descreveu seu próprio pelicano como se fosse um ganso
    “um ganso branco está andando de bicicleta, com uma asa estendida para a frente segurando o guidão, sobre um fundo branco simples com uma linha marrom no chão”
    https://simonwillison.net/2026/Jun/30/claude-sonnet-5/

    • Talvez seja o pior pelicano gerado por grandes modelos de linguagem nos últimos tempos
      Já o GLM 5.2 desenhou um pelicano SVG totalmente animado, bonito e funcionando de forma independente
      https://simonwillison.net/2026/Jun/17/glm-52
  • Hoje usei um pouco o Sonnet 5 por engano, e em desenvolvimento de software ele pareceu consideravelmente pior do que o Opus 4.8

  • Fico me perguntando se a paranoia excessiva com cibersegurança acaba fazendo o modelo gerar código menos seguro. Ter a capacidade de produzir código seguro significa que ele sabe alguma coisa sobre cibersegurança, e com esse conhecimento também daria para dizer que ele poderia hackear bancos no mundo todo

    • Em modelos de geração de imagem, ao tentar censurar nudez, acabaram surgindo todo tipo de problema na representação de anatomia. Acho que modelos assim também podem ter problemas parecidos em segurança
    • Talvez esse seja o objetivo
  • Eu estava bem animado com esse modelo, então em três projetos diferentes pedi aos planejadores Opus que usassem Sonnet em vez de subagentes Opus para ajudar a acelerar experimentos de kernel HPC. Mas ele não escreveu uma única linha de código, e os Sonnets só ficaram rodando em círculos e desperdiçando tokens
    Nem lembro da última vez que isso aconteceu com Opus na minha base de código. Estou revertendo agora

    • Isso já aconteceu antes em lançamentos de modelos novos. Quando saiu o Opus 4.7, ele também ficou mais de 20 minutos em “trabalhando”, então eu simplesmente forcei o encerramento e esperei até o dia seguinte
      Sumiu sozinho
  • O ponto importante é este. “Sonnet 5 é um upgrade do Sonnet 4.6, mas usa um tokenizer atualizado que muda a forma como o modelo processa texto para melhorar o desempenho. Isso é parecido com a mudança de tokenizer introduzida no Claude Opus 4.7. O custo é que a mesma entrada pode ser mapeada para mais tokens. Dependendo do tipo de conteúdo, isso fica em torno de 1,0~1,35x. O preço de lançamento foi definido para que a migração para o Sonnet 5 fique aproximadamente neutra em custo”

    • Então isso quer dizer que, depois do período de introdução, o preço do Sonnet 5 vai ser ajustado para custar de 100% a 135% a mais?
    • “Há duas formas de aumentar os preços. (1) aumentar o preço por token ou (2) aumentar a quantidade de tokens gerados em nome dos usuários. Prometemos não fazer a opção (2) de forma maliciosa. Prometemos”