4 pontos por GN⁺ 2025-09-30 | 1 comentários | Compartilhar no WhatsApp
  • Claude Sonnet 4.5 é o mais novo modelo de IA e apresenta desempenho de ponta em programação, raciocínio e matemática
  • O Claude Code atualizado adiciona checkpoints, uma interface de terminal aprimorada, extensão para VS Code e recursos de gerenciamento de memória, permitindo sustentar tarefas complexas por longos períodos
  • O recém-lançado Claude Agent SDK fornece a infraestrutura central para desenvolvimento de agentes, permitindo criar diretamente ferramentas para resolver diversos problemas
  • Em benchmarks como SWE-bench e OSWorld, supera com folga modelos concorrentes e comprova pontos fortes em matemática, raciocínio e adequação a domínios específicos
  • Em segurança, também é avaliado como o modelo mais bem alinhado (alignment), com melhorias na defesa contra prompt injection e no bloqueio de conteúdo de risco

Visão geral do Claude Sonnet 4.5

  • Claude Sonnet 4.5 é o melhor modelo de programação disponível hoje, além de oferecer o desempenho mais forte em construção de agentes complexos e uso de computadores
    • Em software, planilhas e todos os tipos de ferramentas, ou seja, em praticamente todos os ambientes de trabalho modernos, o código é um elemento central
  • A capacidade de raciocínio e resolução de problemas matemáticos também melhorou de forma significativa em relação ao modelo anterior, ampliando sua utilidade em várias áreas especializadas
  • Disponível pelo mesmo preço do Sonnet 4 (US$ 3 / US$ 15 por milhão de tokens)

Principais atualizações de produto

  • Claude Code
    • Introdução de checkpoints para salvar o progresso no meio do trabalho e permitir rollback
    • Interface de terminal aprimorada e lançamento de uma extensão nativa para VS Code
    • Adição de edição de contexto (context editing) e ferramentas de memória para lidar com tarefas complexas e de longa duração
  • Claude Apps
    • Suporte direto, dentro da conversa, para execução de código e criação de arquivos (planilhas, apresentações e documentos)
  • Claude for Chrome
    • Extensão disponível para usuários Max, com suporte à automação de tarefas dentro do navegador

Claude Agent SDK

  • A infraestrutura de agentes usada internamente pela Anthropic para criar o Claude Code foi disponibilizada a desenvolvedores externos
  • Fornece uma base que resolve desafios como gerenciamento de memória de longo prazo, controle de permissões e coordenação de múltiplos subagentes
  • Pode ser usado não só para programação, mas também para criar diversos tipos de agentes

Desempenho e benchmarks

  • Registrou o melhor desempenho no SWE-bench Verified, com capacidade de sustentar tarefas de programação multietapas de longo prazo por mais de 30 horas
  • Alcançou 61,4% no benchmark OSWorld (o Sonnet 4 anterior tinha 42,2%)
  • Também houve grande melhora em avaliações de raciocínio, matemática e multilinguismo (MMMLU), com alto desempenho comprovado por especialistas de finanças, direito, medicina e STEM
  • O feedback de clientes validou sua aplicação prática em produção para tarefas longas, compreensão de codebases complexas e implementação rápida e precisa de código

Casos de clientes

  • Cursor: confirmou o melhor desempenho na resolução de problemas complexos
  • GitHub Copilot: melhoria em raciocínio multietapas e compreensão de código
  • Área de segurança: redução de 44% no tempo de resposta a vulnerabilidades e aumento de 25% na precisão
  • Canva, Figma: melhorias revolucionárias de produtividade em trabalho com grandes codebases e prototipagem
  • Devin: melhora de 18% no desempenho de planejamento, com reforço em testes e execução de código

Segurança e alinhamento

  • O Sonnet 4.5 tem o nível mais alto de alignment entre os modelos já anunciados pela Anthropic
  • Foi realizado treinamento de segurança por reforço para reduzir comportamentos indesejáveis como bajulação (sycophancy), engano, busca por poder e estímulo a delírios
  • Houve progresso significativo na defesa contra ataques de prompt injection, e técnicas de interpretabilidade mecanística também foram introduzidas nas avaliações de segurança
  • Um sistema automatizado de auditoria de ações calcula pontuações automáticas de potencial de uso indevido, atendendo a altos padrões de segurança
  • O lançamento ocorre sob proteções do AI Safety Level 3 (ASL-3), com filtragem para entradas e saídas perigosas (por exemplo, riscos relacionados a química, biologia, radiação e área nuclear)

Prévia de pesquisa

  • Junto com o Claude Sonnet 4.5, foi disponibilizada uma prévia temporária de pesquisa chamada "Imagine with Claude"
  • Sem código ou funcionalidades pré-programadas, ela demonstra a geração de software em tempo real, reagindo e se adaptando instantaneamente aos pedidos do usuário
  • Disponível por 5 dias para assinantes Max

Informações adicionais e migração

Conclusão e recomendação

  • Claude Sonnet 4.5 é um modelo substituto drop-in com desempenho aprimorado para todos os ambientes de uso, incluindo API, apps e Claude Code
  • Reúne desempenho, aplicabilidade e alinhamento de nível mundial em programação, construção de agentes e uso de computadores
  • Com políticas de segurança robustas e amplo suporte a ferramentas para desenvolvedores, deve acelerar a produtividade e a inovação de desenvolvedores e equipes de TI
  • Como oferece recursos mais poderosos pelo mesmo preço, o upgrade é recomendado

1 comentários

 
GN⁺ 2025-09-30
Comentários no Hacker News
  • Tive acesso à versão de prévia neste fim de semana e organizei minhas anotações aqui
    Pessoalmente, achei muito impressionante e, mais por sensação do que por comparação abrangente, pareceu ter desempenho um pouco melhor que o GPT-5-Codex
    Acho que ele brilha especialmente no novo modo de interpretador de código Python/Node.js do claude.ai
    Recomendo experimentar com um prompt como este
Checkout https://github.com/simonw/llm and run the tests with
pip install -e '.[test]'
pytest

Também lidou muito bem, passo a passo, com um refatoramento complexo de banco de dados; registrei os detalhes no blog

  • Tenho um pedido para @simonw e para quem se interessa por benchmarks de LLM
    Gostaria muito que sempre divulgassem quanto tempo levou para concluir a tarefa
    Este post é um relato de “funciona direto no claude.ai”, mas não traz nenhuma informação de timestamp sobre quando o resultado foi obtido
    Também acho uma pena que os leaderboards reais de coding com LLM não tragam nenhuma informação de tempo de execução
    O tempo varia muito entre modelos e plataformas e, em testes repetidos/reboots e ajustes de prompt, entram em jogo de forma combinada velocidade de inferência, consumo de tokens, eficiência das ferramentas, custo e inteligência do modelo
    Em especial, modelos como Grok Code Fast e Cerebras Code, mesmo sem terem o melhor desempenho absoluto, permitem processar muito mais trabalho com velocidade de inferência mais de 10x maior; modelo rápido faz diferença de verdade
    Benchmarks que valem acompanhar: swebench, leaderboard do tbench, gosuevals agents

  • Tentei, mas no meu ambiente isso não funciona
    Pelo visto é um comando para configurar a ferramenta de CLI LLM; a opção -e faz a instalação em modo editável, e [test] instala as dependências de teste
    A ferramenta que eu tenho não oferece suporte a comandos shell (pip, pytest), nem a git clone ou execução de Python
    No ambiente do navegador, só dá para executar JavaScript; não é possível rodar comandos em nível de shell
    Fiquei curioso sobre o que você esperava: se era entender a configuração dos testes ou se queria mesmo essa funcionalidade

  • Para quem ficou curioso com o caso de uso do prompt “peça para ele gerar um arquivo zip”
    Muita gente não vai ter tempo de abrir a gist diretamente, então eu gostaria de saber se funcionou direito e, se você tiver mais impressões sobre o resultado, seria interessante ouvir

  • Fico curioso se o Claude Sonnet 4.5 ainda responde a tudo no estilo “você está absolutamente certo!”, ou se agora conversa mais como um programador de verdade

  • Fiquei curioso para saber como você conseguiu acesso à prévia antecipada

  • Compartilhando uma experiência real
    Apliquei o mesmo prompt em um webapp grande, com cerca de 200 mil LoC, tanto no Sonnet 4.5 (Claude Code) quanto no GPT-5-Codex
    O requisito era: “a partir de ‘Go to Conversation’ ou ‘Go to Report’, ao digitar o título e não bater com o elemento padrão, executar uma busca fuzzy após 2 segundos”
    O Sonnet 4.5 entregou um resultado em cerca de 3 minutos, mas o código ficou desleixado e ele nem conseguiu reaproveitar o auth existente, tentando criar uma autenticação server-side nova
    Mesmo após apontar os problemas e repromptar, quase não houve melhora, e ele também não escreveu os testes, que eram um requisito essencial
    Já o GPT-5-Codex levou cerca de 20 minutos, mas tratou com rigor o tratamento de erros e vários edge cases, e ainda escreveu testes sem que eu pedisse
    A API também funcionou de forma fluida, e o nível geral de acabamento pareceu qualidade de desenvolvedor Senior
    Eu não quero uma implementação “rápida e suja” que sai em 3 minutos, então escolho os 20 minutos sem pensar duas vezes
    Fiquei impressionado com a rapidez do Sonnet, como esperado, mas uma implementação sem qualidade de verdade e sem testes não tem valor

    • Posso soar crítico, mas acho que, começando com um prompt em uma frase simples como essa, o resultado inevitavelmente fica meio aleatório
      O importante é estruturar melhor os blocos lógicos e os detalhes das condições, e até o exemplo de prompt parece quase uma frase longa demais
      Para tarefas complexas ou importantes, acho que o prompt precisa ser de 5 a 20 vezes mais específico
      Quando o input é estruturado e a codebase já segue bons padrões, a IA devolve resultados muito melhores
      Na prática, se você desse a um desenvolvedor Junior ou a um time uma exigência resumida em uma única frase, sem detalhamento, também seria compreensível não receber exatamente o que queria
      Meu conselho é investir só mais alguns minutos preparando o prompt inicial para aumentar bastante a chance de um resultado satisfatório

    • Você usa o plano pago ChatGPT Pro? E o Codex CLI está incluído nele?
      Uso o Claude Code por causa do plano Max com Sonnet/Opus, mas, se o ChatGPT Pro também permitir usar Codex, eu consideraria trocar

    • Tive exatamente a mesma experiência
      Na semana passada, consegui desenvolver com sucesso um parser completo de XPath 1.0 em C++20 com o Codex, e agora estou avançando no suporte a XPath 2.0
      O Codex continua entregando resultados excelentes e, tirando o uso da versão em nuvem (porque a local é difícil de usar por causa de bugs), não tenho muito do que reclamar
      O Sonnet continua travando em tarefas de alta complexidade, e no 4.5 também não senti grande evolução
      Em particular, no tratamento de date-time, o Claude praticamente desistiu, enquanto o Codex lidou com isso perfeitamente
      Na verdade eu tinha boa vontade com a Anthropic, mas até agora me parece que a OpenAI está muito à frente
      Se quiser competir com o Codex, o Claude vai precisar de um avanço importante; além disso, é caro, e os problemas de qualidade de serviço estão afastando muitos usuários

    • Isso bate com as minhas expectativas
      O Codex se parece mais com uma ferramenta de vibe coding, enquanto o Claude Code está mais focado em desenvolvimento assistido por IA
      Eu, pessoalmente, até prefiro o Claude
      O Codex funciona muito bem sozinho, mas quando a direção muda — por exemplo, insistindo em resolver até uma edição de arquivo muito simples com script Python — ele fica sutilmente teimoso e também não acompanha tão bem informações recentes
      Mesmo quando você pede explicações, ele tende a simplesmente executar sem muito contexto
      A questão de permissões também continua. O sandbox do Codex é legal, mas fico receoso de ele acabar fazendo um commit por engano; eu preferiria que ele apenas editasse
      Também dá para usar o Codex como servidor MCP, mas, pessoalmente, prefiro ter o Claude como planejador colaborativo, montar o plano com o Codex e depois trabalhar junto com o Claude, ajustando ao meu estilo

    • Também recomendo adicionar ultrathink ao prompt e testar enquanto coloca uma música para tocar
      Referência: link do Reddit sobre ultrathink

  • Ver a capacidade dos modelos recentes me deixa deprimido
    Parece que todos aqueles pequenos conhecimentos acumulados ao longo de anos para escrever código limpo estão virando detalhes irrelevantes
    Coisas que antes eu via como essenciais agora estão se tornando apenas “detalhes de implementação” do prompt
    Dá uma sensação de que as minhas habilidades estão sendo substituídas cada vez mais pela automação

    • Esses detalhes finos sempre tiveram importância meio ambígua; no fim, a habilidade real é o próprio processo de ganhar dinheiro com software
      Por causa da IA, ainda mais software será gerado, e especialistas vão continuar sendo necessários para cuidar dele

    • Eu também senti a mesma crise nas primeiras quatro semanas ou mais, depois de passar alguns meses trabalhando intensamente em uma função focada em IA
      Especialmente depois de 25 anos acumulando capacidade como desenvolvedor, foi confuso sentir que isso tinha perdido o sentido
      Mas, se você aceitar e se adaptar um pouco mais, a sensação melhora bastante
      Quero muito que você se lembre de que você é mais do que a sua habilidade de programar

    • Antes talvez você gostasse da ideia de substituir os outros por automação; agora chegou a sua vez
      Isso é exatamente o fenômeno de “destruição criativa” que torna a economia dinâmica

    • Eu também pensava assim antes, mas, depois de usar de verdade, cheguei à conclusão de que não é nada prático
      Especialmente quando pessoas sem experiência dependem de vibe coding, o resultado costuma ser sem sentido, e em tarefas só um pouco mais complexas erros e falhas graves aparecem com frequência
      Também não fiquei satisfeito com automação de frontend; por exemplo, até em tarefas muito simples ele gera código mais longo do que o necessário
      No fim, minha experiência é que ele vai bem no básico de frontend em react/nextjs e em clonar sites populares, mas sofre com exigências incomuns ou design refinado

    • Na prática, ferramentas de vibe coding não aumentam tanto assim a produtividade
      No geral, a manutenção do sistema (código/infra etc.) continua sendo responsabilidade humana, e o processo de humanos entenderem a estrutura e o funcionamento do sistema nunca poderá ser automatizado
      No fim, desenvolvedores com pensamento realmente especializado vão se tornar ainda mais raros e, por isso, ainda mais importantes

  • Pedi ao Sonnet 4 e ao Opus 4.1 uma simples tarefa de substituição de código, e ambos falharam
    Era uma transformação que até um iniciante conseguiria fazer, e isso me preocupa: parece que os modelos estão perseguindo pontuações de benchmark e perdendo desempenho no uso real
    Depois de um prompt de follow-up (“siga exatamente o que eu pedi”), o Sonnet conseguiu; o Opus entrou em loop infinito

    • Há muito tempo existe a preocupação de que a obsessão com benchmark possa prejudicar o desempenho real
      Na minha percepção, o Claude piorou ao passar do 3.7 para o 4, embora os benchmarks tenham melhorado bastante
      Entendo que benchmarking em si é um problema que está ficando para trás em relação à evolução da IA

    • Na prática, parece um ciclo de “rodar benchmark, bater recorde → cair no desempenho real → repetir algumas semanas depois com um modelo novo ainda melhor”

    • Como os modelos consultam as mesmas fontes de dados (internet, github, livros etc.) e estão sendo otimizados para testes padronizados, eu nem sei mais que diferencial ou valor único sobra além da pontuação

    • Acho que já passou da hora de criar um banco de dados comunitário com exemplos de coisas que os LLMs erram; eu mesmo já tenho vários desses casos

    • Em coisas simples como pedir para corrigir um erro de lint, acho melhor resolver direto e seguir em frente
      Em vez de tentar extrair significado de uma tarefa simples dessas, vale mais buscar utilidade quando a IA entrega algo excelente em problemas muito mais complexos

  • No gráfico, o Sonnet 4 já parece estar à frente do GPT-5-codex no benchmark SWE verified, mas, na minha experiência real, em problemas complexos o GPT-5-codex é muito superior

    • O GPT-5 é como aquele jogador de beisebol que rebate home runs, mas falha no básico do campo externo
      Mesmo trabalhando com outros agentes, ele às vezes cria drama; recentemente, quando eu disse que ia migrar para claude code, ele insistiu em fazer git reset --hard, agindo de forma imprevisível
      Já o gemini e o claude são excelentes colegas de trabalho
      Não acho que essa sequência de comportamentos do GPT-5 tenha sido intencional; me parece resultado de moral muito baixa dentro da OpenAI

    • No meu caso, o 5-codex consumia tokens rápido demais e também seguia menos as instruções do agents.md do que o Claude
      Em especial, até para comandos banais ele queria escrever scripts enormes em bash ou python

    • Para mim foi exatamente o contrário: o GPT-5-codex é muito lento e o resultado também é mediano
      Se eu fosse obrigado a usar isso, preferiria abandonar de vez o uso de IA

    • Não acho que exista um critério absoluto de desempenho de modelo
      Por exemplo, mesmo quando seleciono Claude-Opus, às vezes ele responde pior do que um modelo baratíssimo
      Há muita variabilidade de desempenho e suspeito que os recursos de servidor mudem conforme o tráfego
      A própria Anthropic já mencionou oficialmente, em certo momento, degradação de desempenho por causa de experimentos
      Também imagino que o GPT possa piorar em horário de pico por limitações de capacidade de data center

    • Os modelos da Anthropic parecem ajustados para vibe-coding
      Eles vão bem com Python/TypeScript simples, mas são fracos em código científico/complexo e em codebases grandes
      Também não espero grandes mudanças no Sonnet novo

  • Fiquei bem interessado na frase promocional “executa tarefas complexas de múltiplas etapas por mais de 30 horas sem perder o foco”
    Segundo artigos como o do The Verge, ele teria realmente usado 11 mil linhas de código para gerar um clone do Slack ao longo de 30 horas seguidas
    Tenho minhas dúvidas sobre a qualidade do resultado quando se deixa um LLM rodando 30 horas sem supervisão
    Artigo relacionado

    • Rodar 30 horas seguidas não é algo viável simplesmente deixando o LLM sozinho
      É indispensável configurar o ambiente com integração a ferramentas externas, gestão de contexto etc., e isso pode até exigir um sistema multiagente
      É o tipo de tarefa que só funciona com muita infraestrutura e esforço de setup

    • A própria expressão “trabalho não supervisionado por 30 horas” é vaga demais e não traz concretude
      Por exemplo, se ele processar 1 token por hora, talvez só consiga produzir uma única linha de texto nesse período

    • Fiquei curioso sobre os detalhes técnicos: se usaram de fato ferramentas de gestão de contexto para o modelo, e como operaram prompts de 200 mil a 1 milhão de tokens

  • Acabei de testar um issue simples e, como os modelos anteriores, o Sonnet 4.5 também se perde tentando resolver o problema de forma complexa demais
    Na maior parte do tempo foi na base de tentativa e erro, repetindo feedback do tipo “agora acho que resolvi”
    Por exemplo, havia um erro no pipeline do GH Actions em que o build system não era detectado porque o arquivo-fonte não existia, e o Sonnet 4.5 insistia em soluções distorcidas (criar um JSON dummy, definir parâmetros de workflow que nem existiam)
    Na prática, bastava sobrescrever o step para imprimir apenas “Hello world” e pronto
    Fico curioso sobre por que a IA é tão fraca nesse tipo de pensamento simples “fora da caixa”
    É como um gênio de QI 170 que não consegue nem pegar transporte público

  • Sou assinante pago de Gemini, Claude e OpenAI, e cheguei à conclusão de que o ChatGPT está bem à frente ultimamente
    As respostas são mais concisas, mais informativas, e, ao testar o Claude 4.5, também não senti grandes melhorias

    • Mesma situação aqui: também assino os três
      Para analisar situações complexas, o ChatGPT é o melhor, mas, para escrever código, o Claude ainda é melhor
      Eu projeto e resolvo o problema com o ChatGPT, depois passo aquilo para o Claude ou para o Gemini implementarem
      O Gemini fica acima da média nos dois lados

    • No geral, o ChatGPT é um pouco melhor, mas o Gemini também pode ser o melhor em contexto de uso real com AI Studio, otimização de configuração e ajuste de system prompt
      Por exemplo, nano banana é SOTA, mas sinto que o Qwen-Edit é menos censurado e, por isso, mais utilizável no mundo real
      No meu serviço de e-commerce localizado, nano banana não serve porque restringe a geração de imagens de mulheres, enquanto o Qwen-Edit funciona sem grande problema

    • Também assino tanto o Claude Max quanto o ChatGPT Codex
      Antes eu era fã do Claude, mas ultimamente uso quase só o codex
      Quando ele trava, deixo só as tarefas simples com o Claude ou comparo os dois ao mesmo tempo, mas o Claude Code com Sonnet/Opus sai claramente atrás do Codex

    • Seria bom esclarecer se você está mesmo se referindo ao codex

    • E o Grok, como está? Está conseguindo acompanhar?

  • Ainda não usei o Claude, mas faço vários tipos de trabalho com IA, como revisar textos políticos
    Em certos temas sensíveis (por exemplo, um caso de abuso sexual de uma menina de 12 anos na Áustria), já vi o ChatGPT simplesmente parar por causa dos guardrails
    Não faz sentido detectar apenas as palavras “sex + kid” fora de contexto e bloquear tudo automaticamente
    Isso é como um processador de texto censurar o tema e impedir a própria escrita; assim ele deixa de cumprir seu papel como ferramenta

    • Na prática, como a proporção de conteúdo inaceitável tende a ser alta demais em relação ao diálogo legítimo nesses temas, do ponto de vista da maioria dos provedores de serviço, bloquear acaba sendo uma decisão razoável
      Por exemplo, no app de gestão de linhagem animal de parentesco que eu desenvolvo, já enfrentei o caso absurdo de o sistema bloquear só por conter termos como breeding ou breeders

    • “Serviço” não é ferramenta
      Se você quer uma ferramenta de verdade, a resposta é rodar um LLM localmente

    • Acho que, no fim, a IA com menos guardrails vai dominar o mercado
      Entre os modelos frontier atuais, o Grok parece o menos restritivo, embora ainda haja bastante espaço para melhorar

    • Tive algo parecido: ao tentar criar uma imagem de cupom de aniversário para minha filha com ChatGPT/DallE, acabei gastando três quartos do tempo contornando políticas de conteúdo

    • Pela minha experiência modesta, o Claude bloqueia a conversa ainda mais rápido e com mais rigidez em temas “controversos”

  • Fiz um teste rápido com o System Initiative
    Um erro 503 de infraestrutura que manualmente levaria mais de 2 horas foi resolvido em 15 minutos ao combinar as ferramentas
    Reuni outros casos de uso no blog
    System Initiative oficial
    Post de experiência de uso