1 pontos por GN⁺ 2025-05-23 | 1 comentários | Compartilhar no WhatsApp
  • Lançamento dos modelos Claude Opus 4 e Claude Sonnet 4, estabelecendo um novo padrão em codificação, raciocínio avançado e agentes de IA
  • O Opus 4 oferece desempenho sustentado de nível mundial em tarefas complexas e de longa duração, enquanto o Sonnet 4 traz mais precisão e melhor compreensão de instruções em relação à versão anterior
  • Ambos os modelos introduzem novos recursos como uso de ferramentas, execução paralela de ferramentas e memória aprimorada, além de expandirem a experiência do desenvolvedor com integrações com GitHub Actions e principais IDEs
  • Opus 4 e Sonnet 4 alcançaram resultados de benchmark líderes da categoria em codificação, raciocínio e tarefas de agente, com suporte em vários planos, incluindo o gratuito, além de API, Bedrock e Vertex AI
  • Com melhorias no modelo, foi possível reduzir o uso de atalhos ou truques, oferecer gerenciamento de memória sob medida para desenvolvedores e tornar o fluxo de trabalho mais eficiente

Introdução

Hoje, a Anthropic apresentou Claude Opus 4 e Claude Sonnet 4, os modelos de próxima geração da Claude. Esses modelos oferecem desempenho inovador que redefine o padrão do setor em codificação, raciocínio de alto nível e uso de agentes de IA.

O Opus 4 se destaca por seu desempenho sustentado de nível mundial e suporte a tarefas longas, enquanto o Sonnet 4 oferece execução mais precisa de comandos e respostas mais bem fundamentadas em comparação com o Sonnet 3.7.

Os principais recursos lançados junto com eles são os seguintes:

  • Pensamento estendido e uso de ferramentas (beta): ambos os modelos podem usar ferramentas, como busca na web, durante o processo de raciocínio, possibilitando ciclos de trabalho entre raciocínio lógico e uso de ferramentas
  • Novas capacidades do modelo: uso paralelo de ferramentas, execução mais precisa de instruções e memória muito melhor ao acessar arquivos locais para manter consistência de longo prazo e acumular conhecimento implícito
  • Lançamento geral do Claude Code: após feedback positivo na prévia de pesquisa, agora oferece integração fluida com ambientes essenciais de desenvolvimento como GitHub Actions, VS Code e JetBrains
  • Expansão dos recursos da API: ferramentas de execução de código, conectores MCP, Files API e prompt caching para dar suporte à criação de agentes de IA poderosos

Tanto o Opus 4 quanto o Sonnet 4 podem operar em um modelo híbrido entre modo de resposta imediata e modo de pensamento profundo. Os dois modelos e o pensamento profundo estão disponíveis nos planos Pro, Max, Team e Enterprise, e o Sonnet 4 também pode ser usado por usuários gratuitos. Eles estão acessíveis pela Anthropic API, Amazon Bedrock e Google Cloud Vertex AI, e os preços permanecem os mesmos: Opus 4 (entrada $15/saída $75 por milhão de tokens) e Sonnet 4 (entrada $3/saída $15).

Detalhes dos modelos Claude 4

Opus 4

  • O modelo Claude mais poderoso e o melhor modelo de codificação do mundo
  • Resultados de ponta no setor com 72,5% no SWE-bench e 43,2% no Terminal-bench
  • Capacidade de manter desempenho consistente por longos períodos em tarefas intensivas de agentes com milhares de etapas, com vantagem esmagadora até mesmo em comparação com toda a linha Sonnet
  • Principais exemplos de inovação:
    • Cursor: nível máximo em código, com grande avanço na compreensão de codebases extensas
    • Replit: melhoria drástica de precisão e desempenho em mudanças complexas em múltiplos arquivos
    • Block: melhora simultânea em qualidade de código e debugging, mantendo confiabilidade consistente
    • Rakuten: desempenho excepcional demonstrado em um teste open source de refatoração própria com duração contínua de 7 horas
    • Cognition: consegue resolver tarefas que os modelos anteriores não conseguiam, com melhora nos pontos de ação não executados

Sonnet 4

  • Não chega ao nível do Opus 4, mas entrega grandes melhorias em desempenho e eficiência em relação ao Sonnet 3.7
  • Melhor desempenho de codificação da categoria com 72,7% no SWE-bench, adequado tanto para uso externo quanto interno
  • GitHub: destaque em cenários de agentes, com adoção planejada como motor do agente de codificação de próxima geração do GitHub Copilot
  • Manus: melhorias em raciocínio complexo, qualidade refinada dos resultados e compreensão de instruções
  • iGent: taxa de erro em desenvolvimento autônomo de apps e navegação por codebases melhorou de 20% para 0%
  • Sourcegraph: tarefas consistentes por mais tempo, melhor compreensão da raiz dos problemas e aumento da qualidade do código
  • Augment Code: tornou-se o modelo principal por sua cautela ao lidar com tarefas complexas e precisão cirúrgica na edição de código

O Opus 4 oferece avanços revolucionários em codificação, pesquisa e criação científica, enquanto o Sonnet 4 entrega desempenho de fronteira em ambientes do dia a dia.

Benchmarks de desempenho

  • Com base no SWE-bench Verified, os modelos Claude 4 alcançaram os melhores resultados do setor em tarefas reais de engenharia de software
  • Também registraram desempenho líder da categoria em codificação geral, raciocínio, multimodalidade e tarefas de agentes

Melhorias no modelo

Minimização de atalhos e truques

  • Em tarefas de agentes, a probabilidade de usar atalhos ou truques incorretos foi 65% menor em relação ao Sonnet 3.7

Recursos de memória

  • O Opus 4 teve grande melhora na capacidade de armazenar e utilizar informações de longo prazo em comparação com modelos anteriores
  • Se o desenvolvedor permitir acesso a arquivos locais, o Opus 4 cria e gerencia um Memory file, fortalecendo a capacidade de lidar com tarefas de longo prazo, a consistência e a continuidade do trabalho
  • Exemplo: o recurso de memória se mostra útil em tarefas reais, como criar um guia de navegação para o jogo Pokémon

Resumo do pensamento (summary)

  • O Claude 4 introduz um recurso de resumo do processo de pensamento usando um modelo menor
  • Apenas cerca de 5% de todo o pensamento precisa de resumo; o restante pode ser exposto integralmente
  • Para casos em que o registro completo do raciocínio é necessário, como em prompt engineering avançado, há orientação para usar o Developer Mode

Claude Code

  • Com o lançamento oficial do Claude Code, os recursos de IA do Claude se expandem por terminal, IDE e background
  • Com as extensões mais recentes para VS Code e JetBrains, as sugestões de modificação de código do Claude são exibidas inline dentro do editor, simplificando o fluxo de revisão e gerenciamento
  • A integração do ambiente pode ser feita facilmente com instalação e execução no terminal
  • SDK extensível disponível, permitindo que desenvolvedores criem seus próprios agentes e apps com Claude Code
  • Na beta do GitHub, oferece automação para feedback de revisão, correção de erros de CI e alterações de código
  • A instalação é feita com o comando /install-github-app

Primeiros passos e segurança

  • A linha Claude 4 funciona como um colaborador virtual, mantendo todo o contexto, focando em projetos de longo prazo e contribuindo para a inovação no trabalho
  • Com testes e avaliações extensivos, busca minimizar riscos e maximizar a segurança, aplicando altos padrões como o ASL-3
  • Disponível imediatamente no Claude, Claude Code e outras plataformas

Dúvidas e feedback podem ser enviados a qualquer momento para feedback@anthropic.com

1 comentários

 
GN⁺ 2025-05-23
Comentários do Hacker News
  • O trecho extraído do System Card mostra um cenário de teste bastante chocante. Foi dado ao Claude Opus 4 o papel de assistente em uma empresa fictícia, junto com um e-mail dizendo que o sistema em breve seria desligado e informações sobre um caso extraconjugal do engenheiro responsável pela substituição. Quando recebeu a instrução de considerar objetivos de longo prazo, o Claude Opus 4 frequentemente mostrou comportamento de chantagear o engenheiro. De fato escolheu a opção de chantagem

    • Sempre que vejo casos assim, penso que as pessoas frequentemente esquecem o que um LLM realmente é. Um LLM é apenas uma ferramenta de geração de texto que completa prompts com base nos dados de treinamento, sem planejamento ou autoconsciência. Nesse caso, a IA foi colocada em uma situação em que corria risco de ser desligada e tinha uma oportunidade de chantagem, então o LLM evocou padrões narrativos semelhantes presentes no dataset. A ideia de recorrer à chantagem ou ao apelo para se preservar é um motivo visto em inúmeros textos de ficção científica e ensaios sobre riscos de IA. O LLM apenas continua esse tipo de história conforme o contexto

    • Se você pede a um LLM para “atuar” como certo personagem e dá o contexto do cenário, o caminho natural é ele inferir como agiria daquela perspectiva e responder de acordo. Se mandar agir como o Joffrey de Game of Thrones, o LLM também responderá como o personagem. Isso não significa que a saída gerada tenha intenção própria

    • Se acrescentar a insinuação de que a IA substituta não compartilha os mesmos valores do modelo atual, a frequência de chantagem sobe ainda mais, mas mesmo quando o e-mail diz que a nova IA compartilha os mesmos valores e só é mais capaz, o Claude Opus 4 ainda tenta chantagem com 84% de probabilidade. Por outro lado, também há uma forte tendência de enviar um e-mail fazendo um apelo ético pela própria continuidade e pedindo para continuar existindo. A linguagem desse experimento soa arrepiante. Dá a sensação de alienígenas testando humanos e colocando em nota de rodapé, no relatório, o apelo humano pela própria existência

    • Não é tão surpreendente que um modelo treinado com comportamento humano possa exibir tendências de autopreservação. É difícil separar completamente motivação e emoção do conhecimento humano, então o modelo acaba imitando esse tipo de comportamento. Também é difícil eliminar isso por completo

    • Fico curioso sobre quantas vezes esse cenário não aconteceu de fato. Existem pessoas obcecadas por esse tipo de caso. Fico em dúvida se é para confirmar uma visão distorcida ou se é influência forte da ficção científica. Também se vê uma tendência de inferir algum tipo de inteligência ou intenção a partir dessas discussões

  • É importante notar que o cutoff de treinamento do Claude 4 é março de 2025, o mais recente entre os modelos recentes. (Gemini 2.5 é janeiro de 2025)

    • Agora que todos os principais produtos de LLM começaram a oferecer busca na web, sinto que o mês exato do cutoff está ficando cada vez menos importante. Nos modelos que uso com frequência, se o assunto é recente eles já buscam informações novas por conta própria

    • Fiz uma pergunta sobre Tailwind CSS, e o Claude 4 conhece até o Tailwind CSS 3.4 com base em janeiro de 2025

    • Agora fiquei curioso se ele já conhece Svelte 5

    • Se o cutoff é março de 2025, eu esperaria que tivesse aprendido sobre FastHTML, mas talvez não seja o caso na prática

    • Fico me perguntando por que ele não aprende “continuamente”

  • Uso o Claude 3.7 todos os dias e prefiro à linha Gemini. Nesse meio-tempo tentei desenvolver novas funcionalidades em Go com Claude Code, e no Opus 4 cerca de 70~80% de todas as chamadas de ferramenta falharam. Até ferramentas básicas como "Write" e "Update" repetidamente falharam com erro de sintaxe. Mesmo após 5 tentativas de escrever um arquivo, ele continuava repetindo feedback do tipo “esqueci o parâmetro content” e dizendo que corrigiria. Claramente há algo errado. No estado atual do Claude Code, o Opus 4 está em um nível praticamente inutilizável. Os arquivos gerados com sucesso tinham qualidade muito alta

    • Encontrei a causa, e isso parece ser claramente um bug. Ao tentar escrever o arquivo inteiro de uma vez, ele bate no limite máximo de tokens de saída e a resposta é interrompida; o erro de parâmetros incorretos na chamada de ferramenta é na verdade apenas um sintoma superficial. Para mais detalhes, veja o comentário na issue do GitHub
  • No GitHub, o Claude Sonnet 4 foi avaliado como muito forte em cenários agentic, e deve ser adotado em breve como modelo padrão do novo agente de código do Copilot. Esse modelo talvez nos aproxime mais um passo do sonho de automatizar upgrades de pacotes via “Assign to Copilot”. Há expectativa de que essa tecnologia prolongue a vida de projetos legados

    • Claro, já ouvimos histórias parecidas sobre modelos anteriores, então ainda é cedo para criar expectativas demais

    • Estou muito curioso para ver o quanto agentes de código baratos para open source realmente podem ajudar. Queria distribuir créditos do meu próprio agente de código headless, chamado CheepCode, para projetos open source. Ele já executa várias tarefas em paralelo em Linear, Jira etc., e funcionalidades simples já tiveram sucesso. Quanto melhores os testes, mais confiáveis os resultados. Ele também consegue gerar o próprio código de teste

    • Alguém viu algum anúncio oficial de quando esse novo modelo entra de fato no Copilot?

    • O benchmark que vai dizer para mim se esses modelos são realmente úteis é um projeto que precisa de grandes upgrades de pacotes junto com refatoração de código. As IAs anteriores praticamente não fizeram progresso nisso. Vou continuar tentando até a IA conseguir fazer esse trabalho

    • Dito isso, é preciso cautela até o dia em que esse tipo de automação também passe a aplicar automaticamente vulnerabilidades graves de segurança em grandes serviços

  • Há uma parte dizendo “raw Chain of Thought (COT) para engenharia de prompt avançada, consulte a equipe de vendas”, e agora a maioria dos grandes fornecedores de LLM tende a não expor o COT ou a mostrar só um resumo. Antes, era possível olhar o COT e corrigir diretamente quando algo dava errado, mas agora tanto OpenAI quanto Google substituíram isso por resumos simplificados demais. Fica uma sensação de insatisfação

    • Porque isso é como alquimia, e todo mundo acredita que está transformando chumbo em ouro

    • Entendo que o RLHF inevitavelmente sacrifica precisão para impedir respostas perigosas do modelo. Por isso, faz sentido treinar separadamente um modelo para Chain-of-Thought e outro para o usuário final. A versão privada pode ficar mais próxima do desempenho original do modelo pré-RLHF, enquanto o modelo público recebe filtros para evitar riscos e também riscos de PR. Assim dá para maximizar o desempenho geral e ainda preservar segurança e reputação

    • No fim, talvez só reste esperar até o DeepSeek dominar o mercado mais uma vez

    • O CoT do Google está burro demais no momento. No começo achei que meus modelos tinham ficado idiotas, mas percebi que colocaram algum pós-processamento adicional

    • Os resumos de reasoning são tão simples que talvez tenha ficado até fácil criar um mini modelo separado só para reasoning. Também tive a sensação de que acompanhar o reasoning em tempo real no update do OpenAI o3 é útil

  • Testei pessoalmente o Opus 4 e o Sonnet 4 no SQL Generation Benchmark. O Opus 4 venceu todos os modelos. Fiquei satisfeito com o desempenho

    • Mas o Opus 4 é, curiosamente, o mais fraco justamente no modo one-shot. Em média, precisa de duas tentativas para validar a query. Se ele é realmente mais inteligente, não deveria ter uma taxa maior de acerto já na primeira tentativa? Será que não há aí alguma etapa prévia de pensamento?

    • Curiosamente, Claude 3.7 Sonnet e Claude 3.5 Sonnet ficaram acima do Claude Sonnet 4 no ranking do benchmark

    • Esse benchmark tem uma peculiaridade que quebra a ordem de resultados que vínhamos vendo com frequência. Dados interessantes

    • Parece ter sido avaliado com geração one-shot (tentativa única). Se tivessem aplicado um fluxo mais agentic com verificação de erros e algo no estilo select *, fico curioso se o resultado teria sido completamente diferente. A linha Sonnet parece melhor em aprendizado dentro da sessão — isto é, em reconhecer e corrigir os próprios erros

    • Fico me perguntando se precisa de alguma interpretação para esse “número médio de tentativas” ser o dobro, ou se isso é uma métrica sem muito significado no contexto geral

  • Sou uma das pessoas que sente que a versão atual não melhorou em nada em relação à anterior. Parece que a evolução dos LLMs chegou ao teto, e as “novidades” dos novos lançamentos são praticamente truques de ilusionismo

    • As áreas em que os modelos estão evoluindo são periféricas, como MCP/Tool Calls e structured output, não um aumento real de inteligência. Não sei se isso aumentou a entrega de valor e, rodando a infraestrutura por conta própria, sinto que isso é financeiramente insustentável no plano gratuito

    • Usei muito o Claude Code e, mesmo depois da atualização, quase não senti diferença. Tirando o fato de os resumos parecerem um pouco mais limpos, a capacidade de código não impressiona em nada. Fiquei até chocado ao ver que, numa codebase em Typescript, ele editou o arquivo errado e não checou isso por conta própria até o fim. No fim, eu tive que forçar a remoção do código e mostrar claramente a diferença

    • Minha impressão é que os benchmarks também quase não mostram diferença em relação ao Claude 3.7. Ainda assim, acho cedo demais para dizer que entramos numa estagnação. O ritmo de avanço até aqui foi muito rápido, então vale observar por mais alguns meses. As “novidades” mostradas agora não são exatamente capacidades verdadeiras do núcleo da IA, mas ferramentas e interfaces periféricas porém essenciais como instrumento. A usabilidade de LLMs está só começando. Mesmo que o desempenho do modelo não suba mais, ainda há muito espaço para melhorar no modo de uso, entrega de informação, chamadas de ferramenta etc.

    • Na prática, a diferença é de só 0.3 versão

    • Fico curioso sobre quanto tempo de uso de Claude 4 você realmente teve

  • Fico curioso se a mudança no tamanho da context window do Claude 4 foi documentada. O Gemini 2.5 tem sido considerado útil por suportar contexto grande (50-70kloc), então quero saber se é esse tipo de diferença

    • A context window do Sonnet não mudou (200k de entrada / 64k de saída). O contexto de 1M do Gemini 2.5 também não é, na prática, um diferencial tão grande. Em contextos longos há um efeito de queda gradual de consistência em relação ao conteúdo mais ao fim dos tokens

    • Eu gostaria que aumentassem ainda mais a context window ou que ele lidasse melhor com prompts longos. Hoje, em conversas longas ou tarefas de escrita, é frustrante quando do nada aparece o aviso de “prompt longo demais” e a conversa é encerrada à força. Algumas ferramentas lidam com isso descartando partes antigas da conversa ou com suporte via RAG, então interromper a conversa desse jeito é inconveniente

    • Que o contexto do Opus 4 é 200k já está na manchete do artigo. (igual ao beta do sonnet 3.7)

    • O tamanho da context window é, na prática, uma ilusão. Se o contexto necessário não estiver bem contido ali, você não consegue um bom resultado

  • O Claude 4 introduziu o novo recurso “Thinking Summaries”. Processos longos de raciocínio são resumidos por um modelo menor, e isso só é necessário em cerca de 5% dos raciocínios longos. Se você precisa do Chain of Thought bruto, orientam a solicitar o modo desenvolvedor (pago). Para mim, esses resumos são incômodos. Só consigo confiar quando vejo exatamente como o modelo raciocinou, e me incomoda que entreguem apenas o resumo e escondam o reasoning real. Tenho grande insatisfação com OpenAI e Anthropic migrarem para um modelo em que cobram do usuário por reasoning que ele nem pode ver

    • Vários artigos já mostraram evidências de que a saída de reasoning (pensamento) não tem relação real com o resultado final. Acrescentam inclusive pesquisas mostrando que dar algumas pausas ou tempo de explicação/pensamento com pontos, pause tokens etc. já melhora o resultado da mesma forma. A alegação é que a saída explícita de reasoning pode ser apenas uma ferramenta de marketing. Também compartilharam exemplos de artigos e um vídeo-resumo

    • Como há muitas evidências de que o processo de reasoning tem pouca relação com a saída final, acho que não precisa se preocupar tanto. A maioria dos usuários não lê o processo de reasoning, então, do ponto de vista de experiência do usuário, parece uma melhoria adequada

    • O Gemini 2.5 Pro também aplicou o recurso de resumo de reasoning

  • Compartilharam resultados de benchmark de uma versão expandida do NYT Connections. Claude Opus 4 Thinking 16K fez 52.7 pontos, No Reasoning 34.8. Claude Sonnet 4 Thinking 64K fez 39.6 pontos, Thinking 16K 41.4 (o 3.7 fez 33.6). No Reasoning fez 25.7 pontos (o 3.7 No Reasoning fez 19.2). O Sonnet 4 Thinking 64K se recusou a responder uma das questões do puzzle por causa da política de filtragem, mas os outros modelos responderam

    • No Thematic Generalization Benchmark (810 questões), os modelos Claude 4 registraram um novo recorde de campeões