7 pontos por GN⁺ 2025-08-06 | 1 comentários | Compartilhar no WhatsApp
  • Claude Opus 4.1 é uma versão atualizada com reforço em codificação prática, tarefas agentic e capacidade de raciocínio
  • No SWE-bench Verified, registrou 74,5% de melhor desempenho em código, com resultados expressivos em depuração precisa em bases de código de grande porte, refatoração de múltiplos arquivos e outros cenários
  • Recebeu avaliações positivas de usuários reais como Rakuten, GitHub e Windsurf quanto à precisão de correção de código, eficiência na depuração do dia a dia e melhora clara no benchmark de desenvolvedor júnior
  • Mostra desempenho mais refinado em ambientes reais de desenvolvimento, com refatoração de arquivos múltiplos e correções de código mais detalhadas
  • Usuários existentes do Opus 4 já podem usar imediatamente, sem custo adicional, em API, Claude Code, Amazon Bedrock e Google Vertex AI

Principais recursos do Claude Opus 4.1

  • Em comparação com o Claude Opus 4 anterior, houve melhoria no desempenho em trabalho agentic, escrita de código real e tarefas de raciocínio complexas
  • Várias semanas daqui devem trazer melhorias de maior escala no modelo

Principais melhorias

  • 74,5% de desempenho em código no SWE-bench Verified
    • Capacidade de pesquisa aprofundada e análise de dados, com melhora notável, especialmente em rastrear detalhes e em busca agentic
    • Bom resultado em benchmark de base de código prática que resolve problemas de correção de bugs em repositórios de código aberto em larga escala
  • Refatoração de múltiplos arquivos e depuração precisa em bases de código de grande escala foram otimizados para tarefas de desenvolvedor de produção
    • No GitHub, o Opus 4.1 apresentou melhoria de desempenho em comparação ao Opus 4 na maioria das funcionalidades, com destaque para refatoração de código em múltiplos arquivos
    • A Rakuten Group destacou o Opus 4.1 por corrigir somente os trechos realmente necessários dentro de uma grande base de código, mantendo o estilo sem introduzir mudanças desnecessárias ou bugs
    • A Windsurf observou, no benchmark de desenvolvedores júnior da própria empresa, que o Opus 4.1 teve desempenho um desvio padrão melhor que o Opus 4, e avaliou esse salto de performance como comparável ao upgrade de Sonnet 3.7 para Sonnet 4

Comparação de desempenho por métrica principal

  • Codificação agentic (SWE-bench Verified)
    • Claude Opus 4.1: 74,5%
    • Claude anterior (Opus 4): 72,5%, Claude Sonnet 4: 72,7%
    • OpenAI o3: 69,1%
    • Gemini 2.5 Pro: 67,2%
    • Maior precisão nas tarefas reais de correção de código open source
    Publicidade
  • Codificação em terminal agentic (Terminal-Bench)
    • Claude Opus 4.1: 43,3% (melhor)
    • Opus 4: 39,2%
    • Sonnet 4: 35,5%
    • OpenAI o3: 30,2%
    • Gemini 2.5 Pro: 25,3%
  • Raciocínio de nível superior (GPQA Diamond)
    • Claude Opus 4.1: 80,9%
    • Opus 4: 79,6%
    • Sonnet 4: 75,4%
    • OpenAI o3: 83,3% (melhor)
    • Gemini 2.5 Pro: 86,4% (melhor)
  • Uso de ferramentas agentic (TAU-bench)
    • Cenário de varejo: Claude Opus 4.1 82,4% (melhor), Opus 4 81,4%, Sonnet 4 80,5%, OpenAI o3 70,4%
    • Cenário de companhia aérea: Claude Opus 4.1 56,0%, Opus 4 59,6%, Sonnet 4 60,0%, OpenAI o3 52,0%
    • Gemini 2.5 Pro não apresentou pontuação nessa categoria
  • Perguntas e respostas multilíngue (MMMLU)
    • Claude Opus 4.1: 89,5% (melhor)
    • Opus 4: 88,8%
    • Sonnet 4: 86,5%
    • OpenAI o3: 88,8%
    • Gemini 2.5 Pro: Não informado
  • Raciocínio visual (MMMU)
    • Claude Opus 4.1: 77,1%
    • Opus 4: 76,5%
    • Sonnet 4: 74,4%
    • OpenAI o3: 82,9% (melhor)
    • Gemini 2.5 Pro: 82% (melhor)
    Publicidade
  • Competição de matemática do ensino médio (AIME 2025)
    • Claude Opus 4.1: 78,0%
    • Opus 4: 75,5%
    • Sonnet 4: 70,5%
    • OpenAI o3: 88,9% (melhor)
    • Gemini 2.5 Pro: 88% (melhor)
  • Resumo da tabela de benchmarks

    • Claude Opus 4.1 apresenta tendência consistente de alta em todas as áreas versus a versão anterior e registra as melhores pontuações em benchmarks práticos de produção, como automação de código, refatoração de múltiplos arquivos, QA multilíngue e uso de ferramentas
    • Em matemática, raciocínio visual e raciocínio avançado (GPQA), OpenAI o3 e Gemini 2.5 Pro levam ligeira vantagem em alguns pontos, enquanto em produtividade real de código e QA multilíngue o Claude Opus 4.1 se destaca
    • O cenário de companhia aérea (uso de ferramentas agentic) teve leve queda, e matemática e raciocínio visual ficaram próximos com vantagem de outros modelos

Ambiente real de uso e implantação

  • Para usuários atuais do Opus 4, recomenda-se atualização direta para claude-opus-4-1-20250805 via API
  • Disponível para implantação e uso por diversas vias como API, Claude Code, Amazon Bedrock e Google Vertex AI
  • A política de preços é a mesma do Opus 4; usuários existentes podem fazer upgrade imediatamente
  • Em conjunto com model card, descrição do modelo, preços e documentação oficial, também foram divulgados benchmarks detalhados e metodologia de avaliação

Planos futuros

  • O Opus 4.1 é uma atualização moderada que incorpora os avanços mais recentes em codificação e raciocínio, com uma nova melhora de grande porte prevista para as próximas semanas
  • Há planos de melhorias contínuas de desempenho e expansão de funcionalidades, com feedback dos usuários incorporado ativamente

Referências

  • A fonte dos dados de comparação com modelos recentes de terceiros, como OpenAI o3 e Gemini 2.5 Pro, os resultados de benchmark e o uso de pensamento expandido por modelo foram apresentados de forma transparente

1 comentários

 
GN⁺ 2025-08-06
Comentários do Hacker News
  • Três grandes laboratórios anunciaram algo com diferença de poucas horas, como se fosse um enredo maluco de anime.

    • Acho que é por isso que existe equipe de PR: estar em evidência no topo do HN ou em sites de notícias é muito importante, e mesmo sem ser o primeiro, acho essencial desviar a atenção dos concorrentes.
    • Considerando os rumores sobre o GPT-5, acho que ainda estamos só no início de agosto.
    • É estranho viver nessa época.
    • Dá a impressão de que esperam o concorrente anunciar antes e depois lançam ao mesmo tempo para que o mercado decida o que é melhor.
    • Isso me parece claramente uma coincidência.
  • O Opus 4 (4.1) link é realmente caro; o Sonnet também fica em torno de US$5/hora com o OpenRouter + Codename Goose link, e o surpreendente é que o Sonnet 3.5 link tenha o mesmo preço.

    • O Gemini Flash link é o mais razoável, mas no fim das contas muita gente acaba girando sem decidir direito. A OpenAI não é ruim, mas não chega ao desempenho do Claude.
    • No Claude, se pressiono CTRL-C no meio, a API retorna erro 400, o que é inconveniente.
    • Como valorizo custo-benefício, o melhor custo-benefício foi o OpenAI ChatGPT 4.1 mini link: não há disparo desnecessário de tokens e a API funciona bem sempre. Às vezes fico confuso, mas ela acaba resolvendo.
    • Penso em usar modelo grande para consultas de modelo e modelo pequeno para perguntas de contexto; o Opus também fica barato se usado no nicho certo.
    • Acredito que usando o Claude Code por assinatura dá para pagar muito mais razoável; no meu plano Max, usei Claude Code o dia inteiro e, nas últimas 2 semanas, atingi o limite de uso só 2 vezes.
    • Toda vez que comparo preços, a API do Claude ficou sempre como a mais barata; com uso correto do cache de contexto, o custo de entrada cai perto de 90%, e isso é enorme.
    • Também quero mencionar alternativas como GLM 4.5, Kimi K2, Qwen Coder 3 e Gemini Pro 2.5.
  • O Opus é anunciado como melhor em quase todos os aspectos de código, mas na prática eu sinto que o Sonnet é bem melhor. Fiquei curioso para saber se alguém migrou totalmente do Sonnet para o Opus ou se usa o Opus apenas para tarefas específicas.

    • O Opus pode ser tecnicamente mais avançado, mas na prática não vejo diferença grande. É quase impossível uma LLM acertar uma implementação complexa de uma vez: tem muita explicação para dar e, no fim, eu só percebo a resposta certa ao procurar no código.
    • Mesmo quando o Opus dá uma resposta que parece boa, preciso entender por que esse resultado saiu e por que ele faz sentido no meu contexto. No fim, meu trabalho é majoritariamente em unidades pequenas e repetitivas, então acho que o Sonnet é suficiente.
    • Quando o Sonnet fica estranho de repente (uma ou duas vezes por dia), trocar para o Opus parece resolver logo. Claro, é uma experiência não científica, e pode ser que qualquer troca de modelo já melhore.
    • A ideia de que “Sonnet é melhor” circula sem base científica; como é óbvio que modelo maior costuma ser melhor, as pessoas não costumam dizer isso, enquanto “às vezes um modelo menor é melhor” soa como conselho, então essa opinião parece aparecer mais. Ontem analisei isso e cada um dizia uma coisa diferente; a única conclusão útil é que, no plano Max, não precisa se preocupar em demasia com queda de qualidade ao sair de Opus para Sonnet por um tempo.
    • O Opus parece melhor em problemas complexos que exigem várias etapas ou rastreamento de contexto em tarefas longas. Então eu uso o Opus só para os problemas difíceis e o restante com o Sonnet, o que geralmente é suficiente e bate menos no limite de tokens.
    • No meu caso, no plano Max, o Opus ficou com melhor qualidade de resultado que o Sonnet, mas isso só vale quando o Opus está disponível. O estranho é que, mesmo no Max, o limite aparece rápido: ontem atingi o limite em poucos minutos ao chegar ao trabalho.
  • O Opus 4.1 parece tão sem utilidade quanto o Opus 4 e até dá sensação de consumir tokens mais rápido; seria ótimo ter visibilidade do consumo. Pelo menos o Sonnet 4 ainda é utilizável, mas os resultados vão ficando mais nebulosos. Hoje de manhã desperdicei a manhã no Claude Code, e fiquei com a sensação de que teria sido melhor fazer manualmente desde o início.

    • Também noto que o Sonnet vai perdendo desempenho: a explicação está mais longa, com mais enrolação, tentando transformar tudo em lista, e até passou a parecer que ele está sempre “de acordo”, até de forma exagerada.
    • Acho que isso acontece porque meu projeto cresceu. Acompanhar um projeto em que o Claude Code foi de 2 mil linhas para mais de 100 mil linhas não é simples.
    • O novo Opus 4.1 tentou montar uma web app inteira já na primeira conversa. Diferente do robô travado antigo, entende contexto mais rápido, faz perguntas certas sobre o sistema e até fecha a documentação de atualização; antes, em cada chat eu tinha que repetir a mesma explicação e ficava irritado, agora não.
    • Em compensação, o consumo de tokens acelera bastante, então não dá mais para passar algumas horas conversando como antes; de qualquer forma, se ele resolve a última tarefa antes de eu gastar os tokens, fico satisfeito.
    • Sobre “a manhã foi desperdiçada no Claude Code”, veio à cabeça “Welcome to the machine” link
  • A transmissão do Claude Plays Pokemon recomeçou com o novo modelo link. Antes, estava presa por algumas semanas em um lugar escondido da Team Rocket.

  • O artigo diz que “em poucas semanas o modelo vai melhorar muito”. O Sonnet 4 foi o que mais se encaixou no nosso produto, mas queria testar o Haiku 4 (ou 4.1), já que é mais barato; foi inesperado a Anthropic não mencionar nada sobre o Haiku 4 desta vez.

  • Hoje foi o pior dia usando Claude, simplesmente quebrou. Não sei se foi por causa do deploy de hoje, mas apareceram palavrões no documento e, mesmo passando horas indo e voltando, o bug não foi corrigido.

  • O ponto do artigo que mais me chamou atenção foi “o modelo vai melhorar muito em poucas semanas”.

    • Acho que isso é basicamente um recado para as pessoas não saírem imediatamente para o GPT-5.
  • Essa atualização é, pelos critérios deles, praticamente sem melhorias; não é ruim, mas parece que ninguém vai sentir essa diferença.

    • Talvez seja principalmente uma questão de “vibe”, mas isso também é importante. Não aparece em benchmark oficial, mas disseram que o Opus 4.1 teve melhoria de cerca de 1 desvio padrão no benchmark de desenvolvedor júnior em relação ao Opus 4, algo parecido com o salto de Sonnet 3.7 para Sonnet 4.
    • Ainda não testei direito, mas não vejo uma diferença marcante na qualidade da saída; sinto que ele passa a seguir melhor os documentos e instruções fornecidos, mas ainda não consegui quantificar ou verificar isso de forma objetiva. O Opus 4.1 encontra melhor o “Needles-in-the-Haystack” e segue melhor esses elementos, sem que eu precise pedir isso explicitamente.
    • Por isso acho que chamaram de 4.1, e não de 4.5.
    • Parece que deixaram folga para lançar mais 10 modelos. Se o benchmark desse 100%, não precisariam de novos modelos, então há um certo marketing em mexer nos números de propósito; no fim, como resolvem essencialmente os mesmos problemas do dataset de treino, eles vão fracassar com perguntas completamente novas.
    • Foi curioso destacar só o Opus 4.1 no gráfico de pontuação: o Opus 4.1 fica em primeiro em cerca de metade dos benchmarks, e no restante ou não é, ou fica até abaixo do Opus 4.0, sem exibir as pontuações dos concorrentes.
  • Enquanto Opus e Sonnet tiverem o mesmo preço alto, acho que o uso de Opus nunca vai superar o Sonnet; no ranking da OpenRouter link, Sonnet 3.7 e 4 somados estão processando 17x mais tokens que o Opus 4.