Anthropic anuncia o Claude Opus 4.1
(anthropic.com)- Claude Opus 4.1 é uma versão atualizada com reforço em codificação prática, tarefas agentic e capacidade de raciocínio
- No SWE-bench Verified, registrou 74,5% de melhor desempenho em código, com resultados expressivos em depuração precisa em bases de código de grande porte, refatoração de múltiplos arquivos e outros cenários
- Recebeu avaliações positivas de usuários reais como Rakuten, GitHub e Windsurf quanto à precisão de correção de código, eficiência na depuração do dia a dia e melhora clara no benchmark de desenvolvedor júnior
- Mostra desempenho mais refinado em ambientes reais de desenvolvimento, com refatoração de arquivos múltiplos e correções de código mais detalhadas
- Usuários existentes do Opus 4 já podem usar imediatamente, sem custo adicional, em API, Claude Code, Amazon Bedrock e Google Vertex AI
Principais recursos do Claude Opus 4.1
- Em comparação com o Claude Opus 4 anterior, houve melhoria no desempenho em trabalho agentic, escrita de código real e tarefas de raciocínio complexas
- Várias semanas daqui devem trazer melhorias de maior escala no modelo
Principais melhorias
- 74,5% de desempenho em código no SWE-bench Verified
- Capacidade de pesquisa aprofundada e análise de dados, com melhora notável, especialmente em rastrear detalhes e em busca agentic
- Bom resultado em benchmark de base de código prática que resolve problemas de correção de bugs em repositórios de código aberto em larga escala
- Refatoração de múltiplos arquivos e depuração precisa em bases de código de grande escala foram otimizados para tarefas de desenvolvedor de produção
- No GitHub, o Opus 4.1 apresentou melhoria de desempenho em comparação ao Opus 4 na maioria das funcionalidades, com destaque para refatoração de código em múltiplos arquivos
- A Rakuten Group destacou o Opus 4.1 por corrigir somente os trechos realmente necessários dentro de uma grande base de código, mantendo o estilo sem introduzir mudanças desnecessárias ou bugs
- A Windsurf observou, no benchmark de desenvolvedores júnior da própria empresa, que o Opus 4.1 teve desempenho um desvio padrão melhor que o Opus 4, e avaliou esse salto de performance como comparável ao upgrade de Sonnet 3.7 para Sonnet 4
Comparação de desempenho por métrica principal
- Codificação agentic (SWE-bench Verified)
- Claude Opus 4.1: 74,5%
- Claude anterior (Opus 4): 72,5%, Claude Sonnet 4: 72,7%
- OpenAI o3: 69,1%
- Gemini 2.5 Pro: 67,2%
- → Maior precisão nas tarefas reais de correção de código open source
- Codificação em terminal agentic (Terminal-Bench)
- Claude Opus 4.1: 43,3% (melhor)
- Opus 4: 39,2%
- Sonnet 4: 35,5%
- OpenAI o3: 30,2%
- Gemini 2.5 Pro: 25,3%
- Raciocínio de nível superior (GPQA Diamond)
- Claude Opus 4.1: 80,9%
- Opus 4: 79,6%
- Sonnet 4: 75,4%
- OpenAI o3: 83,3% (melhor)
- Gemini 2.5 Pro: 86,4% (melhor)
- Uso de ferramentas agentic (TAU-bench)
- Cenário de varejo: Claude Opus 4.1 82,4% (melhor), Opus 4 81,4%, Sonnet 4 80,5%, OpenAI o3 70,4%
- Cenário de companhia aérea: Claude Opus 4.1 56,0%, Opus 4 59,6%, Sonnet 4 60,0%, OpenAI o3 52,0%
- Gemini 2.5 Pro não apresentou pontuação nessa categoria
- Perguntas e respostas multilíngue (MMMLU)
- Claude Opus 4.1: 89,5% (melhor)
- Opus 4: 88,8%
- Sonnet 4: 86,5%
- OpenAI o3: 88,8%
- Gemini 2.5 Pro: Não informado
- Raciocínio visual (MMMU)
- Claude Opus 4.1: 77,1%
- Opus 4: 76,5%
- Sonnet 4: 74,4%
- OpenAI o3: 82,9% (melhor)
- Gemini 2.5 Pro: 82% (melhor)
- Competição de matemática do ensino médio (AIME 2025)
- Claude Opus 4.1: 78,0%
- Opus 4: 75,5%
- Sonnet 4: 70,5%
- OpenAI o3: 88,9% (melhor)
- Gemini 2.5 Pro: 88% (melhor)
-
Resumo da tabela de benchmarks
- Claude Opus 4.1 apresenta tendência consistente de alta em todas as áreas versus a versão anterior e registra as melhores pontuações em benchmarks práticos de produção, como automação de código, refatoração de múltiplos arquivos, QA multilíngue e uso de ferramentas
- Em matemática, raciocínio visual e raciocínio avançado (GPQA), OpenAI o3 e Gemini 2.5 Pro levam ligeira vantagem em alguns pontos, enquanto em produtividade real de código e QA multilíngue o Claude Opus 4.1 se destaca
- O cenário de companhia aérea (uso de ferramentas agentic) teve leve queda, e matemática e raciocínio visual ficaram próximos com vantagem de outros modelos
Ambiente real de uso e implantação
- Para usuários atuais do Opus 4, recomenda-se atualização direta para
claude-opus-4-1-20250805via API - Disponível para implantação e uso por diversas vias como API, Claude Code, Amazon Bedrock e Google Vertex AI
- A política de preços é a mesma do Opus 4; usuários existentes podem fazer upgrade imediatamente
- Em conjunto com model card, descrição do modelo, preços e documentação oficial, também foram divulgados benchmarks detalhados e metodologia de avaliação
Planos futuros
- O Opus 4.1 é uma atualização moderada que incorpora os avanços mais recentes em codificação e raciocínio, com uma nova melhora de grande porte prevista para as próximas semanas
- Há planos de melhorias contínuas de desempenho e expansão de funcionalidades, com feedback dos usuários incorporado ativamente
Referências
- A fonte dos dados de comparação com modelos recentes de terceiros, como OpenAI o3 e Gemini 2.5 Pro, os resultados de benchmark e o uso de pensamento expandido por modelo foram apresentados de forma transparente
1 comentários
Comentários do Hacker News
Três grandes laboratórios anunciaram algo com diferença de poucas horas, como se fosse um enredo maluco de anime.
O Opus 4 (4.1) link é realmente caro; o Sonnet também fica em torno de US$5/hora com o OpenRouter + Codename Goose link, e o surpreendente é que o Sonnet 3.5 link tenha o mesmo preço.
O Opus é anunciado como melhor em quase todos os aspectos de código, mas na prática eu sinto que o Sonnet é bem melhor. Fiquei curioso para saber se alguém migrou totalmente do Sonnet para o Opus ou se usa o Opus apenas para tarefas específicas.
O Opus 4.1 parece tão sem utilidade quanto o Opus 4 e até dá sensação de consumir tokens mais rápido; seria ótimo ter visibilidade do consumo. Pelo menos o Sonnet 4 ainda é utilizável, mas os resultados vão ficando mais nebulosos. Hoje de manhã desperdicei a manhã no Claude Code, e fiquei com a sensação de que teria sido melhor fazer manualmente desde o início.
A transmissão do Claude Plays Pokemon recomeçou com o novo modelo link. Antes, estava presa por algumas semanas em um lugar escondido da Team Rocket.
O artigo diz que “em poucas semanas o modelo vai melhorar muito”. O Sonnet 4 foi o que mais se encaixou no nosso produto, mas queria testar o Haiku 4 (ou 4.1), já que é mais barato; foi inesperado a Anthropic não mencionar nada sobre o Haiku 4 desta vez.
Hoje foi o pior dia usando Claude, simplesmente quebrou. Não sei se foi por causa do deploy de hoje, mas apareceram palavrões no documento e, mesmo passando horas indo e voltando, o bug não foi corrigido.
O ponto do artigo que mais me chamou atenção foi “o modelo vai melhorar muito em poucas semanas”.
Essa atualização é, pelos critérios deles, praticamente sem melhorias; não é ruim, mas parece que ninguém vai sentir essa diferença.
Enquanto Opus e Sonnet tiverem o mesmo preço alto, acho que o uso de Opus nunca vai superar o Sonnet; no ranking da OpenRouter link, Sonnet 3.7 e 4 somados estão processando 17x mais tokens que o Opus 4.