- Claude Opus 4.1 é uma versão atualizada com reforço em codificação prática, tarefas agentic e capacidade de raciocínio
- No SWE-bench Verified, registrou 74,5% de melhor desempenho em código, com resultados expressivos em depuração precisa em bases de código de grande porte, refatoração de múltiplos arquivos e outros cenários
- Recebeu avaliações positivas de usuários reais como Rakuten, GitHub e Windsurf quanto à precisão de correção de código, eficiência na depuração do dia a dia e melhora clara no benchmark de desenvolvedor júnior
- Mostra desempenho mais refinado em ambientes reais de desenvolvimento, com refatoração de arquivos múltiplos e correções de código mais detalhadas
- Usuários existentes do Opus 4 já podem usar imediatamente, sem custo adicional, em API, Claude Code, Amazon Bedrock e Google Vertex AI
Principais recursos do Claude Opus 4.1
- Em comparação com o Claude Opus 4 anterior, houve melhoria no desempenho em trabalho agentic, escrita de código real e tarefas de raciocínio complexas
- Várias semanas daqui devem trazer melhorias de maior escala no modelo
Principais melhorias
- 74,5% de desempenho em código no SWE-bench Verified
- Capacidade de pesquisa aprofundada e análise de dados, com melhora notável, especialmente em rastrear detalhes e em busca agentic
- Bom resultado em benchmark de base de código prática que resolve problemas de correção de bugs em repositórios de código aberto em larga escala
- Refatoração de múltiplos arquivos e depuração precisa em bases de código de grande escala foram otimizados para tarefas de desenvolvedor de produção
- No GitHub, o Opus 4.1 apresentou melhoria de desempenho em comparação ao Opus 4 na maioria das funcionalidades, com destaque para refatoração de código em múltiplos arquivos
- A Rakuten Group destacou o Opus 4.1 por corrigir somente os trechos realmente necessários dentro de uma grande base de código, mantendo o estilo sem introduzir mudanças desnecessárias ou bugs
- A Windsurf observou, no benchmark de desenvolvedores júnior da própria empresa, que o Opus 4.1 teve desempenho um desvio padrão melhor que o Opus 4, e avaliou esse salto de performance como comparável ao upgrade de Sonnet 3.7 para Sonnet 4
Comparação de desempenho por métrica principal
- Codificação agentic (SWE-bench Verified)
- Claude Opus 4.1: 74,5%
- Claude anterior (Opus 4): 72,5%, Claude Sonnet 4: 72,7%
- OpenAI o3: 69,1%
- Gemini 2.5 Pro: 67,2%
- → Maior precisão nas tarefas reais de correção de código open source
- Codificação em terminal agentic (Terminal-Bench)
- Claude Opus 4.1: 43,3% (melhor)
- Opus 4: 39,2%
- Sonnet 4: 35,5%
- OpenAI o3: 30,2%
- Gemini 2.5 Pro: 25,3%
- Raciocínio de nível superior (GPQA Diamond)
- Claude Opus 4.1: 80,9%
- Opus 4: 79,6%
- Sonnet 4: 75,4%
- OpenAI o3: 83,3% (melhor)
- Gemini 2.5 Pro: 86,4% (melhor)
- Uso de ferramentas agentic (TAU-bench)
- Cenário de varejo: Claude Opus 4.1 82,4% (melhor), Opus 4 81,4%, Sonnet 4 80,5%, OpenAI o3 70,4%
- Cenário de companhia aérea: Claude Opus 4.1 56,0%, Opus 4 59,6%, Sonnet 4 60,0%, OpenAI o3 52,0%
- Gemini 2.5 Pro não apresentou pontuação nessa categoria
- Perguntas e respostas multilíngue (MMMLU)
- Claude Opus 4.1: 89,5% (melhor)
- Opus 4: 88,8%
- Sonnet 4: 86,5%
- OpenAI o3: 88,8%
- Gemini 2.5 Pro: Não informado
- Raciocínio visual (MMMU)
- Claude Opus 4.1: 77,1%
- Opus 4: 76,5%
- Sonnet 4: 74,4%
- OpenAI o3: 82,9% (melhor)
- Gemini 2.5 Pro: 82% (melhor)
- Competição de matemática do ensino médio (AIME 2025)
- Claude Opus 4.1: 78,0%
- Opus 4: 75,5%
- Sonnet 4: 70,5%
- OpenAI o3: 88,9% (melhor)
- Gemini 2.5 Pro: 88% (melhor)
-
Resumo da tabela de benchmarks
- Claude Opus 4.1 apresenta tendência consistente de alta em todas as áreas versus a versão anterior e registra as melhores pontuações em benchmarks práticos de produção, como automação de código, refatoração de múltiplos arquivos, QA multilíngue e uso de ferramentas
- Em matemática, raciocínio visual e raciocínio avançado (GPQA), OpenAI o3 e Gemini 2.5 Pro levam ligeira vantagem em alguns pontos, enquanto em produtividade real de código e QA multilíngue o Claude Opus 4.1 se destaca
- O cenário de companhia aérea (uso de ferramentas agentic) teve leve queda, e matemática e raciocínio visual ficaram próximos com vantagem de outros modelos
Ambiente real de uso e implantação
- Para usuários atuais do Opus 4, recomenda-se atualização direta para
claude-opus-4-1-20250805 via API
- Disponível para implantação e uso por diversas vias como API, Claude Code, Amazon Bedrock e Google Vertex AI
- A política de preços é a mesma do Opus 4; usuários existentes podem fazer upgrade imediatamente
- Em conjunto com model card, descrição do modelo, preços e documentação oficial, também foram divulgados benchmarks detalhados e metodologia de avaliação
Planos futuros
- O Opus 4.1 é uma atualização moderada que incorpora os avanços mais recentes em codificação e raciocínio, com uma nova melhora de grande porte prevista para as próximas semanas
- Há planos de melhorias contínuas de desempenho e expansão de funcionalidades, com feedback dos usuários incorporado ativamente
Referências
- A fonte dos dados de comparação com modelos recentes de terceiros, como OpenAI o3 e Gemini 2.5 Pro, os resultados de benchmark e o uso de pensamento expandido por modelo foram apresentados de forma transparente
Ainda não há comentários.