7 pontos por GN⁺ 2025-08-06 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Claude Opus 4.1 é uma versão atualizada com reforço em codificação prática, tarefas agentic e capacidade de raciocínio
  • No SWE-bench Verified, registrou 74,5% de melhor desempenho em código, com resultados expressivos em depuração precisa em bases de código de grande porte, refatoração de múltiplos arquivos e outros cenários
  • Recebeu avaliações positivas de usuários reais como Rakuten, GitHub e Windsurf quanto à precisão de correção de código, eficiência na depuração do dia a dia e melhora clara no benchmark de desenvolvedor júnior
  • Mostra desempenho mais refinado em ambientes reais de desenvolvimento, com refatoração de arquivos múltiplos e correções de código mais detalhadas
  • Usuários existentes do Opus 4 já podem usar imediatamente, sem custo adicional, em API, Claude Code, Amazon Bedrock e Google Vertex AI

Principais recursos do Claude Opus 4.1

  • Em comparação com o Claude Opus 4 anterior, houve melhoria no desempenho em trabalho agentic, escrita de código real e tarefas de raciocínio complexas
  • Várias semanas daqui devem trazer melhorias de maior escala no modelo

Principais melhorias

  • 74,5% de desempenho em código no SWE-bench Verified
    • Capacidade de pesquisa aprofundada e análise de dados, com melhora notável, especialmente em rastrear detalhes e em busca agentic
    • Bom resultado em benchmark de base de código prática que resolve problemas de correção de bugs em repositórios de código aberto em larga escala
  • Refatoração de múltiplos arquivos e depuração precisa em bases de código de grande escala foram otimizados para tarefas de desenvolvedor de produção
    • No GitHub, o Opus 4.1 apresentou melhoria de desempenho em comparação ao Opus 4 na maioria das funcionalidades, com destaque para refatoração de código em múltiplos arquivos
    • A Rakuten Group destacou o Opus 4.1 por corrigir somente os trechos realmente necessários dentro de uma grande base de código, mantendo o estilo sem introduzir mudanças desnecessárias ou bugs
    • A Windsurf observou, no benchmark de desenvolvedores júnior da própria empresa, que o Opus 4.1 teve desempenho um desvio padrão melhor que o Opus 4, e avaliou esse salto de performance como comparável ao upgrade de Sonnet 3.7 para Sonnet 4

Comparação de desempenho por métrica principal

  • Codificação agentic (SWE-bench Verified)
    • Claude Opus 4.1: 74,5%
    • Claude anterior (Opus 4): 72,5%, Claude Sonnet 4: 72,7%
    • OpenAI o3: 69,1%
    • Gemini 2.5 Pro: 67,2%
    • Maior precisão nas tarefas reais de correção de código open source
  • Codificação em terminal agentic (Terminal-Bench)
    • Claude Opus 4.1: 43,3% (melhor)
    • Opus 4: 39,2%
    • Sonnet 4: 35,5%
    • OpenAI o3: 30,2%
    • Gemini 2.5 Pro: 25,3%
  • Raciocínio de nível superior (GPQA Diamond)
    • Claude Opus 4.1: 80,9%
    • Opus 4: 79,6%
    • Sonnet 4: 75,4%
    • OpenAI o3: 83,3% (melhor)
    • Gemini 2.5 Pro: 86,4% (melhor)
  • Uso de ferramentas agentic (TAU-bench)
    • Cenário de varejo: Claude Opus 4.1 82,4% (melhor), Opus 4 81,4%, Sonnet 4 80,5%, OpenAI o3 70,4%
    • Cenário de companhia aérea: Claude Opus 4.1 56,0%, Opus 4 59,6%, Sonnet 4 60,0%, OpenAI o3 52,0%
    • Gemini 2.5 Pro não apresentou pontuação nessa categoria
  • Perguntas e respostas multilíngue (MMMLU)
    • Claude Opus 4.1: 89,5% (melhor)
    • Opus 4: 88,8%
    • Sonnet 4: 86,5%
    • OpenAI o3: 88,8%
    • Gemini 2.5 Pro: Não informado
  • Raciocínio visual (MMMU)
    • Claude Opus 4.1: 77,1%
    • Opus 4: 76,5%
    • Sonnet 4: 74,4%
    • OpenAI o3: 82,9% (melhor)
    • Gemini 2.5 Pro: 82% (melhor)
  • Competição de matemática do ensino médio (AIME 2025)
    • Claude Opus 4.1: 78,0%
    • Opus 4: 75,5%
    • Sonnet 4: 70,5%
    • OpenAI o3: 88,9% (melhor)
    • Gemini 2.5 Pro: 88% (melhor)
  • Resumo da tabela de benchmarks

    • Claude Opus 4.1 apresenta tendência consistente de alta em todas as áreas versus a versão anterior e registra as melhores pontuações em benchmarks práticos de produção, como automação de código, refatoração de múltiplos arquivos, QA multilíngue e uso de ferramentas
    • Em matemática, raciocínio visual e raciocínio avançado (GPQA), OpenAI o3 e Gemini 2.5 Pro levam ligeira vantagem em alguns pontos, enquanto em produtividade real de código e QA multilíngue o Claude Opus 4.1 se destaca
    • O cenário de companhia aérea (uso de ferramentas agentic) teve leve queda, e matemática e raciocínio visual ficaram próximos com vantagem de outros modelos

Ambiente real de uso e implantação

  • Para usuários atuais do Opus 4, recomenda-se atualização direta para claude-opus-4-1-20250805 via API
  • Disponível para implantação e uso por diversas vias como API, Claude Code, Amazon Bedrock e Google Vertex AI
  • A política de preços é a mesma do Opus 4; usuários existentes podem fazer upgrade imediatamente
  • Em conjunto com model card, descrição do modelo, preços e documentação oficial, também foram divulgados benchmarks detalhados e metodologia de avaliação

Planos futuros

  • O Opus 4.1 é uma atualização moderada que incorpora os avanços mais recentes em codificação e raciocínio, com uma nova melhora de grande porte prevista para as próximas semanas
  • Há planos de melhorias contínuas de desempenho e expansão de funcionalidades, com feedback dos usuários incorporado ativamente

Referências

  • A fonte dos dados de comparação com modelos recentes de terceiros, como OpenAI o3 e Gemini 2.5 Pro, os resultados de benchmark e o uso de pensamento expandido por modelo foram apresentados de forma transparente

Ainda não há comentários.

Ainda não há comentários.