- Sistema de rastreamento que mede diariamente o desempenho do Claude Code Opus 4.5 em tarefas de SWE para detectar degradação de desempenho estatisticamente significativa
- Usa um subconjunto selecionado do SWE-Bench-Pro para avaliar 50 instâncias de teste por dia, e os resultados refletem o desempenho real do modelo executado diretamente em um ambiente CLI
- Nos últimos 30 dias, foi detectada uma taxa média de aprovação de 54% e uma queda estatisticamente significativa de 4,1% em relação à linha de base de 58%
- Os resultados diários e semanais são analisados com base em intervalos de confiança de 95% e limiares de significância (±14,0%, ±5,6%), distinguindo variações de curto prazo de tendências de longo prazo
- Operado por uma instituição independente terceirizada, é uma ferramenta para detectar precocemente degradação de desempenho causada por mudanças no modelo ou no ambiente de execução
Visão geral
- O objetivo deste rastreador é detectar degradação estatisticamente significativa no desempenho do Claude Code Opus 4.5 em tarefas de SWE
- A avaliação é realizada diariamente usando um subconjunto resistente à contaminação do SWE-Bench-Pro
- É executado diretamente no Claude Code CLI, refletindo o ambiente real do usuário sem um harness customizado separado
- Trata-se de uma instituição independente terceirizada, sem afiliação com provedores de modelos de fronteira
- Após o postmortem da Anthropic relacionado à degradação de desempenho em setembro de 2025, passou a ser operado como um recurso para detectar precocemente casos semelhantes no futuro
Resumo de desempenho
- Taxa de aprovação da linha de base: 58%
- Taxa de aprovação dos últimos 30 dias: 54% (com base em 655 avaliações)
- Taxa de aprovação dos últimos 7 dias: 53% (com base em 250 avaliações)
- Taxa de aprovação do último 1 dia: 50% (com base em 50 avaliações)
- A degradação de desempenho em 30 dias é estatisticamente significativa no nível p < 0,05
- Variação em 30 dias: -4,1%
- Limiar de significância: ±3,4%
- As variações de 1 dia (-8,0%) e 7 dias (-4,8%) não são estatisticamente significativas
Tendências diárias e semanais
- Tendência diária (Daily Trend)
- Visualiza as taxas de aprovação diárias dos últimos 30 dias
- Linha de base de 58%, faixa de limiar de significância de ±14,0%
- É possível exibir intervalos de confiança de 95%; quanto menor a amostra, mais amplo o intervalo
- Tendência semanal (Weekly Trend)
- Fornece uma tendência suavizada da volatilidade diária por meio de uma média móvel de 7 dias
- Linha de base de 58%, faixa de limiar de significância de ±5,6%
- Da mesma forma, é possível exibir intervalos de confiança de 95%
Visão geral das mudanças (Change Overview)
- Mudança em 1 dia (em relação a ontem): -8,0%, não estatisticamente significativa
- Com base em 50 avaliações, é necessária uma variação de ±14,0% (p < 0,05)
- Mudança em 7 dias (em relação à semana passada): -4,8%, não estatisticamente significativa
- Com base em 250 avaliações, é necessária uma variação de ±5,6% (p < 0,05)
- Mudança em 30 dias (em relação ao mês passado): -4,1%, estatisticamente significativa
- Com base em 655 avaliações, é necessária uma variação de ±3,4% (p < 0,05)
Metodologia
- Cada teste é modelado como uma variável aleatória de Bernoulli, e intervalos de confiança de 95% são calculados
- As diferenças estatísticas nas taxas de aprovação diárias, semanais e mensais são analisadas para reportar se há degradação de desempenho significativa
- A avaliação é realizada com 50 instâncias de teste por dia, então existe volatilidade de curto prazo
- Os resultados agregados semanais e mensais fornecem estimativas mais estáveis
- É possível detectar tanto degradação de desempenho causada por mudanças no modelo quanto por mudanças no harness de execução
Função de alerta
- Se a degradação de desempenho for detectada estatisticamente, um alerta por e-mail é enviado
- Os usuários podem se inscrever registrando um endereço de e-mail
- Após a confirmação da inscrição, é possível receber alertas; em caso de erro, há orientação para tentar novamente
2 comentários
Não é que o Claude Code tenha ficado mais burro… talvez seja porque quem usa tenha aprendido a aproveitar melhor o Claude…
Comentários do Hacker News
Sou Thariq, da equipe do Claude Code
Corrigimos o problema no harness que ocorreu em 26 de janeiro. Também fizemos o rollback em 28 de janeiro, então recomendamos atualizar para a versão mais recente com o comando
claude updateSou coautor do SWE-bench
Pelo que parece, o teste atual roda apenas uma vez por dia e só em 50 tarefas. Para aumentar a precisão, seria melhor testar 300 tarefas de 5 a 10 vezes por dia e tirar a média. Fatores aleatórios como carga do servidor podem afetar muito o resultado
Um resumo de por que não acredito que a Anthropic esteja entregando um modelo pior aos usuários
A metodologia estatística é estranha
Eles consideram apenas o intervalo de confiança do valor anterior e verificam se o novo valor está fora dele, mas isso não é a forma correta de testar a significância estatística da diferença. Como ambas as medições têm incerteza, é preciso calcular o intervalo de confiança da própria diferença. Além disso, se a comparação é mensal, então seria necessário comparar dados de 60 a 31 dias atrás com os dados de 30 dias atrás até ontem, então o gráfico deveria mostrar pelo menos dois meses
Cerca de uma semana atrás, o Claude ficou fora do ar por aproximadamente uma hora. Logo depois da recuperação, talvez porque o número de usuários tivesse caído, a velocidade ficou mais de 3 vezes maior. Naquela uma hora consegui fazer o que normalmente levaria meio dia. Foi como ter um vislumbre de um futuro sem restrições de recursos
Se medirem a frequência de palavrões nos prompts dos usuários, talvez dê para detectar o aumento da hostilidade quando o desempenho do modelo piora
Há a possibilidade de irem quantizando o modelo gradualmente com o tempo. Isso facilitaria escalabilidade e redução de custos, além de fazer novas versões parecerem “melhores”
No modo API, quando o Claude passa de certa quantidade de tokens, ele de repente fica mais burro e começa a fazer coisas sem sentido, como dizer “há um bug na linha 23” e então apagar a funcionalidade inteira. Falha até em correções simples que até o ChatGPT 3.5 conseguiria fazer. Não entendo por que isso acontece
Na última semana, a qualidade do código do Claude piorou de forma perceptível. Por exemplo, ele sugeriu usar
frozenem um Enum, ou recomendouurlparsede novo em uma função que já usavaurlparse. Antes ele não cometia esse tipo de erro básicoMinha grande reclamação com provedores de LLM é a falta de consistência na capacidade de raciocínio. Com o ChatGPT acontece o mesmo: acima de 45k tokens de entrada, a inteligência despenca ou a entrada é truncada. Seria melhor simplesmente receber uma mensagem de “recusa” do que sofrer um downgrade oculto, porque isso destrói a confiança. Transparência é realmente importante