No benchmark diário do SWE-Bench-Pro (conjunto curado), olhando o Claude Code aparece algo interessante
No intervalo de 10/4 a 20/4, o runtime caiu pela metade (653s→345s), as chamadas de ferramenta caíram pela metade (3,3 mil→1,8 mil), os tokens diminuíram 18%, mas a pass rate ainda subiu +16 pp. Não é um padrão comum ver essas quatro métricas se movendo ao mesmo tempo na direção positiva
Os 3 incidentes que aconteceram nesse processo são o postmortem de 23/4, e quando você olha, todos aconteceram ao "tentar reduzir tokens/latência"
Por outro lado, o codex (gpt-5.4-xhigh) quase não mudou os números no mesmo período. A pass rate ficou fixa perto de 56%, e tokens/runtime/chamadas de ferramenta continuaram no dobro do nível do Claude Code
Mesmo que ninguém use, estou otimizando a performance da minha biblioteca npm de estimação, que sigo desenvolvendo sozinho com dedicação.
As hipóteses em que pensei acabaram quase todas se mostrando inviáveis depois de rodar benchmarks, então acho que vou usar isso para tentar extrair mais algumas opções de otimização de performance.
Como é que as três causas da falha estão todas diretamente relacionadas à redução de custos kkkkk
Parece mesmo que eles estão com uma falta bem séria de recursos de GPU a ponto de degradar o desempenho assim.....
Assim que aplicaram o patch, a cota de 5 horas, que antes levava 3–4 horas de uso para acabar, começou a se esgotar em apenas 30 minutos. Mas as contas dos funcionários não tinham cota de 5 horas, ou pelo menos não era algo tão limitado a ponto de precisarem trabalhar olhando o /usage toda hora, então provavelmente demoraram bastante para perceber.
Se eu disser não, então todo mundo é Ilbe? Eu sou da região de Gyeongsang, sabia?
Se usar por 2 horas, vai ficar daltônico.
Algo como um advogado do diabo seria prático deixar configurado com um recurso como o Gems do Gemini.
No benchmark diário do SWE-Bench-Pro (conjunto curado), olhando o Claude Code aparece algo interessante
No intervalo de 10/4 a 20/4, o runtime caiu pela metade (653s→345s), as chamadas de ferramenta caíram pela metade (3,3 mil→1,8 mil), os tokens diminuíram 18%, mas a pass rate ainda subiu +16 pp. Não é um padrão comum ver essas quatro métricas se movendo ao mesmo tempo na direção positiva
Os 3 incidentes que aconteceram nesse processo são o postmortem de 23/4, e quando você olha, todos aconteceram ao "tentar reduzir tokens/latência"
Por outro lado, o codex (gpt-5.4-xhigh) quase não mudou os números no mesmo período. A pass rate ficou fixa perto de 56%, e tokens/runtime/chamadas de ferramenta continuaram no dobro do nível do Claude Code
Mesmo que ninguém use, estou otimizando a performance da minha biblioteca npm de estimação, que sigo desenvolvendo sozinho com dedicação.
As hipóteses em que pensei acabaram quase todas se mostrando inviáveis depois de rodar benchmarks, então acho que vou usar isso para tentar extrair mais algumas opções de otimização de performance.
Em vez de “deve”, talvez seja mais algo como “seria bom”~
No site claude.ai também dá a sensação de que a usabilidade piorou aos poucos... até desliguei a memória para economizar tokens.
Depois de ver esse comunicado, fiquei com a sensação de confiar ainda menos na Anthropic.
Há 2 posts relacionados acima, e os dois têm 7 meses de diferença entre si. Nos dois casos, os problemas são os mesmos 3.
Análise pós-incidente de três problemas recentes de degradação de qualidade do Claude 2025-09-19
Atualização sobre relatos recentes de qualidade do Claude Code 2026-04-24
Será que isso não é mais um post-mortem de redução de custos do que um post-mortem de incidente?
Essa é a resposta certa, mas a desculpa é longa demais kkk
Estou irritado só no nível de US$ 5 em créditos!!
O opus4.6...
Bem típico de "armchair coding".
Como é que as três causas da falha estão todas diretamente relacionadas à redução de custos kkkkk
Parece mesmo que eles estão com uma falta bem séria de recursos de GPU a ponto de degradar o desempenho assim.....
Ao obrigar os funcionários internos a usarem a build pública real, reduz-se a discrepância em relação à build de testes interna.
kkkk
Já faz tempo que perdeu o posto de SOTA..
Ferramenta usada no vídeo: https://www.conductor.build/
Assim que aplicaram o patch, a cota de 5 horas, que antes levava 3–4 horas de uso para acabar, começou a se esgotar em apenas 30 minutos. Mas as contas dos funcionários não tinham cota de 5 horas, ou pelo menos não era algo tão limitado a ponto de precisarem trabalhar olhando o
/usagetoda hora, então provavelmente demoraram bastante para perceber.Como fala...
Estou ansioso... tomara que retome a posição de SOTA e volte a haver uma dinâmica competitiva..