Resultados da avaliação de modelos CursorBench 3.1

(cursor.com)

1 pontos por GN⁺ 4 시간 전 | 1 comentários | Compartilhar no WhatsApp

Na tabela de avaliação de modelos de codificação do Cursor, o Fable 5 Max ficou em 1º lugar com 72,9%, tornando-se a referência da disputa no topo
A família Fable 5 ocupou todas as posições de 1º a 4º com Max, Extra High, High e Medium, mostrando uma diferença clara em relação a outros grupos de modelos
A partir do 5º lugar, aparecem Opus 4.7 Max com 64,8%, GPT-5.5 Extra High com 64,3%, Fable 5 Low com 64,2%, Opus 4.8 Max com 63,8% e Composer 2.5 com 63,2%
O CursorBench 3.1 adiciona tarefas centradas em compreensão de codebase, busca de bugs, planejamento e code review, além de melhorar os critérios de pontuação de algumas tarefas de edição
O custo médio por tarefa é calculado com os preços públicos de tokens e os tokens usados por tarefa, e pequenas diferenças de pontuação podem não ser estatisticamente significativas

O topo é dominado pelo Fable 5

A tabela do CursorBench 3.1 compara, por modelo, ranking, pontuação, custo médio por tarefa e métricas relacionadas ao uso
Do 1º ao 4º lugar, todos são da família Fable 5
- Fable 5 Max: 72,9%, $18.02, 63.842, 76
- Fable 5 Extra High: 72,0%, $13.74, 48.754, 63
- Fable 5 High: 70,6%, $10.81, 37.173, 54
- Fable 5 Medium: 69,8%, $8.27, 28.507, 47
Na faixa do 5º ao 10º lugar, há uma mistura de modelos Opus, GPT-5.5, Fable e Composer
- Opus 4.7 Max: 64,8%, $11.02, 62.989, 96
- GPT-5.5 Extra High: 64,3%, $4.37, 17.905, 46
- Fable 5 Low: 64,2%, $5.70, 18.882, 36
- Opus 4.8 Max: 63,8%, $7.59, 77.370, 60
- Composer 2.5: 63,2%, $0.55, 15.152, 37
- GPT-5.5 High: 62,6%, $3.59, 13.329, 40

Pontuação dos modelos intermediários e inferiores

Do 11º ao 20º lugar, predominam modelos Opus, Sonnet e GPT-5.5
- Opus 4.8 Extra High: 62,1%, $6.14, 55.622, 54
- Opus 4.7 Extra High: 61,6%, $7.11, 43.942, 72
- Sonnet 5 Max: 61,2%, $6.87, 93.485, 93
- Opus 4.7 High: 59,4%, $5.01, 32.227, 59
- GPT-5.5 Medium: 59,2%, $2.22, 9.065, 35
- Opus 4.8 High: 58,4%, $4.41, 36.788, 45
- Sonnet 5 Extra High: 58,4%, $5.23, 58.228, 86
- Sonnet 5 High: 57,0%, $3.74, 41.735, 66
- Opus 4.8 Medium: 56,6%, $3.83, 31.684, 41
- Sonnet 5 Medium: 54,9%, $2.57, 27.469, 53
Do 21º ao 36º lugar, aparecem GLM, Kimi, Gemini, Sonnet, Composer e outros
- GLM 5.2 Max: 54,6%, $3.11, 51.312, 83
- Opus 4.8 Low: 54,3%, $2.93, 22.726, 36
- Opus 4.7 Medium: 52,7%, $2.93, 19.193, 41
- Kimi K2.7 Code: 52,7%, $1.92, 32.902, 70
- Composer 2: 52,2%, $0.56, 14.163, 40
- GLM 5.2 High: 50,7%, $2.46, 30.621, 76
- Gemini 3.5 Flash: 49,8%, $1.94, 35.105, 79
- Sonnet 4.6 Max: 49,0%, $3.09, 40.280, 55
- GPT-5.5 Low: 48,8%, $1.19, 4.923, 24
- Sonnet 4.6 High: 48,8%, $3.06, 37.352, 57
- Opus 4.7 Low: 48,3%, $1.87, 13.164, 29
- Sonnet 5 Low: 47,7%, $1.46, 17.028, 37
- Kimi 2.6: 47,6%, $1.27, 24.783, 56
- Sonnet 4.6 Medium: 46,0%, $2.64, 31.360, 50
- Sonnet 4.6 Low: 41,5%, $1.89, 21.211, 50
- Kimi 2.5: 31,9%, $0.87, 9.446, 30

Escopo de avaliação do CursorBench 3.1

O CursorBench 3.1 introduz problemas focados em compreensão de codebase, busca de bugs, planejamento e code review
Os critérios de pontuação de algumas tarefas de edição também foram melhorados
O CursorBench 3.0 era um conjunto inicial de tarefas focado em problemas de edição, refatoração e correção de bugs

Cálculo de custos e limitações de interpretação

O custo médio por tarefa é calculado usando o preço por milhão de tokens público de cada modelo
Inclui preços de entrada, leitura de cache, escrita de cache e saída
Depois de aplicar os preços aos tokens usados por cada modelo nas tarefas do CursorBench 3.1, calcula-se a média de todas as tarefas
Os resultados ainda têm variabilidade, e pequenas diferenças de pontuação podem não ser estatisticamente significativas

1 comentários

GN⁺ 4 시간 전

Opiniões no Hacker News

Estou um pouco cético
No benchmark da Cursor, o modelo da Cursor, Composer 2.5, aparece tão bom quanto o Opus 4.8 max e o GPT-5.5 xhigh, mas com um preço muito menor
Mas nos testes da Artificial Analysis, o Composer 2.5 fica bem atrás: https://artificialanalysis.ai/agents/coding-agents
No benchmark DeepSWE, o GPT-5.5 xhigh marca 64, o Opus 4.8 max marca 56, e o Cursor 2.5 marca 16
Não duvido que a Cursor possa funcionar bem para algumas pessoas, mas a afirmação de que ela é concorrente do Opus 4.8 ou do GPT-5.5 é suspeita. Parece conveniente demais que ela vá bem no próprio benchmark e fique muito atrás em benchmarks de terceiros
- Trabalho na Cursor. Na época do lançamento do Composer 2.5, ele aparecia bem competitivo no benchmark agregado da AA e, se me lembro bem, estava em 3º lugar geral
  Recentemente, a AA mudou para usar o DeepSWE, e esse benchmark se concentra mais em tarefas de escopo muito longo. O Composer ainda não é forte nesse tipo de tarefa, então estamos trabalhando para melhorar isso no próximo modelo
  No geral, o Composer vai bem em alguns benchmarks e não tão bem em outros. Ainda assim, acho que ele é um modelo muito competente na faixa de preço atual. Se você vir algum comportamento específico ou ponto fraco, pode avisar aqui ou mandar e-mail para lrobinson at cursor.com
- Não é difícil entender o que está acontecendo. Como fizeram aprendizado por reforço com base nos padrões e em certas capacidades dos próprios dados, naturalmente acabam criando um benchmark que se alinha ao conjunto de treinamento
  Ironicamente, no escopo estreito que os “clientes próprios” da Cursor realmente se importam, esse benchmark pode ser mais preciso que o da Artificial Analysis. Fora isso, é só mais um ponto de dados
- O DeepSWE é um pouco problemático por usar apenas o próprio harness de execução, o que causa problemas em modelos que esse harness não dá suporte corretamente
  Há muitas evidências de que o harness influencia bastante como esses modelos se comportam, e o DeepSWE remove completamente esse fator. Provavelmente só verificaram se ele funcionava bem em alguns modelos que eles preferem
  Como também foi relatado em issues do GitHub, o harness não usa cache, então há problemas também no cálculo de custos. Não existe benchmark perfeito, mas isso explica bastante a variação entre benchmarks
- As sessões do Cursor são quase exatamente o alvo em cima do qual o modelo Composer recebe aprendizado por reforço. Esse bench e os dados de treinamento, na prática, devem vir da mesma distribuição
- Não sei quanto aos benchmarks, mas usei bastante o Composer 2.5 e, no trabalho real, ele funcionou muito bem
A escolha desses eixos é bem desconcertante. Achei que a esquerda fosse o lado mais barato, mas é justamente o mais caro
Entendo a disposição para fazer o canto superior direito ser o melhor, mas o eixo de custo invertido continua nada intuitivo
Deixando isso de lado, faço todos os dias, o dia inteiro, implementações muito difíceis, no limite do que um agente consegue fazer, e para trabalhos que precisam de “verificação real” tive de manter o Opus no max por um tempo. Parecia praticamente a única forma de fazer o Opus chegar pelo menos perto do GPT-5.5 xhigh
Usando o GPT-5.5 por assinatura, a janela de contexto é pequena; embora seja 400k, na prática fica em torno de 258k, então estou usando o Opus
A diferença é que o GPT-5.5 xhigh é muito rápido na maioria dos casos reais. A implementação como um todo também é eficiente, e ele responde rapidamente de forma adaptativa a perguntas que não exigem raciocínio profundo
Já o Opus 4.8 Max fica mastigando tudo por tempo desnecessariamente longo, e até implementações simples podem levar horas, então acabo usando mais para planejamento e revisão
O Fable é muito melhor em raciocínio adaptativo e respostas rápidas, mas provavelmente ainda é inferior ao GPT-5.5 xhigh. Acho que todo mundo já falou bastante dos prós e contras e, infelizmente, nas minhas tarefas difíceis ele ainda não é um implementador confiável. Isso ainda é território do GPT, e o Fable tende a deixar buracos grandes e perigosos dentro da implementação se não for cuidado com atenção
- Há alguma coisa verificável nessa história de “faço todos os dias, o dia inteiro, implementações muito difíceis, no limite do que um agente consegue fazer”? Ou temos só de acreditar? Tudo soa ridiculamente subjetivo
- Se o Fable deixa buracos perigosos dentro da implementação, penso que talvez dê para integrar GLM ou DeepSeek como uma espécie de red team de código
  O Fable, por design, é cego para segurança[0], e os modelos abertos são bem bons nisso
  [0] Não está claro como será o GPT-5.6, mas pelo blog parece que ele terá filtros de segurança igualmente cautelosos em excesso
  O engraçado é que os posts recentes de lançamento do Opus se gabam de terem reduzido deliberadamente as capacidades de segurança. “during its [Opus 4.7] training we experimented with efforts to differentially reduce these ["cyber"] capabilities”
- É estilo Gartner. O canto superior direito é onde se quer estar
- Concordo sobre por que inverteram o eixo x. Esse gráfico fica muito difícil de entender para um observador comum
- Fico curioso se você sente que “a janela de contexto é pequena ao usar o GPT-5.5 por assinatura” faz diferença no trabalho real
  Eu o uso com 5.5 high/xhigh para otimizar e fazer benchmark de uma base de código em C, e só a leitura do código inicial já quase enche a primeira janela de contexto
  A sessão faz compressão automática umas 5 a 15 vezes, mas como o trabalho fica concentrado principalmente na janela mais recente a cada vez, ele se sai razoavelmente bem
  Em programação, os pontos fortes do GPT parecem maiores que os do Opus, então acho que ele supera a diferença de janela de contexto
É difícil acreditar que o Composer 2.5 seja tão bom assim. Comparei com o GLM 5.2 e o Opus 4.6, e faltavam profundidade para pensar sobre o problema e raciocínio crítico
Ele é bom para executar planos criados por outros modelos, mas mesmo então às vezes faz manipulações estranhas no código que ficam muito distantes de como os arquivos ao redor realmente funcionam
- Hoje não uso mais o Cursor, mas quando usei há algum tempo tive uma experiência parecida. Planejava com o Opus, implementava com o Composer e fazia a limpeza com o Opus
  O Composer é competente quando há um bom plano, mas não chega a ser impressionante. Ainda assim, o que eu realmente gostei foi a velocidade
  Algo que o Opus levaria 30 minutos para fazer, o Composer terminava em 5 a 10 minutos. Claro que o resultado não era perfeito, então passava por uma etapa de refinamento com o Opus ou o Codex
  No fim, é uma questão de equilíbrio, está sempre mudando e depende totalmente do problema que você está tentando resolver. Eu me mantenho flexível e me adapto ao processo que funciona melhor naquele momento
- Vendo coisas assim, penso que é apenas uma fronteira irregular. Não duvido da experiência pessoal. No mês passado usei o Composer 2.5 com créditos do Grok e de uma conta X Premium
  Não estou construindo um foguete, mas foi bem impressionante. Todos os modelos às vezes fazem bobagem, mas ele executou bem as tarefas que pedi e também mostrou resultados impressionantes
  No Grok ele é rápido e, comparado a outros modelos que usei bastante, considero melhor que o gemini 3.1. Pelos meus critérios, o 3.5 e o antigravity foram piores que o gemini cli anterior. É parecido com o Opus 4.6. Ainda não usei os modelos mais recentes do Claude Code
Se entendi o gráfico corretamente, o Fable está usando menos tokens que sonet e opus para realizar a mesma tarefa. Se for isso, é uma coisa boa
Por um tempo parecia que os modelos estavam simplesmente cuspindo tokens sem parar para obter resultados melhores; se o próprio modelo está melhorando sem gerar mais tokens, isso parece um avanço de verdade
Pergunta 1: por que o número de etapas é importante nesse gráfico? O que ele nos informa?
Pergunta 2: por que inverteram o eixo horizontal para que o 0 fique à direita, e não na origem? É uma nova forma inteligente de fazer isso? Acho que nunca tinha visto antes
É interessante que o Opus 4.7 tenha se saído melhor que o 4.8. Teria sido bom se tivessem testado também o 4.6. Ontem vi aqui alguém sendo ridicularizado por insistir que o 4.6 era melhor que os modelos posteriores
Mas benchmarks são sempre traiçoeiros. No DeepSWE, o GPT-5.5 vence o Opus-4.8 por uma boa margem, mas no FrontierCode acontece o contrário
O único benchmark confiável é a sua carga de trabalho real
Sempre que surge um novo benchmark, os modelos chineses aparecem muito abaixo do nível esperado com base nos benchmarks existentes e, com o tempo, se recuperam
- É a magia da destilação
Seria bom se todos esses sites mostrassem um gráfico da fronteira de Pareto de custo/desempenho. O que importa geralmente são essas duas coisas. Daria até para incluir um parâmetro de velocidade e transformar em 3D
https://paraplouis.github.io/llm-pareto-frontier/ é o melhor gráfico que já vi, mas não é atualizado com a frequência que eu gostaria
- Esse site não é muito útil. Ele não reflete tokens de raciocínio, caching nem a eficiência disso
  O GLM5.2 é promovido na internet por todos os wumao que o PLA consegue mobilizar, mas seu processo de raciocínio é excessivamente prolixo e isso revela suas limitações
  Os modelos da Anthropic têm o mesmo problema, mas partem de uma base de inteligência real muito mais alta
  É exatamente por isso que comparações confiáveis agora são mostradas com base no custo total para concluir uma tarefa, não em custos arbitrários de tokens de entrada/saída
Usei bastante o Composer 2.5 e o GPT 5.5 tanto no Cursor quanto no Codex, e a afirmação de que o desempenho do Composer 2.5 chega perto do GPT 5.5 é completamente absurda
Ele é mais rápido, mas a qualidade não está nem de longe nesse nível
Além disso, o Composer só pode ser usado com a assinatura mensal do Cursor, então a comparação de custo nem faz sentido. Com uma assinatura da OpenAI de preço semelhante, dá para usar um modelo melhor na mesma medida
A parte mais interessante é o custo. GPT 5.5 e sonnet 5 custam o mesmo que o GLM 5.2, mas são modelos mais capazes
Um modelo do Cursor se saindo muito bem em um benchmark do Cursor, notícia de telejornal das 11
Dito isso, todos os outros modelos aparecem em posições bastante razoáveis, considerando minha experiência direta com eles
Fable custa 10 vezes mais, mas supera os outros modelos na maioria dos casos. Só que, às vezes, a escolha não é entre barato e caro, e sim entre caro, mas possível, e simplesmente impossível. Como com os outros modelos, é preciso aprender onde fica essa fronteira

Resultados da avaliação de modelos CursorBench 3.1

O topo é dominado pelo Fable 5

Pontuação dos modelos intermediários e inferiores

Escopo de avaliação do CursorBench 3.1

Cálculo de custos e limitações de interpretação

Leituras relacionadas

1 comentários

Opiniões no Hacker News