A Cursor revelou o Composer 2, um modelo de IA especializado em programação com desempenho de nível frontier e preço acessível.
Desempenho
Ele registrou uma grande melhora em relação à versão anterior em todos os principais benchmarks.
O modelo foi avaliado com três testes.
CursorBench — benchmark de tarefas reais de programação criado pela própria Cursor. Na evolução de Composer 1 → 1.5 → 2, a pontuação subiu de 38.0 → 44.2 → 61.3. De 1 para 2, o desempenho melhorou cerca de 61% e, em especial, no trecho 1.5 → 2 houve um salto de cerca de 17 pontos, representando o maior avanço desta geração.
Terminal-Bench 2.0 — avaliação de agentes baseados em terminal mantida pelo Laude Institute. Mede a capacidade de concluir tarefas executando comandos reais no terminal. Foi de 40.0 → 47.9 → 61.7, mostrando um padrão de crescimento quase idêntico ao do CursorBench.
SWE-bench Multilingual — versão multilíngue do conhecido benchmark de engenharia de software em que issues reais do GitHub são resolvidas com código. Subiu de 56.9 → 65.9 → 73.7. Desde o Composer 1, ele já começava na faixa dos 56 pontos, acima dos outros dois benchmarks, o que indica que a capacidade de escrever patches de código já era relativamente forte desde cedo.
Pontos principais
Nos três benchmarks, o salto de 1.5 → 2 foi muito maior do que o de 1 → 1.5, e esse é o ponto central deste anúncio. Foi justamente nessa faixa que a combinação de pré-treinamento contínuo + aprendizado por reforço mostrou efeito. A marca de 73.7 no SWE-bench Multilingual coloca o modelo entre os melhores entre os modelos públicos atuais.
Versão padrão: entrada $0.50 / saída $2.50 (por milhão de tokens)
Versão rápida (fast): entrada $1.50 / saída $7.50 (por milhão de tokens)
A versão rápida deve ser oferecida como opção padrão, e seu ponto forte é o preço mais baixo em comparação com modelos rápidos da mesma categoria. Para usuários do plano individual, haverá uma cota básica generosa incluída em um pool de uso separado.
Comentário
É impressionante ver a Cursor migrando de uma camada que usava modelos externos como Claude e GPT para uma direção em que passa a treinar diretamente seus próprios modelos. Em especial, o posicionamento de custo-benefício é agressivo, o que sugere uma estratégia de integração vertical até a camada de modelo no mercado de agentes de programação. Para quem vinha usando Claude Sonnet ou GPT-4o no Cursor, o Composer 2 parece valer um teste.
5 comentários
Dizem que era um modelo baseado no Kimi k2, ajustado com aprendizado por reforço
Na posição de custo-benefício, usando tanto Kiro quanto Cursor,
acho que o Cursor é melhor para uso mais avançado.
Também é mais rápido
Para um resumo relacionado, consulte Foi confirmado que o Cursor Composer 2 é um modelo que aplica RL ao Kimi K2.5.
Relacionado:
Ajustei o título de acordo com este conteúdo.