6 pontos por princox 2026-03-20 | 5 comentários | Compartilhar no WhatsApp

A Cursor revelou o Composer 2, um modelo de IA especializado em programação com desempenho de nível frontier e preço acessível.

Desempenho

Ele registrou uma grande melhora em relação à versão anterior em todos os principais benchmarks.

O modelo foi avaliado com três testes.

CursorBench — benchmark de tarefas reais de programação criado pela própria Cursor. Na evolução de Composer 1 → 1.5 → 2, a pontuação subiu de 38.0 → 44.2 → 61.3. De 1 para 2, o desempenho melhorou cerca de 61% e, em especial, no trecho 1.5 → 2 houve um salto de cerca de 17 pontos, representando o maior avanço desta geração.

Terminal-Bench 2.0 — avaliação de agentes baseados em terminal mantida pelo Laude Institute. Mede a capacidade de concluir tarefas executando comandos reais no terminal. Foi de 40.0 → 47.9 → 61.7, mostrando um padrão de crescimento quase idêntico ao do CursorBench.

SWE-bench Multilingual — versão multilíngue do conhecido benchmark de engenharia de software em que issues reais do GitHub são resolvidas com código. Subiu de 56.9 → 65.9 → 73.7. Desde o Composer 1, ele já começava na faixa dos 56 pontos, acima dos outros dois benchmarks, o que indica que a capacidade de escrever patches de código já era relativamente forte desde cedo.

Pontos principais

Nos três benchmarks, o salto de 1.5 → 2 foi muito maior do que o de 1 → 1.5, e esse é o ponto central deste anúncio. Foi justamente nessa faixa que a combinação de pré-treinamento contínuo + aprendizado por reforço mostrou efeito. A marca de 73.7 no SWE-bench Multilingual coloca o modelo entre os melhores entre os modelos públicos atuais.

Versão padrão: entrada $0.50 / saída $2.50 (por milhão de tokens)
Versão rápida (fast): entrada $1.50 / saída $7.50 (por milhão de tokens)

A versão rápida deve ser oferecida como opção padrão, e seu ponto forte é o preço mais baixo em comparação com modelos rápidos da mesma categoria. Para usuários do plano individual, haverá uma cota básica generosa incluída em um pool de uso separado.

Comentário

É impressionante ver a Cursor migrando de uma camada que usava modelos externos como Claude e GPT para uma direção em que passa a treinar diretamente seus próprios modelos. Em especial, o posicionamento de custo-benefício é agressivo, o que sugere uma estratégia de integração vertical até a camada de modelo no mercado de agentes de programação. Para quem vinha usando Claude Sonnet ou GPT-4o no Cursor, o Composer 2 parece valer um teste.

5 comentários

 
neolith 2026-03-20

Dizem que era um modelo baseado no Kimi k2, ajustado com aprendizado por reforço

 
newbie1004 2026-03-23

Na posição de custo-benefício, usando tanto Kiro quanto Cursor,

acho que o Cursor é melhor para uso mais avançado.

Também é mais rápido

 
xguru 2026-03-21

Ajustei o título de acordo com este conteúdo.