- O Composer, lançado pela Cursor, é um modelo de agente inteligente de alta velocidade para engenharia de software, alcançando geração de código 4 vezes mais rápida do que modelos semelhantes
- Ele é treinado para resolver problemas reais em grandes codebases e usa ferramentas de busca e edição para executar tarefas de diferentes níveis de dificuldade
- Combinando a arquitetura Mixture-of-Experts (MoE) com aprendizado por reforço (RL), ele oferece suporte a compreensão e geração de contexto de longo prazo em edição de código, planejamento e respostas
- A avaliação Cursor Bench mede não só a precisão do modelo, mas também a consistência com a codebase e a aderência a práticas de engenharia
- Utiliza infraestrutura assíncrona de RL baseada em PyTorch e Ray e treinamento de baixa precisão MXFP8 para treinar com eficiência em milhares de GPUs e melhorar a velocidade de inferência
Visão geral do Composer
- O Composer é um novo modelo de agente desenvolvido com foco em inteligência e velocidade para engenharia de software
- Em benchmarks, registrou velocidade de geração de código 4 vezes maior que a de modelos semelhantes
- Foi otimizado dentro do Cursor como um agente para resolver problemas em grandes codebases
- O modelo é treinado para resolver problemas de diferentes níveis de dificuldade em ambientes reais usando ferramentas de busca e edição
- Isso proporciona uma experiência de desenvolvimento interativa e de alta velocidade
Contexto de desenvolvimento
- O Composer nasceu da experiência da Cursor no desenvolvimento do seu modelo personalizado de autocomplete de código (Cursor Tab)
- A empresa confirmou que os desenvolvedores preferem modelos inteligentes e com resposta rápida
- Com base no modelo experimental inicial Cheetah, o Composer foi projetado como uma versão mais rápida e mais inteligente
- O objetivo era construir um modelo que forneça respostas imediatas sem interromper o fluxo de desenvolvimento
Arquitetura do modelo e método de treinamento
- O Composer é um modelo de linguagem Mixture-of-Experts (MoE) que oferece suporte a compreensão e geração de contexto de longo prazo
- Ele foi especializado para diversos ambientes de desenvolvimento por meio de aprendizado por reforço (RL)
- Em cada etapa de treinamento, recebe a descrição do problema e gera as melhores modificações de código, planos e respostas
- O modelo usa ferramentas como leitura e edição de arquivos, execução de comandos no terminal e busca semântica em toda a codebase
- Durante o processo de RL, o modelo aprende por conta própria comportamentos úteis, como realizar buscas complexas, corrigir erros de linter e escrever e executar testes unitários
Avaliação e benchmark
- O Cursor Bench é um conjunto interno de avaliação com solicitações reais de engenharia e respostas ideais
- Ele mede a precisão do modelo, a aderência às abstrações da codebase e a conformidade com práticas de engenharia de software
- O Composer é classificado como um modelo “Fast Frontier”, sendo comparado com modelos voltados para inferência eficiente, como Haiku 4.5 e Gemini Flash 2.5
- É mais lento que os modelos Frontier de topo, como GPT-5 e Sonnet 4.5, mas oferece alta eficiência em relação à velocidade
Infraestrutura e design de sistema
- Para treinar modelos MoE em larga escala, foi construída uma infraestrutura assíncrona de RL baseada em PyTorch e Ray
- Ela combina kernels MoE MXFP8, paralelismo de especialistas e paralelismo de dados com sharding híbrido
- O treinamento é escalado em milhares de GPUs NVIDIA, minimizando os custos de comunicação
- O treinamento de baixa precisão MXFP8 melhora a velocidade de inferência e elimina a necessidade de quantização pós-processamento
- Durante o RL, o modelo pode chamar todas as ferramentas do Cursor Agent
- Há suporte para edição de código, busca semântica,
grep de strings e execução de comandos no terminal
- Para isso, centenas de milhares de ambientes sandbox em nuvem são executados em paralelo
- A infraestrutura existente de Background Agents foi expandida para lidar com cargas de treinamento em rajadas
Uso interno e lançamento
- A equipe da Cursor usa o Composer ativamente em seu próprio trabalho de desenvolvimento
- Muitos engenheiros usam o Composer no desenvolvimento de software do dia a dia
- Com este lançamento, a empresa espera que outros desenvolvedores também possam aproveitá-lo de forma útil
Apêndice: classificação interna de benchmark
- Fast Frontier: modelos de inferência eficiente (Haiku 4.5, Gemini Flash 2.5 etc.)
- Best Open: modelos com pesos abertos (Qwen Coder, GLM 4.6 etc.)
- Frontier 7/2025: os melhores modelos em julho de 2025
- Best Frontier: modelos com desempenho superior ao Composer, como GPT-5 e Sonnet 4.5
- O cálculo de Tokens per Second é padronizado com base no tokenizador mais recente da Anthropic
1 comentários
Opiniões do Hacker News
Acho que falta transparência demais
O desempenho do modelo foi divulgado só com benchmarks próprios, e até esses dados são privados, então é difícil confiar
Falam de treinamento com RL, mas não há nenhuma informação essencial sobre pré-treinamento (pre-training) ou se houve fine-tuning
Até divulgarem mais detalhes ou permitirem benchmarks independentes por terceiros, continuo cético em relação a todas as alegações
Se divulgarem, esses dados podem entrar no conjunto de treino de outros LLMs e perder a validade científica
Mas, se forem privados, também existe a possibilidade de terem escolhido só dados favoráveis a eles
No fim, é um dilema difícil de resolver
O Cursor coleta milhares de dados de accept/reject em tempo real, então esse é o melhor loop de feedback possível
A reação de usuários reais é muito mais útil do que benchmark, e isso permite melhorar o modelo rapidamente
Recentemente também adicionaram o recurso de integração multi-agent + git tree, então a estrutura aproveita o comportamento do usuário como sinal de aprendizado
Acho que esse tipo de competição melhora a qualidade do mercado como um todo e cria um ciclo virtuoso de redução de custos
Ainda acho que o modelo Tab do Cursor é o melhor
Isso está bem explicado no post oficial do blog
Seria muito interessante se essa abordagem também pudesse ser aplicada a modelos agentic de coding
A motivação deste projeto já nasceu da ideia de criar um agente como o Tab
Eu deixo o Claude Code rodando quase o tempo todo, e o Tab só entra quando o modelo trava completamente
É impressionante como essas situações de falha estão ficando cada vez mais raras
Queria que fosse algo como
shift+tabToda vez que estou escrevendo código manualmente, parece que estou competindo com a IA pela indentação, o que é incômodo
Sou pesquisador de ML no Cursor e participei deste projeto
Feedback sobre o modelo ou sobre o post do blog é bem-vindo
Mas, se o Composer for um modelo aberto com fine-tuning via RL, fico curioso por que os pesos continuam fechados
Uma pequena vantagem de desempenho desaparece rápido, então uma estratégia aberta talvez fosse melhor para conquistar a confiança dos desenvolvedores
Pessoalmente, tenho pouco interesse em modelos fechados
No passado eu tentei usar o Cursor e acabei desistindo, mas este Composer1 foi muito mais rápido e preciso que o GPT5 Codex
Como velocidade e qualidade estão boas, pretendo testar de novo
Teria sido mais justo mostrar uma versão com nomes individuais, sem agrupar os modelos
Faço a etapa de planejamento com Claude, mas na execução o Composer foi muito mais eficiente
Algo no nível do Sonnet 4.5 é a linha mínima de qualidade que eu consigo aceitar
Mais importante que velocidade é não precisar ficar brigando para obter a saída que eu quero
Posso ter entendido errado, mas fiquei em dúvida se todos os modelos comparados neste texto são modelos internos do Cursor
Um quer que o modelo lide sozinho com tarefas longas,
o outro quer interagir e colaborar com o modelo
No segundo caso, velocidade importa muito mais; no primeiro, inteligência importa mais
Para mim, a falta de compreensão de contexto é um problema maior, então depende da situação
Quando uso modelos que não são Claude, gasto mais tokens e tenho menos eficiência
O Claude 4.5 Sonnet resolve a mesma tarefa pela metade do custo
Eu prefiro feedback rápido a precisão
É bom ver um modelo novo, mas é difícil confiar quando o gráfico não tem números nem nomes de modelos
Eles dizem que é difícil divulgar os detalhes do treinamento, mas que obtiveram o resultado de que RL escala bem
Muita gente é crítica em relação ao Cursor, mas eu usei Copilot, Claude Code, Codex, Gemini CLI, Cline e vários outros, e o Cursor foi o produto mais polido de todos
Velocidade e estabilidade se destacam, e ele realmente parece um produto de verdade
Muitas vezes as solicitações ficavam travadas por mais de 30 segundos, enquanto o Claude Code era muito mais rápido e estável
Testei o modelo novo de novo hoje; o Composer1 é rápido, mas ainda tive erros de conexão
Para implementar rápido o que eu quero, o Cursor é o melhor
O autocompletar também é bem útil durante refatorações
Entre os concorrentes, o Cursor é o único que trata seriamente o tempo até a resposta completa
Nisso, o Cursor ficou completamente à frente
Testei o novo sistema e, na verdade, senti que o desempenho piorou
Nem um app básico funcionou direito, e ele também falhou ao lidar com CSS e com o contexto do terminal
A velocidade foi caindo cada vez mais, e no fim voltei para o Sonnet
Espero que ainda não seja a versão estabilizada
Eu realmente gosto do Cursor
Já usei várias ferramentas como Copilot e Claude, mas no fim sempre volto para o Cursor
Principalmente o autocompletar do Tab é muito preciso em tarefas de refatoração
Era lento e a qualidade das sugestões era baixa
O Cursor é muito mais rápido e as sugestões são úteis
Só acho ruim que, por ser rápido demais, às vezes ele continua mostrando sugestões desnecessárias
Ainda assim, isso dá para resolver com o recurso de snooze (pausa temporária)
Há uma imagem de um pelicano andando de bicicleta no Composer 1
Link da imagem