Composer: modelo frontier rápido construído com aprendizado por reforço

(cursor.com)

2 pontos por GN⁺ 2025-10-30 | 1 comentários | Compartilhar no WhatsApp

O Composer, lançado pela Cursor, é um modelo de agente inteligente de alta velocidade para engenharia de software, alcançando geração de código 4 vezes mais rápida do que modelos semelhantes
Ele é treinado para resolver problemas reais em grandes codebases e usa ferramentas de busca e edição para executar tarefas de diferentes níveis de dificuldade
Combinando a arquitetura Mixture-of-Experts (MoE) com aprendizado por reforço (RL), ele oferece suporte a compreensão e geração de contexto de longo prazo em edição de código, planejamento e respostas
A avaliação Cursor Bench mede não só a precisão do modelo, mas também a consistência com a codebase e a aderência a práticas de engenharia
Utiliza infraestrutura assíncrona de RL baseada em PyTorch e Ray e treinamento de baixa precisão MXFP8 para treinar com eficiência em milhares de GPUs e melhorar a velocidade de inferência

Visão geral do Composer

O Composer é um novo modelo de agente desenvolvido com foco em inteligência e velocidade para engenharia de software
- Em benchmarks, registrou velocidade de geração de código 4 vezes maior que a de modelos semelhantes
- Foi otimizado dentro do Cursor como um agente para resolver problemas em grandes codebases
O modelo é treinado para resolver problemas de diferentes níveis de dificuldade em ambientes reais usando ferramentas de busca e edição
- Isso proporciona uma experiência de desenvolvimento interativa e de alta velocidade

Contexto de desenvolvimento

O Composer nasceu da experiência da Cursor no desenvolvimento do seu modelo personalizado de autocomplete de código (Cursor Tab)
- A empresa confirmou que os desenvolvedores preferem modelos inteligentes e com resposta rápida
Com base no modelo experimental inicial Cheetah, o Composer foi projetado como uma versão mais rápida e mais inteligente
- O objetivo era construir um modelo que forneça respostas imediatas sem interromper o fluxo de desenvolvimento

Arquitetura do modelo e método de treinamento

O Composer é um modelo de linguagem Mixture-of-Experts (MoE) que oferece suporte a compreensão e geração de contexto de longo prazo
Ele foi especializado para diversos ambientes de desenvolvimento por meio de aprendizado por reforço (RL)
- Em cada etapa de treinamento, recebe a descrição do problema e gera as melhores modificações de código, planos e respostas
- O modelo usa ferramentas como leitura e edição de arquivos, execução de comandos no terminal e busca semântica em toda a codebase
Durante o processo de RL, o modelo aprende por conta própria comportamentos úteis, como realizar buscas complexas, corrigir erros de linter e escrever e executar testes unitários

Avaliação e benchmark

O Cursor Bench é um conjunto interno de avaliação com solicitações reais de engenharia e respostas ideais
- Ele mede a precisão do modelo, a aderência às abstrações da codebase e a conformidade com práticas de engenharia de software
O Composer é classificado como um modelo “Fast Frontier”, sendo comparado com modelos voltados para inferência eficiente, como Haiku 4.5 e Gemini Flash 2.5
- É mais lento que os modelos Frontier de topo, como GPT-5 e Sonnet 4.5, mas oferece alta eficiência em relação à velocidade

Infraestrutura e design de sistema

Para treinar modelos MoE em larga escala, foi construída uma infraestrutura assíncrona de RL baseada em PyTorch e Ray
- Ela combina kernels MoE MXFP8, paralelismo de especialistas e paralelismo de dados com sharding híbrido
- O treinamento é escalado em milhares de GPUs NVIDIA, minimizando os custos de comunicação
O treinamento de baixa precisão MXFP8 melhora a velocidade de inferência e elimina a necessidade de quantização pós-processamento
Durante o RL, o modelo pode chamar todas as ferramentas do Cursor Agent
- Há suporte para edição de código, busca semântica, grep de strings e execução de comandos no terminal
- Para isso, centenas de milhares de ambientes sandbox em nuvem são executados em paralelo
- A infraestrutura existente de Background Agents foi expandida para lidar com cargas de treinamento em rajadas

Uso interno e lançamento

A equipe da Cursor usa o Composer ativamente em seu próprio trabalho de desenvolvimento
- Muitos engenheiros usam o Composer no desenvolvimento de software do dia a dia
Com este lançamento, a empresa espera que outros desenvolvedores também possam aproveitá-lo de forma útil

Apêndice: classificação interna de benchmark

Fast Frontier: modelos de inferência eficiente (Haiku 4.5, Gemini Flash 2.5 etc.)
Best Open: modelos com pesos abertos (Qwen Coder, GLM 4.6 etc.)
Frontier 7/2025: os melhores modelos em julho de 2025
Best Frontier: modelos com desempenho superior ao Composer, como GPT-5 e Sonnet 4.5
O cálculo de Tokens per Second é padronizado com base no tokenizador mais recente da Anthropic

1 comentários

GN⁺ 2025-10-30

Opiniões do Hacker News

Acho que falta transparência demais
O desempenho do modelo foi divulgado só com benchmarks próprios, e até esses dados são privados, então é difícil confiar
Falam de treinamento com RL, mas não há nenhuma informação essencial sobre pré-treinamento (pre-training) ou se houve fine-tuning
Até divulgarem mais detalhes ou permitirem benchmarks independentes por terceiros, continuo cético em relação a todas as alegações
- Entendo por que eles não divulgam os benchmarks internos
  Se divulgarem, esses dados podem entrar no conjunto de treino de outros LLMs e perder a validade científica
  Mas, se forem privados, também existe a possibilidade de terem escolhido só dados favoráveis a eles
  No fim, é um dilema difícil de resolver
- Na verdade, acho que o mais importante são os dados de usuários reais
  O Cursor coleta milhares de dados de accept/reject em tempo real, então esse é o melhor loop de feedback possível
  A reação de usuários reais é muito mais útil do que benchmark, e isso permite melhorar o modelo rapidamente
  Recentemente também adicionaram o recurso de integração multi-agent + git tree, então a estrutura aproveita o comportamento do usuário como sinal de aprendizado
  Acho que esse tipo de competição melhora a qualidade do mercado como um todo e cria um ciclo virtuoso de redução de custos
Ainda acho que o modelo Tab do Cursor é o melhor
Isso está bem explicado no post oficial do blog
Seria muito interessante se essa abordagem também pudesse ser aplicada a modelos agentic de coding
- Nosso time também usa muito o Tab
  A motivação deste projeto já nasceu da ideia de criar um agente como o Tab
- Fico curioso se você já usou o Windsurfs
- O modelo Tab é bom, mas às vezes parece uma competição para fazer um chicote de carroça melhor
  Eu deixo o Claude Code rodando quase o tempo todo, e o Tab só entra quando o modelo trava completamente
  É impressionante como essas situações de falha estão ficando cada vez mais raras
- O modelo Tab é excelente, mas é uma pena que ele não entenda o contexto da sessão de chat de IA atual
- O recurso é bom, mas os atalhos deixam a desejar
  Queria que fosse algo como shift+tab
  Toda vez que estou escrevendo código manualmente, parece que estou competindo com a IA pela indentação, o que é incômodo
Sou pesquisador de ML no Cursor e participei deste projeto
Feedback sobre o modelo ou sobre o post do blog é bem-vindo
- A explicação do sistema foi impressionante
  Mas, se o Composer for um modelo aberto com fine-tuning via RL, fico curioso por que os pesos continuam fechados
  Uma pequena vantagem de desempenho desaparece rápido, então uma estratégia aberta talvez fosse melhor para conquistar a confiança dos desenvolvedores
  Pessoalmente, tenho pouco interesse em modelos fechados
- Fiquei realmente surpreso
  No passado eu tentei usar o Cursor e acabei desistindo, mas este Composer1 foi muito mais rápido e preciso que o GPT5 Codex
  Como velocidade e qualidade estão boas, pretendo testar de novo
- O primeiro gráfico do blog ficou vago demais
  Teria sido mais justo mostrar uma versão com nomes individuais, sem agrupar os modelos
- Hoje usei Composer, Sonnet 4.5 e Gemini 2.5 Pro juntos, e a combinação de velocidade e qualidade do Composer foi a mais satisfatória
  Faço a etapa de planejamento com Claude, mas na execução o Composer foi muito mais eficiente
- Pelo gráfico log, parece que seriam necessários cerca de 50% a mais de computação para chegar a um modelo de fronteira, então fiquei curioso por que o treinamento parou ali
Algo no nível do Sonnet 4.5 é a linha mínima de qualidade que eu consigo aceitar
Mais importante que velocidade é não precisar ficar brigando para obter a saída que eu quero
Posso ter entendido errado, mas fiquei em dúvida se todos os modelos comparados neste texto são modelos internos do Cursor
- O Sonnet 4.5 foi lançado há só um mês, então é engraçado já tratá-lo como “linha mínima”
- Acho que existem dois tipos de usuário
  Um quer que o modelo lide sozinho com tarefas longas,
  o outro quer interagir e colaborar com o modelo
  No segundo caso, velocidade importa muito mais; no primeiro, inteligência importa mais
  Para mim, a falta de compreensão de contexto é um problema maior, então depende da situação
- O Sonnet 4.5 é excelente, mas fiquei curioso se você já testou o Composer
- Comigo é parecido
  Quando uso modelos que não são Claude, gasto mais tokens e tenho menos eficiência
  O Claude 4.5 Sonnet resolve a mesma tarefa pela metade do custo
- Mencionei a comparação porque isso mostra o quanto o Cursor leva a sério a experiência de usuário centrada em velocidade
  Eu prefiro feedback rápido a precisão
É bom ver um modelo novo, mas é difícil confiar quando o gráfico não tem números nem nomes de modelos
- Há uma explicação sobre os modelos nas notas de rodapé
  Eles dizem que é difícil divulgar os detalhes do treinamento, mas que obtiveram o resultado de que RL escala bem
Muita gente é crítica em relação ao Cursor, mas eu usei Copilot, Claude Code, Codex, Gemini CLI, Cline e vários outros, e o Cursor foi o produto mais polido de todos
Velocidade e estabilidade se destacam, e ele realmente parece um produto de verdade
- Eu também usei o Cursor, mas desisti por problemas de confiabilidade
  Muitas vezes as solicitações ficavam travadas por mais de 30 segundos, enquanto o Claude Code era muito mais rápido e estável
  Testei o modelo novo de novo hoje; o Composer1 é rápido, mas ainda tive erros de conexão
- Também testei várias ferramentas, mas no fim sempre volto para o Cursor
  Para implementar rápido o que eu quero, o Cursor é o melhor
- O Cursor às vezes trava, mas é fácil desfazer pela UI, então não chega a incomodar
  O autocompletar também é bem útil durante refatorações
- Você disse que testou várias alternativas, mas por acaso não testou o Zed?
- É interessante alguém testar o Claude e ainda assim preferir o Cursor
Entre os concorrentes, o Cursor é o único que trata seriamente o tempo até a resposta completa
Nisso, o Cursor ficou completamente à frente
- Nós também gostamos de vários modelos, mas achamos importante encontrar um ponto de equilíbrio entre rapidez e inteligência (pesquisador do Cursor)
Testei o novo sistema e, na verdade, senti que o desempenho piorou
Nem um app básico funcionou direito, e ele também falhou ao lidar com CSS e com o contexto do terminal
A velocidade foi caindo cada vez mais, e no fim voltei para o Sonnet
Espero que ainda não seja a versão estabilizada
Eu realmente gosto do Cursor
Já usei várias ferramentas como Copilot e Claude, mas no fim sempre volto para o Cursor
Principalmente o autocompletar do Tab é muito preciso em tarefas de refatoração
- Há um mês tentei voltar para VS Code + Copilot, mas desisti em 4 dias
  Era lento e a qualidade das sugestões era baixa
  O Cursor é muito mais rápido e as sugestões são úteis
  Só acho ruim que, por ser rápido demais, às vezes ele continua mostrando sugestões desnecessárias
  Ainda assim, isso dá para resolver com o recurso de snooze (pausa temporária)
Há uma imagem de um pelicano andando de bicicleta no Composer 1
Link da imagem
- Ficou muito melhor do que eu esperava

Composer: modelo frontier rápido construído com aprendizado por reforço

Visão geral do Composer

Contexto de desenvolvimento

Arquitetura do modelo e método de treinamento

Avaliação e benchmark

Infraestrutura e design de sistema

Uso interno e lançamento

Apêndice: classificação interna de benchmark

Leituras relacionadas

1 comentários

Opiniões do Hacker News