2 pontos por GN⁺ 2025-10-30 | 1 comentários | Compartilhar no WhatsApp
  • O Composer, lançado pela Cursor, é um modelo de agente inteligente de alta velocidade para engenharia de software, alcançando geração de código 4 vezes mais rápida do que modelos semelhantes
  • Ele é treinado para resolver problemas reais em grandes codebases e usa ferramentas de busca e edição para executar tarefas de diferentes níveis de dificuldade
  • Combinando a arquitetura Mixture-of-Experts (MoE) com aprendizado por reforço (RL), ele oferece suporte a compreensão e geração de contexto de longo prazo em edição de código, planejamento e respostas
  • A avaliação Cursor Bench mede não só a precisão do modelo, mas também a consistência com a codebase e a aderência a práticas de engenharia
  • Utiliza infraestrutura assíncrona de RL baseada em PyTorch e Ray e treinamento de baixa precisão MXFP8 para treinar com eficiência em milhares de GPUs e melhorar a velocidade de inferência

Visão geral do Composer

  • O Composer é um novo modelo de agente desenvolvido com foco em inteligência e velocidade para engenharia de software
    • Em benchmarks, registrou velocidade de geração de código 4 vezes maior que a de modelos semelhantes
    • Foi otimizado dentro do Cursor como um agente para resolver problemas em grandes codebases
  • O modelo é treinado para resolver problemas de diferentes níveis de dificuldade em ambientes reais usando ferramentas de busca e edição
    • Isso proporciona uma experiência de desenvolvimento interativa e de alta velocidade

Contexto de desenvolvimento

  • O Composer nasceu da experiência da Cursor no desenvolvimento do seu modelo personalizado de autocomplete de código (Cursor Tab)
    • A empresa confirmou que os desenvolvedores preferem modelos inteligentes e com resposta rápida
  • Com base no modelo experimental inicial Cheetah, o Composer foi projetado como uma versão mais rápida e mais inteligente
    • O objetivo era construir um modelo que forneça respostas imediatas sem interromper o fluxo de desenvolvimento

Arquitetura do modelo e método de treinamento

  • O Composer é um modelo de linguagem Mixture-of-Experts (MoE) que oferece suporte a compreensão e geração de contexto de longo prazo
  • Ele foi especializado para diversos ambientes de desenvolvimento por meio de aprendizado por reforço (RL)
    • Em cada etapa de treinamento, recebe a descrição do problema e gera as melhores modificações de código, planos e respostas
    • O modelo usa ferramentas como leitura e edição de arquivos, execução de comandos no terminal e busca semântica em toda a codebase
  • Durante o processo de RL, o modelo aprende por conta própria comportamentos úteis, como realizar buscas complexas, corrigir erros de linter e escrever e executar testes unitários

Avaliação e benchmark

  • O Cursor Bench é um conjunto interno de avaliação com solicitações reais de engenharia e respostas ideais
    • Ele mede a precisão do modelo, a aderência às abstrações da codebase e a conformidade com práticas de engenharia de software
  • O Composer é classificado como um modelo “Fast Frontier”, sendo comparado com modelos voltados para inferência eficiente, como Haiku 4.5 e Gemini Flash 2.5
    • É mais lento que os modelos Frontier de topo, como GPT-5 e Sonnet 4.5, mas oferece alta eficiência em relação à velocidade

Infraestrutura e design de sistema

  • Para treinar modelos MoE em larga escala, foi construída uma infraestrutura assíncrona de RL baseada em PyTorch e Ray
    • Ela combina kernels MoE MXFP8, paralelismo de especialistas e paralelismo de dados com sharding híbrido
    • O treinamento é escalado em milhares de GPUs NVIDIA, minimizando os custos de comunicação
  • O treinamento de baixa precisão MXFP8 melhora a velocidade de inferência e elimina a necessidade de quantização pós-processamento
  • Durante o RL, o modelo pode chamar todas as ferramentas do Cursor Agent
    • Há suporte para edição de código, busca semântica, grep de strings e execução de comandos no terminal
    • Para isso, centenas de milhares de ambientes sandbox em nuvem são executados em paralelo
    • A infraestrutura existente de Background Agents foi expandida para lidar com cargas de treinamento em rajadas

Uso interno e lançamento

  • A equipe da Cursor usa o Composer ativamente em seu próprio trabalho de desenvolvimento
    • Muitos engenheiros usam o Composer no desenvolvimento de software do dia a dia
  • Com este lançamento, a empresa espera que outros desenvolvedores também possam aproveitá-lo de forma útil

Apêndice: classificação interna de benchmark

  • Fast Frontier: modelos de inferência eficiente (Haiku 4.5, Gemini Flash 2.5 etc.)
  • Best Open: modelos com pesos abertos (Qwen Coder, GLM 4.6 etc.)
  • Frontier 7/2025: os melhores modelos em julho de 2025
  • Best Frontier: modelos com desempenho superior ao Composer, como GPT-5 e Sonnet 4.5
  • O cálculo de Tokens per Second é padronizado com base no tokenizador mais recente da Anthropic

1 comentários

 
GN⁺ 2025-10-30
Opiniões do Hacker News
  • Acho que falta transparência demais
    O desempenho do modelo foi divulgado só com benchmarks próprios, e até esses dados são privados, então é difícil confiar
    Falam de treinamento com RL, mas não há nenhuma informação essencial sobre pré-treinamento (pre-training) ou se houve fine-tuning
    Até divulgarem mais detalhes ou permitirem benchmarks independentes por terceiros, continuo cético em relação a todas as alegações

    • Entendo por que eles não divulgam os benchmarks internos
      Se divulgarem, esses dados podem entrar no conjunto de treino de outros LLMs e perder a validade científica
      Mas, se forem privados, também existe a possibilidade de terem escolhido só dados favoráveis a eles
      No fim, é um dilema difícil de resolver
    • Na verdade, acho que o mais importante são os dados de usuários reais
      O Cursor coleta milhares de dados de accept/reject em tempo real, então esse é o melhor loop de feedback possível
      A reação de usuários reais é muito mais útil do que benchmark, e isso permite melhorar o modelo rapidamente
      Recentemente também adicionaram o recurso de integração multi-agent + git tree, então a estrutura aproveita o comportamento do usuário como sinal de aprendizado
      Acho que esse tipo de competição melhora a qualidade do mercado como um todo e cria um ciclo virtuoso de redução de custos
  • Ainda acho que o modelo Tab do Cursor é o melhor
    Isso está bem explicado no post oficial do blog
    Seria muito interessante se essa abordagem também pudesse ser aplicada a modelos agentic de coding

    • Nosso time também usa muito o Tab
      A motivação deste projeto já nasceu da ideia de criar um agente como o Tab
    • Fico curioso se você já usou o Windsurfs
    • O modelo Tab é bom, mas às vezes parece uma competição para fazer um chicote de carroça melhor
      Eu deixo o Claude Code rodando quase o tempo todo, e o Tab só entra quando o modelo trava completamente
      É impressionante como essas situações de falha estão ficando cada vez mais raras
    • O modelo Tab é excelente, mas é uma pena que ele não entenda o contexto da sessão de chat de IA atual
    • O recurso é bom, mas os atalhos deixam a desejar
      Queria que fosse algo como shift+tab
      Toda vez que estou escrevendo código manualmente, parece que estou competindo com a IA pela indentação, o que é incômodo
  • Sou pesquisador de ML no Cursor e participei deste projeto
    Feedback sobre o modelo ou sobre o post do blog é bem-vindo

    • A explicação do sistema foi impressionante
      Mas, se o Composer for um modelo aberto com fine-tuning via RL, fico curioso por que os pesos continuam fechados
      Uma pequena vantagem de desempenho desaparece rápido, então uma estratégia aberta talvez fosse melhor para conquistar a confiança dos desenvolvedores
      Pessoalmente, tenho pouco interesse em modelos fechados
    • Fiquei realmente surpreso
      No passado eu tentei usar o Cursor e acabei desistindo, mas este Composer1 foi muito mais rápido e preciso que o GPT5 Codex
      Como velocidade e qualidade estão boas, pretendo testar de novo
    • O primeiro gráfico do blog ficou vago demais
      Teria sido mais justo mostrar uma versão com nomes individuais, sem agrupar os modelos
    • Hoje usei Composer, Sonnet 4.5 e Gemini 2.5 Pro juntos, e a combinação de velocidade e qualidade do Composer foi a mais satisfatória
      Faço a etapa de planejamento com Claude, mas na execução o Composer foi muito mais eficiente
    • Pelo gráfico log, parece que seriam necessários cerca de 50% a mais de computação para chegar a um modelo de fronteira, então fiquei curioso por que o treinamento parou ali
  • Algo no nível do Sonnet 4.5 é a linha mínima de qualidade que eu consigo aceitar
    Mais importante que velocidade é não precisar ficar brigando para obter a saída que eu quero
    Posso ter entendido errado, mas fiquei em dúvida se todos os modelos comparados neste texto são modelos internos do Cursor

    • O Sonnet 4.5 foi lançado há só um mês, então é engraçado já tratá-lo como “linha mínima”
    • Acho que existem dois tipos de usuário
      Um quer que o modelo lide sozinho com tarefas longas,
      o outro quer interagir e colaborar com o modelo
      No segundo caso, velocidade importa muito mais; no primeiro, inteligência importa mais
      Para mim, a falta de compreensão de contexto é um problema maior, então depende da situação
    • O Sonnet 4.5 é excelente, mas fiquei curioso se você já testou o Composer
    • Comigo é parecido
      Quando uso modelos que não são Claude, gasto mais tokens e tenho menos eficiência
      O Claude 4.5 Sonnet resolve a mesma tarefa pela metade do custo
    • Mencionei a comparação porque isso mostra o quanto o Cursor leva a sério a experiência de usuário centrada em velocidade
      Eu prefiro feedback rápido a precisão
  • É bom ver um modelo novo, mas é difícil confiar quando o gráfico não tem números nem nomes de modelos

    • Há uma explicação sobre os modelos nas notas de rodapé
      Eles dizem que é difícil divulgar os detalhes do treinamento, mas que obtiveram o resultado de que RL escala bem
  • Muita gente é crítica em relação ao Cursor, mas eu usei Copilot, Claude Code, Codex, Gemini CLI, Cline e vários outros, e o Cursor foi o produto mais polido de todos
    Velocidade e estabilidade se destacam, e ele realmente parece um produto de verdade

    • Eu também usei o Cursor, mas desisti por problemas de confiabilidade
      Muitas vezes as solicitações ficavam travadas por mais de 30 segundos, enquanto o Claude Code era muito mais rápido e estável
      Testei o modelo novo de novo hoje; o Composer1 é rápido, mas ainda tive erros de conexão
    • Também testei várias ferramentas, mas no fim sempre volto para o Cursor
      Para implementar rápido o que eu quero, o Cursor é o melhor
    • O Cursor às vezes trava, mas é fácil desfazer pela UI, então não chega a incomodar
      O autocompletar também é bem útil durante refatorações
    • Você disse que testou várias alternativas, mas por acaso não testou o Zed?
    • É interessante alguém testar o Claude e ainda assim preferir o Cursor
  • Entre os concorrentes, o Cursor é o único que trata seriamente o tempo até a resposta completa
    Nisso, o Cursor ficou completamente à frente

    • Nós também gostamos de vários modelos, mas achamos importante encontrar um ponto de equilíbrio entre rapidez e inteligência (pesquisador do Cursor)
  • Testei o novo sistema e, na verdade, senti que o desempenho piorou
    Nem um app básico funcionou direito, e ele também falhou ao lidar com CSS e com o contexto do terminal
    A velocidade foi caindo cada vez mais, e no fim voltei para o Sonnet
    Espero que ainda não seja a versão estabilizada

  • Eu realmente gosto do Cursor
    Já usei várias ferramentas como Copilot e Claude, mas no fim sempre volto para o Cursor
    Principalmente o autocompletar do Tab é muito preciso em tarefas de refatoração

    • Há um mês tentei voltar para VS Code + Copilot, mas desisti em 4 dias
      Era lento e a qualidade das sugestões era baixa
      O Cursor é muito mais rápido e as sugestões são úteis
      Só acho ruim que, por ser rápido demais, às vezes ele continua mostrando sugestões desnecessárias
      Ainda assim, isso dá para resolver com o recurso de snooze (pausa temporária)
  • Há uma imagem de um pelicano andando de bicicleta no Composer 1
    Link da imagem

    • Ficou muito melhor do que eu esperava