19 pontos por GN⁺ 2026-01-23 | 2 comentários | Compartilhar no WhatsApp
  • O modelo Sweep Next-Edit com 1.5B de parâmetros prevê a próxima modificação de código do usuário e oferece funcionalidade de autocompletar
  • Roda em ambiente local com velocidade abaixo de 500 ms e apresenta desempenho superior a modelos mais de 4 vezes maiores
  • É fornecido no formato de quantização Q8_0 GGUF, suportando um longo contexto de 8192 tokens mesmo em estado leve
  • É baseado no Qwen2.5-Coder e pode ser integrado a plugins do JetBrains
  • Foi lançado sob a licença Apache 2.0, sendo um modelo útil para experimentação e integração por desenvolvedores de IA open source

Visão geral do modelo

  • Sweep Next-Edit 1.5B é um modelo de previsão de next-edit para autocompletar código
    • Prevê e sugere a próxima edição antes de o usuário modificar o código
    • Pode rodar com latência abaixo de 500 ms até mesmo em um notebook local
  • Usa speculative decoding para oferecer respostas rápidas
  • Registrou desempenho superior a modelos mais de 4 vezes maiores em benchmarks de next-edit

Detalhes do modelo

  • Número de parâmetros: 1.5B
  • Formato: GGUF (quantização Q8_0)
  • Comprimento de contexto: 8192 tokens
  • Modelo base: Qwen2.5-Coder
  • Licença: Apache 2.0

Como usar

  • Baixe run_model.py e o arquivo do modelo e execute
    • Comando de instalação:
      uv pip install llama-cpp-python huggingface_hub  
      python run_model.py  
      
  • A estrutura é centrada em execução local, sem provedor separado de inferência em nuvem

2 comentários

 
minsuchae 2026-01-23

Ultimamente, as big techs cresceram aumentando o número de parâmetros, mas será que essa direção está mudando?
Pessoalmente, eu já achava que continuar crescendo só aumentando os parâmetros não tinha muito futuro.
É como se estivessem abrindo mão do futuro imediato para crescer. Acho que isso parecia ainda mais forte especialmente quando o MoE estava no auge.
O Gemma 3 27b do Google já era considerado bastante grande, mas agora parece que, em LLMs, esse nível de parâmetros até soa pequeno.
O avanço tecnológico é importante, mas também acho que precisa surgir algo que leve em conta a etapa real de servir isso em produção, e esta parece ser uma boa tentativa.
(O motivo de eu ser cético em relação ao aumento de parâmetros é que eu sei que o desempenho melhora, mas o custo para servir isso também fica maior.)

 
GN⁺ 2026-01-23
Comentários do Hacker News
  • Testei o modelo pessoalmente e o desempenho e a qualidade foram realmente impressionantes
    Obrigado por disponibilizá-lo como open source
    Eu sou a pessoa que fez um plugin de edit completion para Neovim e consegui integrá-lo ao modelo Sweep Edit
    Quem tiver interesse pode ver o cursortab.nvim

    • Fiquei curioso para saber se existe um port para Emacs ou uma versão integrada ao gptel
    • Parece interessante, então vou testar o plugin do nvim agora mesmo
    • Muito bom. Também estou pensando em experimentar por conta própria
  • No passado, usei o Qwen 2.5 Coder no Continue.dev para autocompletar, mas foi péssimo tanto no JetBrains IDE quanto no VS Code
    Fico muito feliz de ver esse tipo de tentativa sendo compartilhada. A maioria dos plugins de IDE (Cline, RooCode, KiloCode etc.) não dá suporte adequado à configuração de modelos de autocomplete
    Eu basicamente mantinha a assinatura do Copilot por causa do autocomplete, então fico feliz de finalmente ter uma alternativa

    • Também usei a extensão do VS Code do llama.cpp, mas a UX de configuração era realmente horrível
  • Sempre que uso plugins assim, percebo de novo o quanto é ineficiente programar sem uma IA de autocomplete
    Quanto mais código boilerplate existe, mais útil isso é do que o Claude Code
    Usei JetBrains por tanto tempo que é difícil migrar para o VSCode, mas os recursos de IA do JetBrains ficaram muito para trás
    Agora finalmente surgiu uma ferramenta de autocomplete decente, então estou pensando em trocar minha assinatura do Copilot por isso
    Além disso, também gosto do fato de terem pesos abertos e um modo de privacidade

    • Há tempos eu enfatizava a utilidade do autocomplete, mas só agora comecei a entender que existem duas culturas de desenvolvimento
      Quem escreve código novo com mais frequência sente fortemente o ganho de produtividade do autocomplete, enquanto quem trabalha mais com manutenção recebe mais ajuda de ferramentas como o Claude Code
    • Também concordo. No Emacs, uso integração com modelos locais e o gemini 3 flash
      Mas no dia a dia deixo os LLMs desligados e só ligo quando preciso
      Acho que o potencial dos modelos pequenos especializados está sendo subestimado
      Inclusive estou escrevendo um livro chamado ‘Winning Big With Small AI’
    • Isso foge um pouco do tema, mas fico curioso para saber por que há tanto código boilerplate assim
      Acho que na maioria dos casos daria para refatorar isso em utilitários ou bibliotecas
      Talvez eu sinta isso de forma diferente porque escrevo principalmente código de pipeline para pesquisa
      Só como referência, ferramentas como yasnippet, ultisnips e VSCode snippets também conseguem implementar autocomplete básico
    • O Junie não é grande coisa, mas se a reclamação for sobre autocomplete, o IntelliJ também tem recursos de autocomplete local/em nuvem
    • É um pouco triste que a solução para o problema do boilerplate acabe sendo geração automática
  • Eu esperava por algo assim há muito tempo
    Estava insatisfeito porque o Cursor cobrava 20 dólares por mês mesmo quando eu só usava o autocomplete
    Até pensei em fazer algo por conta própria, mas não tinha certeza de que um modelo pequeno o bastante para rodar localmente seria útil
    Então acabei fazendo às pressas uma extensão para VSCode, e o modelo é bem bom
    No passado, modelos locais eram péssimos em conclusão inline, mas desta vez está muito melhor
    Espero que a concorrência esquente

    • Disseram para perguntar se houver curiosidade sobre qualquer ponto
      Também disseram que melhoraram a qualidade com recursos como token healingpost relacionado
  • Ouvi dizer que o modelo 1.5B é pequeno o suficiente para rodar localmente, então fiquei curioso se ele realmente roda localmente também no plugin JetBrains da Sweep AI
    Quero saber se, ao instalar, o modelo é baixado automaticamente e se não há comunicação externa

    • Por enquanto não; o plugin do JetBrains usa um modelo grande hospedado
    • Pelo que parece, não há como configurar um endpoint local no plugin do JetBrains
  • Fiquei surpreso com o quão baixo é o nível da implementação de IA do JetBrains
    Mesmo depois de vários anos, ainda está nesse nível; a ponto de uma empresa nova conseguir fazer melhor
    O texto técnico também foi interessante

    • Obrigado. Feedback e perguntas são sempre bem-vindos
  • Vendo o GLM-4.7-Flash e este anúncio, é realmente fascinante ver os limites dos modelos pequenos sendo superados
    Fico animado porque os modelos que conseguem rodar no hardware que eu tenho estão ficando cada vez melhores

  • Muito legal
    Principalmente, fiquei curioso sobre como geraram os dados de treinamento de next edit a partir de repositórios
    Gostaria de ouvir mais insights sobre isso

  • Excelente. O post relacionado no blog também foi muito interessante
    Espero que um plugin para Neovim saia em breve
    Post relacionado

    • Ouvi dizer que alguém já fez um plugin para Neovim conectado a esse modelo
    • Também existe o llama.vim
      Funcionou bem com o Qwen3 Coder e, desde que suporte infill, deve servir sem problemas
      Vou testar hoje
    • O autor do plugin já deixou um comentário nesta thread
  • Não entendo muito bem a diferença entre um modelo next-edit e um modelo FIM
    Seria bom se alguém explicasse quando é melhor usar cada um
    Se possível, também gostaria de fazer um plugin para o Sublime e testar por conta própria

    • Eu também fiquei curioso, então pedi ao Claude para fazer um plugin
      A estrutura aproveita o recurso básico de autocomplete
      Dá para ver em AItoComplete
    • Meu palpite é que FIM seja a sigla de Fill-In-the-Middle
      O autocomplete tradicional simplesmente completa o final, mas o FIM preenche entre blocos de código
      Ou seja, é um modelo que olha tanto o contexto antes quanto depois do ponto de inserção e encontra a conclusão intermediária mais natural