6 pontos por GN⁺ 2026-02-04 | 1 comentários | Compartilhar no WhatsApp
  • Qwen3-Coder-Next é um modelo de linguagem de pesos abertos projetado para agentes de escrita de código e ambientes locais de desenvolvimento, baseado em atenção híbrida e arquitetura MoE
  • Foi treinado por meio de síntese de tarefas executáveis em larga escala, interação com o ambiente e aprendizado por reforço, oferecendo fortes capacidades de codificação e de agente mesmo com baixo custo de inferência
  • Em vez de simplesmente ampliar os parâmetros, foca na ampliação dos sinais de treinamento de agentes, usando tarefas de codificação verificáveis e ambientes executáveis para aprender feedback diretamente
  • Ultrapassou 70% no SWE-Bench Verified e mostrou desempenho competitivo com modelos grandes no SWE-Bench Pro e também em ambientes multilíngues
  • Mesmo sendo um modelo pequeno, alcança um equilíbrio de Pareto entre eficiência e desempenho, com implicações importantes para a implantação de agentes com boa eficiência de custo

Visão geral do Qwen3-Coder-Next

  • Qwen3-Coder-Next é um modelo de linguagem de pesos abertos baseado no Qwen3-Next-80B-A3B-Base
    • Adota atenção híbrida e arquitetura Mixture of Experts(MoE)
    • Foi treinado por meio de síntese de tarefas executáveis em larga escala, interação com o ambiente e aprendizado por reforço
  • O objetivo é o uso eficiente em agentes de codificação e em ambientes locais de desenvolvimento
    • Oferece forte capacidade de raciocínio e desempenho de codificação mesmo com baixo custo de inferência

Forma de escalonamento do treinamento de agentes

  • O modelo se concentra mais em escalar os sinais de treinamento de agentes do que em escalar o número de parâmetros
    • Combina tarefas de codificação verificáveis com ambientes executáveis para aprender diretamente a partir do feedback do ambiente
  • Principais etapas de treinamento
    • Pré-treinamento contínuo com dados centrados em código e agentes
    • Ajuste fino supervisionado com dados de trajetórias de agentes de alta qualidade
    • Treinamento especializado por domínio, como engenharia de software, QA e web/UX
    • Destilação de vários modelos especialistas em um único modelo pronto para implantação
  • Essa abordagem fortalece capacidades de raciocínio de longo prazo, uso de ferramentas e recuperação de falhas de execução

Desempenho em benchmarks de agentes de codificação

  • Foi avaliado em vários benchmarks, como SWE-Bench (Verified, Multilingual, Pro), TerminalBench 2.0 e Aider
    • Ultrapassou 70% no SWE-Bench Verified
    • Manteve competitividade no SWE-Bench Pro e também em ambientes multilíngues
    • Apesar do pequeno número de parâmetros ativos, mostrou desempenho equivalente ou superior ao de modelos open source maiores
  • Em tarefas de agentes multi-turno, confirmou-se que aumentar o número de turnos do agente fortalece a capacidade de raciocínio de longo prazo

Equilíbrio entre eficiência e desempenho

  • Qwen3-Coder-Next (3B active) alcança desempenho semelhante no SWE-Bench-Pro ao de modelos 10 a 20 vezes maiores
  • Embora modelos proprietários baseados em atenção total estejam à frente em desempenho absoluto, o Qwen3-Coder-Next ocupa uma excelente posição na fronteira de Pareto em eficiência de custo
  • Isso mostra que é um modelo adequado para implantação de agentes com boa relação custo-benefício

Demonstrações e exemplos de aplicação

  • Como um modelo coder pequeno e rápido, pode ser integrado a diversos ambientes de aplicação
    • Demonstrado em OpenClaw, Qwen Code, Claude Code, Web Dev, Browser Use e Cline
    • Disponível para uso via web em coder.qwen.ai

Resumo e planos futuros

  • O Qwen3-Coder-Next demonstrou excelente velocidade e capacidade de raciocínio em benchmarks de agentes de codificação
  • Mesmo em comparação com grandes modelos open source, mostra desempenho competitivo, embora ainda haja espaço para melhorias
  • No futuro, planeja reforçar capacidade de uso de ferramentas, resolução de problemas complexos e capacidade de tomada de decisão
    • Além de oferecer suporte a mais tarefas e atualizações rápidas com base em feedback dos usuários

1 comentários

 
GN⁺ 2026-02-04
Comentários do Hacker News
  • Este modelo GGUF tem 48,4 GB, então dá para rodar até em notebook mais parrudo
    Até agora, ainda não vi um modelo local que consiga rodar direito um agente de programação no nível do Codex CLI ou do Claude Code no meu MacBook Pro com 64 GB
    Fiquei pensando se desta vez seria diferente. Pelo guia da Unsloth, parece haver potencial

    • Acho que precisamos de um termo novo em vez de “modelo local”, algo como “modelo no meu computador”
      Chamar de local algo que só está conectado via llama.cpp na mesma máquina não basta. Quando digo local, quero dizer um modelo na LAN, ou seja, algo num nível em que eu possa rodar a inferência “de graça” em hardware que controlo diretamente
      Por exemplo, uma configuração com 5090 + Threadripper + 256 GB de RAM custa por volta de 10 mil dólares, enquanto a rota via MLX fica em cerca de 6 mil dólares
      Como a arquitetura interna do modelo e o método de quantização afetam muito o uso real de memória, comparar só pelo número de parâmetros está ficando cada vez menos útil
      Por isso, acho que precisamos de um sistema para fazer benchmark de tarefas reais, como tool calling, geração de código e processamento de documentos, com base em hardware padronizado
    • Estou rodando o Qwen3-Coder-30B-A3B-Instruct gguf numa VM com 13 GB de RAM e uma GPU RTX 2060 de 6 GB
      Mesmo sendo um notebook Razer Blade antigo, ele funciona de forma bem estável até 64k de contexto
      Para projetos pequenos, correção de bugs e melhorias de UI, dá para usar tranquilamente
      Mas acho que o critério de “usable” varia de pessoa para pessoa. A avaliação vai depender do tipo de tarefa que cada um tentou fazer
    • Já usei o GPT-OSS-120b (MXFP4) com o Codex, e ele consome cerca de 66 GB de VRAM
      Acho que seria bem útil pegar bons logs de execução do modelo 120b e fazer fine-tuning de uma versão 20b
      Se aumentar o reasoning_effort, ele entrega resultados bem decentes, mas por causa do limite de 64 GB de memória, melhorar o 20b é mais realista
    • Configurei o Claude Code com um modelo local (ollama run glm-4.7-flash) e rodei num Mac mini M2Pro com 32 GB
      Foi bom o bastante para organizar código de um projeto git antigo, documentar e adicionar testes
      Talvez meu padrão seja baixo, mas como assistente local de programação fiquei bastante satisfeito
    • Daqui a uns 5 anos, acho que a maioria dos modelos vai poder ser executada localmente
      Com o aumento na produção de GPUs e memória de alto desempenho, além da evolução na otimização dos modelos, até hardware intermediário deve conseguir entregar desempenho suficientemente bom
  • Publiquei o Dynamic Unsloth GGUF para implantação local no Hugging Face e também escrevi um guia para usar Claude Code / Codex localmente

    • No meu sistema, ele roda a cerca de 39 tok/s, com uso de GPU em torno de 60%
      Executei o servidor llama.cpp num ambiente com Radeon RX 7900 XTX, e funcionou de forma estável com a configuração ctx-size 32768
    • Recebi feedback de que estão usando meu modelo no Framework Desktop
      Também houve gente perguntando por que usar a versão da Unsloth em vez do GGUF padrão do Qwen3
    • Houve pedido para que o IQuest-Coder também fosse distribuído da mesma forma
    • Também perguntaram qual é a diferença entre a versão UD e a versão comum
    • Teve até reação de surpresa, do tipo: “como você conseguiu fazer isso tão rápido?”
  • Instalei o llama.cpp via Homebrew e rodei o modelo quantizado da Unsloth localmente
    Consegui subir ao mesmo tempo a interface CLI e um servidor de API compatível com OpenAI, usando cerca de 28 GB de RAM

    • Alguém perguntou qual estava sendo a velocidade em tokens (token/s)
    • Outra pessoa quis saber qual era a impressão geral (impression)
  • Se este modelo for realmente o que estão dizendo, entregar desempenho de programação no nível do Sonnet 4.5 com 3B de parâmetros ativos seria algo enorme

    • Testei as versões quantizadas Q2 e Q4; é impressionante vê-lo rodando localmente, mas não está no nível do Sonnet 4.5
      Houve erros até em problemas simples, e às vezes ele entrava em thinking loop
      Pode ser bug de implementação inicial, mas por enquanto a alegação de desempenho parece exagerada
    • Pela minha impressão, está mais próximo do nível do Haiku
    • Isso me lembra a frase: “se parece bom demais, provavelmente não é verdade”
  • Testei o Qwen3 Coder 30B localmente num Mac M4 Max (36 GB)
    Era lento, mas funcionou e deu resultados bem decentes
    Compartilhei um vídeo de demonstração e um post explicando a configuração

  • Num notebook com 6 GB de VRAM, consegui 17 tok/s e até 100k de contexto
    É impressionante, mas como a velocidade é baixa, pretendo continuar usando inferência em nuvem
    Compartilhei um [exemplo de configuração docker-compose]

  • Fiz benchmark do modelo FP8 em ambiente com DGX Spark + vLLM 0.15.1
    Em requisição única, chegou a cerca de 43 tok/s, e em requisições paralelas alcançou até 62 tok/s

    • Testei o modelo FP8 no vLLM, mas durante a execução ele era desquantizado para BF16, causando swap de memória
      Já a versão quantizada em 4-bit do llama.cpp fazia cerca de 30~35 tok/s e usava só 50 GB de RAM mesmo com 200k de contexto
  • Com 3B de parâmetros ativos, o desempenho fica um pouco abaixo do GLM 4.7, mas a eficiência é impressionante
    É rápido, e acho que usar um agente de programação simples junto com um orquestrador pode até acelerar o fluxo como um todo

    • Eu uso o recurso de subagentes do Claude para rodar agentes TypeScript baseados em Mastra via CLI
      Automatizo tarefas repetitivas como varredura de código, busca de bibliotecas e navegação no SourceGraph
      Graças ao recurso de Workspace do Mastra, ficou possível fazer um desenvolvimento mais poderoso no estilo de agentes
    • No fim, acho que tudo isso só vai se popularizar mais quando as grandes empresas de IA aumentarem os preços
  • Rodei o lmstudio-community/Qwen3-Coder-Next-GGUF:Q8_0 no Strix Halo, e consegui
    32 tok/s com até 128k de contexto. É um pouco mais fraco que o MiniMax M2.1 Q6, mas ainda assim impressiona

    • Houve pergunta sobre como é o Strix Halo. Também apareceu a opinião de que seria bom ter uma máquina capaz de fazer inferência local sem quantização
    • No NVIDIA Spark, obtive números parecidos e estou testando a versão Q4_K_XL
      O FP8 usava 110 GB e só chegava a 16k de contexto
      Testei para geração de código Rust e ele se mostrou bastante competente. Se a velocidade melhorar, parece realmente utilizável
      Em breve, provedores de API devem oferecer esse modelo a preços baixos
  • Queria saber se existe algum lugar confiável para rankings de modelos locais
    Os benchmarks parecem manipulados demais, então acho que reviews pessoais são mais valiosos
    Gostaria de saber se existe algum lugar que organize os melhores modelos por domínio, como código, voz, imagem, resumo e música