3 pontos por GN⁺ 2025-07-23 | 1 comentários | Compartilhar no WhatsApp
  • Qwen3-Coder alcança desempenho de topo entre os modelos abertos em agentic coding, com arquitetura Mixture-of-Experts de 480B parâmetros, 35B de parâmetros ativos e suporte a contexto de 256K~1M tokens
  • Com a adoção de técnicas de aprendizado por reforço em larga escala otimizadas para problemas reais de engenharia de software, como Code RL e RL de longo horizonte, melhora significativamente a taxa de sucesso de execução e o desempenho em diversas tarefas
  • Funciona integrado a ferramentas de linha de comando e APIs como Qwen Code e Claude Code, podendo ser usado imediatamente em vários ambientes de desenvolvimento, incluindo Node.js e APIs compatíveis com OpenAI
  • Com ambientes paralelos em larga escala e infraestrutura robusta, consegue lidar até com interações complexas exigidas em tarefas reais de programação, como planejamento, feedback e uso de ferramentas
  • Também antecipa experimentos e avanços futuros, como mais tamanhos de modelo, implantação de menor custo e a possibilidade de autoaperfeiçoamento de agentes de programação

Qwen3-Coder

  • Qwen3-Coder é um modelo de IA open source no qual as capacidades agentic estão mais fortalecidas do que nos modelos anteriores de geração de código
  • A primeira versão principal lançada, Qwen3-Coder-480B-A35B-Instruct, aplica uma arquitetura Mixture-of-Experts em que 35 bilhões dos 480 bilhões de parâmetros ficam ativos
    • Suporta contexto de 256K tokens por padrão, com possibilidade de expansão até 1M tokens
  • Com desempenho excepcional, apresentou resultados de nível máximo entre modelos abertos em benchmarks importantes como Agentic Coding, Browser-Use e Tool-Use, além de mostrar qualidade em tarefas de código/agente comparável ao Claude Sonnet 4
  • A ferramenta CLI Qwen Code, lançada junto, foi derivada do Gemini Code e aplica prompts especiais e um protocolo de chamada de funções para extrair ao máximo as capacidades agentic do Qwen3-Coder
  • O Qwen3-Coder também se integra de forma fluida com várias ferramentas de desenvolvimento da comunidade, como OpenAI SDK e Claude Code
  • O objetivo é viabilizar agentic coding em todo o universo de software como um modelo base de uso geral

Pré-treinamento (Pre-Training)

  • Escala massiva de tokens: uso de um total de 7,5 trilhões de tokens (70% de código), reforçando de forma equilibrada tanto a capacidade de programação quanto as habilidades gerais e matemáticas
  • Expansão da janela de contexto: suporte básico a 256K e 1M tokens com base em YaRN, permitindo lidar até com dados dinâmicos em nível de grandes repositórios, como Pull Requests
  • Melhoria da qualidade dos dados sintéticos: a qualidade geral dos dados foi significativamente elevada com o uso de dados reescritos e com ruído removido a partir do Qwen2.5-Coder anterior

Pós-treinamento (Post-Training)

  • Expansão de aprendizado por reforço para código (Code RL): difícil de resolver, fácil de verificar

    • Diferentemente da abordagem centrada em competição comum na comunidade de geração de código, adota um método de execução/validação de todas as tarefas de código com base em aprendizado por reforço (RL) em larga escala
    • Expande casos de teste automatizados para diversas tarefas reais de programação, gerando em massa instâncias de treinamento por RL e maximizando a taxa de sucesso
    • Os resultados mostram que essa abordagem melhora não só a taxa de sucesso na execução de código, mas também o desempenho em outras tarefas
    • No futuro, a atenção continuará voltada para novas áreas que sejam difíceis de resolver, mas fáceis de verificar
  • Aprendizado por reforço de longo horizonte (Long-Horizon RL)

    • Em tarefas reais de engenharia de software, como no SWE-Bench, são indispensáveis interações multi-turno envolvendo planejamento, uso de ferramentas, tratamento de feedback e tomada de decisão
    • O Qwen3-Coder introduz RL de longo horizonte (Agent RL) e foi treinado para interagir com ferramentas em ambientes reais e resolver tarefas de múltiplos turnos
    • Com infraestrutura da Alibaba Cloud, foram construídos 20.000 ambientes paralelos independentes, com suporte a aprendizado por reforço em larga escala e avaliação em tempo real
    • Alcançou o melhor desempenho entre modelos open source no benchmark SWE-Bench Verified

Como usar o Qwen3-Coder

  • Qwen Code: agentic coding na linha de comando

    • Qwen Code é uma ferramenta CLI criada para fins de pesquisa, baseada no Gemini CLI e com parser e ferramentas adicionais dedicadas ao Qwen-Coder
    • Requer ambiente Node.js 20+ e pode ser instalada e executada facilmente via npm
    • Suporta o protocolo do OpenAI SDK, podendo ser configurada por variáveis de ambiente ou arquivo .env para uso em várias infraestruturas de LLM
    • Com o comando Qwen-Code, é possível aproveitar facilmente o poder do Qwen3-Coder
  • Integração com Claude Code

    • O Qwen3-Coder também pode ser usado no ambiente Claude Code
    • É possível emitir uma API key no Alibaba Cloud Model Studio e instalar a integração com o Claude Code
    • Oferece suporte à escolha de vários modelos de backend e configuração simples por meio de Proxy API e do pacote claude-code-config
  • Integração com Cline

    • Também é possível configurar e usar o modelo Qwen3-Coder-480B-A35B-Instruct no ambiente de desenvolvimento Cline
    • Em API Provider, selecione OpenAI Compatible e forneça a API Key obtida no Dashscope e a Custom Base URL

Casos de uso (Use Cases)

  • Simulação física de demolição de chaminé
  • Exemplo de uso integrado de Qwen + Cline
  • Desenvolvimento web com base no Qwen Chat
  • Medição de velocidade de digitação com citações famosas
  • Simulação de bola quicando dentro de um hipercubo em rotação
  • Simulação de ambiente do sistema solar
  • Geração do jogo DUET e outros diversos exemplos de programação e simulação

Integração de API

  • É possível usar diretamente a API do Qwen3-Coder por meio do Alibaba Cloud Model Studio
  • Demonstra geração de código baseada em conversa com a API do Qwen usando o OpenAI SDK para Python

Direções futuras de desenvolvimento

  • Pesquisas estão em andamento de forma ativa para melhorar o desempenho de Coding Agents e delegar tarefas complexas e repetitivas de engenharia de software
  • Estão sendo preparados mais tamanhos de modelo, buscando ao mesmo tempo reduzir os custos de implantação
  • O foco final é maximizar a produtividade humana em tarefas complexas e repetitivas de engenharia de software, incluindo a possibilidade de autoaperfeiçoamento de Coding Agents

1 comentários

 
GN⁺ 2025-07-23
Comentários do Hacker News
  • Estou criando GGUFs de 2bit a 8bit para uso local
    Deve ficar disponível em até uma hora no HuggingFace Unsloth Qwen3-Coder-480B-A35B-Instruct-GGUF
    Há documentação de execução para GPU de 24GB e 128~256GB de RAM aqui

    • Acho que há um erro de digitação na documentação
      Em vez de "Recommended context: 65,536 tokens (can be increased)", a documentação oficial diz sobre o comprimento de saída: "We recommend using an output length of 65,536 tokens for most queries, which is adequate for instruct models"
      Ou seja, é o comprimento de saída recomendado
  • O Qwen3-Coder está sendo lançado em vários tamanhos, mas pessoalmente estou mais animado com os menores
    Acho que modelos leves para rodar localmente estão ficando cada vez melhores para escrever código decente
    Talvez ainda sejam necessários modelos maiores por enquanto, mas é ótimo poder escolher modelos open-weight de alta qualidade quando hospedar por conta própria não é realisticamente viável
    Também é uma boa experiência poder usar modelos pequenos livremente e, quando necessário, testar modelos maiores pagos
    Parabéns ao time do Qwen por este lançamento, vou experimentar imediatamente

    • Acho que, na prática, modelos pequenos quase nunca superam os grandes
      Os modelos grandes acabam tendo muito mais conhecimento e inteligência
      Os modelos pequenos evoluem, mas os grandes também evoluem junto
      Houve uma época em que o HN era o centro técnico do campo de LLMs, mas hoje em dia mais usuários estão rodando modelos enormes por conta própria no Reddit
      Se a pessoa pesquisar e tentar, hospedar por conta própria é perfeitamente viável
  • O app "qwen-code" parece ser um fork do gemini-cli
    QwenLM/qwen-code
    Licença
    Espero que esses clones de OSS CC (open source code companion) acabem convergindo para algum padrão um dia
    De fato, a própria página diz explicitamente: "we’re also open-sourcing a command-line tool for agentic coding: Qwen Code. Forked from Gemini Code"

    • Atualmente uso principalmente o claude-code, mas deixo a inferência pesada com openai e gemini pro via zen mcp
      O gemini-cli também é suportado pelo zen, então poderia usá-lo no lugar, e se o qwen-coder for baseado no gemini-cli, adicionar suporte provavelmente não deve ser difícil

    • Nós já lançamos o RA.Aid no fim de 2024
      É um projeto voltado de verdade para comunidade open source, com foco em CLI, que vai um passo além da direção iniciada pelo aider
      Temos 5 mantenedores independentes de entidades jurídicas diferentes com acesso total de commit (um deles se juntou à Gobii, onde estou, para desenvolver um agente de navegação web)
      Acho que somos competitivos mesmo em comparação com Cursor, Windsurf e outras soluções de agentic coding
      Sinto que é essencial ter um padrão baseado em FOSS que não dependa de uma grande empresa específica ou de um modelo específico

    • Pelo que sei, também há suporte ao Claude Code, mas como isso é closed source e aparentemente só suporta endpoints da API da Anthropic, tenho curiosidade sobre como isso funciona em detalhes

    • Também quero apresentar meu projeto, Plandex
      Ele começou antes do Claude Code e, além de suportar combinações de modelos de vários provedores (Anthropic, Google, OpenAI), também pode usar modelos open source e locais
      O foco é especialmente contexto grande e tarefas longas com muitas etapas
      plandex-ai/plandex GitHub

  • Há uma sugestão no repositório para adicionar QWEN.md como manual do agente
    Mas hoje em dia os repositórios de equipe estão ficando cheios de arquivos Markdown duplicados para cada agente, o que é ineficiente

    • Eu simplesmente adiciono links simbólicos em AGENTS.md
      Como todas as instruções são iguais, não há necessidade de manter uma versão separada para cada modelo
      E excluo as versões por modelo com gitignore
  • Fico pensando como acompanhar a velocidade dessas mudanças
    Dá até vontade de imaginar se em 2 ou 3 anos vai surgir uma ferramenta campeã única
    A esse ponto, parece que todo mundo usaria só uma sem hesitar

    • As pessoas naturalmente acompanham o que lhes interessa
      No fim de semana rodei Kimi K2, nos últimos dois dias rodei Ernie4.5-300B
      Hoje de manhã baixei o Qwen3-235b mais recente e comecei a usar hoje à noite
      Esta noite estou baixando o Qwen3-Coder-480B — com a minha velocidade de internet, isso deve levar 2 ou 3 dias
      Será obsessão?

    • É só ignorar até parecer útil
      Sinceramente, não é como se fosse preciso 3 anos de experiência para digitar texto numa caixa de prompt, então não vale a pena esquentar muito a cabeça

    • Dá para não se preocupar
      A menos que apareçam questões como rentabilidade, em algum momento vai surgir uma ferramenta claramente dominante

    • Por que você acha isso?
      Os leaderboards desta área são muito instáveis, e não há sinal de que essa instabilidade vá desaparecer tão cedo
      Acho que em 2 ou 3 anos a situação pode continuar parecida, só com jogadores um pouco diferentes

  • Queria saber que tipo de hardware seria necessário para rodar o Qwen3-Coder-480B-A35B-Instruct
    Se o desempenho chegar perto do Sonnet, imagino que muitos usuários do Claude Code possam se interessar por rodar localmente
    Também tenho curiosidade se compartilhar uma instância local em equipe realmente faria sentido economicamente
    Há até documentação sobre como usar com o Claude Code
    No X (Twitter), também é comum ver casos de contas de uso altíssimas sendo compartilhadas

    • No momento estou preparando uma versão com quantização dinâmica GGUF para modelos de deep learning
      Parece que deve dar para rodar 2bit dinâmico com algo como 24GB de VRAM + 128GB de RAM, e pretendo publicar isso em até uma hora
      Documentação de referência: docs.unsloth.ai/basics/qwen3-coder

    • A versão 4bit usa cerca de 272GB de RAM em um Mac Studio M3 de 512GB
      Link para download
      Vídeo de funcionamento real: vídeo no X
      Essa máquina custa cerca de US$ 10.000

    • Para benchmarks com a versão sem quantização e sem destilação, provavelmente seria necessário algo como um cluster com 8 H200
      O B200 mais recente é mais rápido, mas muito mais caro
      Esperaria algo acima de US$ 300 mil
      Quando as pessoas publicam versões quantizadas/destiladas, muitas vezes não divulgam os resultados de benchmark

    • Só de RAM já precisaria de mais de 500GB e, considerando o contexto, seria preciso mais uma folga de 100~200GB
      Em combinação com uma GPU de 24GB, eu esperaria algo em torno de 10 tokens por segundo

    • Não precisa necessariamente ser um equipamento gigantesco
      Uma combinação de RTX Pro 6000 com 256GB de RAM já basta

  • É interessante ver um modelo open-weight competindo com o Cloud 4
    Como é uma arquitetura MoE, acho que há uma possibilidade real de rodar localmente

    • A dúvida que surge é: onde você vai colocar 480GB para conseguir esse desempenho?
      Você tem tanta RAM assim?

    • Estou bem animado com a chegada do Coder

  • Fico feliz em ver que, nos benchmarks principais recentes, o OpenHands(All-Hands-AI/OpenHands) está sendo usado como scaffold padrão em todos eles
    Não há nada mais frustrante do que quando em benchmarks públicos aparece apenas "private scaffold"

    • Há um vídeo no YouTube em que o robert fala em detalhes sobre o AllHands

    • É impressionante como a Cognition consegue parecer tão incompetente
      Receberam milhões de dólares em investimento, ficaram para trás de Cursor e Claude Code, e agora até o próprio clone deles (antes chamado de OpenDevin) está tomando o mercado

  • Vi que já está disponível para uso direto no OpenRouter (openrouter.ai/qwen/qwen3-coder)

  • Seria ótimo se alguém transformasse isso em um CLI em Rust/Ratatui