Qwen3.6-35B-A3B: desempenho de codificação agentic agora aberto para todos os usuários

(qwen.ai)

4 pontos por GN⁺ 14 일 전 | 1 comentários | Compartilhar no WhatsApp

Um modelo open source com arquitetura esparsa Mixture-of-Experts (MoE), em que apenas 3 bilhões de um total de 35 bilhões de parâmetros são ativados, alcançando eficiência e desempenho ao mesmo tempo
Em comparação com a geração anterior, sua capacidade de codificação agentic melhorou significativamente, mostrando um nível competitivo com grandes modelos densos como Qwen3.5-27B e Gemma4-31B
Registrou pontuações altas em importantes benchmarks de codificação como SWE-bench, Terminal-Bench e Claw-Eval, e também alcançou desempenho no nível do Claude Sonnet 4.5 em tarefas multimodais
Pesos abertos e acesso via API estão disponíveis por meio do Alibaba Cloud Model Studio API, Hugging Face e ModelScope, com suporte de integração a várias ferramentas de codificação como OpenClaw e Claude Code
Apresenta um novo padrão para modelos abertos eficientes ao igualar grandes modelos com apenas 3 bilhões de parâmetros ativos

Visão geral do Qwen3.6-35B-A3B

Qwen3.6-35B-A3B é um modelo esparso Mixture-of-Experts (MoE) em que apenas 3 bilhões de um total de 35 bilhões de parâmetros são ativados, combinando eficiência e desempenho em um modelo open source
Em relação à versão anterior, o Qwen3.5-35B-A3B, o desempenho em codificação agentic (agentic coding) melhorou bastante, alcançando um nível competitivo com grandes modelos densos como Qwen3.5-27B e Gemma4-31B
Suporta tanto raciocínio multimodal quanto modo sem raciocínio, e está disponível via Qwen Studio, API, Hugging Face e ModelScope
O modelo pode ser usado de forma interativa no Qwen Studio, chamado pela Alibaba Cloud Model Studio API (qwen3.6-flash) ou hospedado diretamente

Avaliação de desempenho

Desempenho em linguagem e codificação
- O Qwen3.6-35B-A3B supera o Qwen3.5-27B (modelo denso com 27 bilhões de parâmetros) em vários benchmarks importantes de codificação usando apenas 3 bilhões de parâmetros ativos
- Obteve pontuações altas como SWE-bench Verified 73.4, Terminal-Bench 51.5 e média 68.7 no Claw-Eval
- No QwenWebBench (benchmark de geração de código web), registrou 1397 pontos, um dos melhores níveis da categoria
- Também apresentou resultados superiores aos modelos concorrentes em benchmarks gerais de agentes, como MCPMark, MCP-Atlas e WideSearch
- Manteve alta precisão também em MMLU-Pro, GPQA, AIME26 e outros testes de conhecimento e raciocínio
Ambiente de avaliação
- A série SWE-Bench foi avaliada com base em um scaffold interno de agente (ferramentas bash + edição de arquivos) em uma janela de contexto de 200K
- O Terminal-Bench 2.0 foi medido pela média de 5 execuções, com limite de 3 horas, em ambiente com 32 CPU/48GB RAM
- O SkillsBench foi avaliado em 78 tarefas, excluindo trabalhos dependentes de API
- QwenClawBench e QwenWebBench são benchmarks internos baseados em distribuição de uso real, refletindo ambientes reais de usuários
Desempenho visão-linguagem
- O Qwen3.6-35B-A3B é um modelo multimodal nativo que alcança desempenho no nível do Claude Sonnet 4.5 com apenas 3 bilhões de parâmetros ativos
- Mostra força em inteligência espacial com RefCOCO (cognição espacial) 92.0 e ODInW13 50.8
- Também obteve pontuações altas em várias tarefas de visão-linguagem, como RealWorldQA 85.3, MMBench EN-DEV 92.8 e OmniDocBench1.5 89.9
- Em benchmarks de compreensão de vídeo (VideoMME, VideoMMMU, MLVU etc.), manteve pontuações na faixa de 80 a 86, demonstrando desempenho estável

Uso do Qwen3.6-35B-A3B

Implantação e acesso
- Disponível via Alibaba Cloud Model Studio API (qwen3.6-flash), com download de pesos abertos no Hugging Face e no ModelScope
- Pode ser testado imediatamente no Qwen Studio e oferece integração com assistentes de codificação de terceiros como OpenClaw, Claude Code e Qwen Code
Uso da API
- Suporta o recurso preserve_thinking, que mantém o conteúdo de thinking de conversas anteriores, sendo adequado para tarefas agentic
- O Alibaba Cloud Model Studio oferece uma chat completions API compatível com os padrões das APIs da OpenAI e da Anthropic
- No código de exemplo, a opção enable_thinking permite exibir separadamente o processo de raciocínio (reasoning trace) e a resposta final
Integração com OpenClaw
- O Qwen3.6-35B-A3B é compatível com OpenClaw (antigo Moltbot/Clawdbot) e, ao se conectar ao Model Studio, fornece um ambiente de codificação agentic baseado em terminal
- É usado mesclando as informações da API do Model Studio ao arquivo de configuração (~/.openclaw/openclaw.json)
- Pode ser instalado e executado em ambientes com Node.js 22 ou superior
Integração com Qwen Code
- Totalmente compatível com Qwen Code (agente de IA open source para terminal) otimizado para a série Qwen
- Após a instalação em Node.js 20 ou superior, a autenticação é feita com o comando /auth
Integração com Claude Code
- Como suporta o protocolo da API da Anthropic, também pode ser usado diretamente no Claude Code
- Basta definir a variável de ambiente ANTHROPIC_MODEL="qwen3.6-flash" e executar a CLI

Resumo e perspectivas

O Qwen3.6-35B-A3B prova que uma arquitetura MoE esparsa também pode oferecer capacidade de codificação agentic e raciocínio comparável à de grandes modelos densos
Com 3 bilhões de parâmetros ativos, entrega eficiência e desempenho ao mesmo tempo, além de mostrar resultados excelentes em benchmarks multimodais
Publicado como checkpoint totalmente open source, apresenta um novo padrão para modelos abertos eficientes
A equipe Qwen pretende continuar expandindo a família open source Qwen3.6 e espera feedback e adoção da comunidade

Informações de citação

@misc{qwen36_35b_a3b, title = {Qwen3.6-35B-A3B: Agentic Coding Power, Now Open to All}, url = {https://qwen.ai/blog?id=qwen3.6-35b-a3b}, author = {Qwen Team}, month = {April}, year = {2026}}

1 comentários

GN⁺ 14 일 전

Comentários do Hacker News

Testei a versão Unsloth 20.9GB GGUF no meu notebook com o LM Studio
Link do modelo
Surpreendentemente, desenhou um pelicano andando de bicicleta melhor do que o Opus 4.7
Veja o post de comparação do Simon Willison
- Reproduzi com o mesmo modelo (M1 Max 64GB, menos de 90 segundos) — imagem do resultado
  O meu resultado tinha sol e nuvens no céu, grama em forma de linhas verdes finas e um efeito de sol com halo
  Também havia uma expressão de “fluxo de ar” parecida com a do Simon, mas no fim o que importa é o pelicano e a bicicleta
- Resolvi testar graças ao link do GGUF
  Usei no projeto Shoggoth.db para tarefas de exploração de wiki + construção automática de DB
  Deu para sentir que a capacidade de explorar novos seres vivos melhorou em relação ao Qwen3.5
  A velocidade também aumentou para cerca de 140 token/s, e funcionou de forma estável numa RTX 4090 sem offload de memória
  Só foi preciso usar a opção --no-mmproj-offload para evitar conflitos multimodais
- Fico pensando quando testes como “pelicano andando de bicicleta” vão deixar de ser úteis
  A intenção original era avaliar a criatividade do modelo com prompts estranhos que ninguém tinha imaginado, mas agora parece que virou uma espécie de benchmark interno
- Não entendi por que o desenho do flamingo do Qwen venceu
  Ele está sentado em cima do pneu, a posição do bico está estranha, e a proporção entre raios da roda e pernas ficou esquisita
  Os óculos escuros também são semitransparentes, então só dá para ver um olho
  É fofo, mas acho que os laços e acessórios não solicitados acabam contando negativamente
  O resultado do Opus era menos chamativo, mas mais preciso
- Quanto mais olho essas imagens, mais acho que o world model ainda é a peça que falta no quebra-cabeça
  No fim das contas, os modelos atuais ainda parecem ser apenas geradores probabilísticos de frases
É bom ver a equipe do Qwen continuar lançando pesos abertos
Notícia relacionada 1, notícia 2
É impressionante que o projeto continue mesmo depois da saída de nomes importantes como Junyang Lin
- É apenas um dos modelos da série Qwen 3.6
  Os modelos menores provavelmente serão lançados em breve, mas o modelo principal 397A17B parece ter ficado de fora
- Pessoalmente, eu queria ver os pesos abertos do qwen-image 2.0
A Unsloth já tem uma versão com quantização e conversão concluídas
Link do Hugging Face
- A Unsloth costuma subir quants experimentais rapidamente, mas as versões logo após o lançamento geralmente são corrigidas depois
  Vale conferir de novo depois de uma semana para baixar uma versão mais estável
  Às vezes um modelo bom acaba sendo subestimado por causa de bugs iniciais
- Fico curioso por que o próprio Qwen não lança modelos quantizados
  Acho que o processo de quantização é complexo e tem risco de perda de qualidade, então talvez fosse melhor o próprio desenvolvedor original fazer isso
  Uma versão quantizada ruim pode acabar prejudicando a reputação do modelo
- Queria saber a exigência de VRAM. Queria entender se dá para rodar isso até numa GPU de 16GB
- Queria entender por que a quantização padrão do Qwen é ruim, quem é a Unsloth,
  e quais são as vantagens de um bom formato
  Também seria bom se explicassem o próprio conceito de quantização
- Queria saber se também dá para usar esse modelo com o comando ollama run claude
Gostei de ver esse lançamento da equipe do Qwen
Modelos pequenos de código com open weights são úteis para criar agentes personalizados em setores específicos (como finanças e saúde), para equipes de desenvolvimento com acesso restrito à nuvem
No Ocidente, quase ninguém atende esse mercado; a Mistral parece ser a única exceção
- A Mistral parece ser a única empresa buscando um modelo de negócios sustentável
  As outras empresas de IA passam a impressão de mirar só no lucro de curto prazo
- Modelos pequenos e abertos são divertidos, mas estão em outra categoria em relação aos grandes modelos hospedados
  Para trabalho sério, é melhor investir em hardware que permita rodar modelos maiores por conta própria
- Concordo, mas esses modelos pequenos ainda deixam a desejar para uso industrial real
  Mesmo com equipamentos na faixa de 100 mil dólares, já dá para rodar modelos maiores on-premises
- Fazer um modelo concorrente com open weights é ótimo, mas o custo é alto demais
- Em setores regulados, fico curioso sobre como verificar que o modelo não foi treinado com dados maliciosos
As características de embeddings de linguagem do Qwen são interessantes
Tweet com análise relacionada
Dizem que o Qwen, diferente de outros modelos, fica numa bacia de distribuição centrada em prova/teste
Um executivo do Qwen fez uma enquete no Twitter perguntando qual modelo o pessoal queria ver como open source,
e embora a versão 27B tenha sido a mais popular, ela não foi lançada
- Como aconteceu no 3.5, pode ser que eles liberem aos poucos depois de um processo de destilação
  Como a arquitetura A3B acelera a destilação, talvez saia em breve
- O 27B é um modelo dense, então em termos de marketing ele é menos atraente que o 35A3B
  Este último parece mais rápido e “inteligente”
- Provavelmente será lançado em breve
- Pessoalmente, acho a arquitetura MoE ineficiente
  Com a mesma VRAM, um modelo dense de 27B conseguiria lidar com contexto maior e teria qualidade melhor
Usei bastante o Qwen3.5-35B-A3B em testes locais,
e foi o modelo mais poderoso que consegui rodar no meu hardware
Especialmente as versões quantizadas Mudler APEX-I-Quality e Byteshape Q3_K_S-3.40bpw me impressionaram
Num ambiente com RTX 3060 12GB, sobrou memória e a velocidade também melhorou para mais de 40 t/s
- Depois de testar várias tarefas, o Qwen3.6 é um salto muito maior em relação ao 3.5
  Ele até conseguiu melhorar por conta própria projetos nos quais antes travava
- Queria saber qual versão quantizada é a melhor
Esse é o tipo de lançamento de software de IA que mais me anima
Sem marketing exagerado de risco, sem assinatura, só um modelo que dá vontade de usar
- Penso a mesma coisa. Espero que em um futuro próximo os modelos locais e o desempenho do hardware evoluam o suficiente para se tornarem práticos na maioria dos casos de uso
Fico curioso sobre como as pessoas realmente usam esses modelos locais
Queria entender qual é o valor disso em comparação com alugar tokens da Anthropic ou da OpenAI
- Estou usando o Qwen3.5-9B para extração local de tabelas por OCR
  Como os formatos dos documentos variam muito, antes eu usava um pipeline complexo baseado em regras,
  mas agora a capacidade multimodal permite extração combinando linguagem e visão
- Eu uso o Qwen3.5-4B junto com o Frigate, um NVR FOSS
  Ele é bom o suficiente para análise de vídeo, e deixo resumo de texto ou tradução para modelos maiores
  Quando não é em tempo real, a qualidade importa mais que a velocidade, então ele é ideal para processamento em lote
- Eu não quero depender para sempre de um modelo de aluguel de tokens
  Quero um modelo totalmente privado e self-hosted
  Já estou cansado de serviços SaaS sendo descontinuados, então acho que os LLMs também vão acabar indo para o self-hosting
- Já processei em lote milhões de documentos com vLLM + qwen3-coder-next
  Foi possível usar 100% da GPU sem limite de tokens nem limitação de velocidade
- Nem toda tarefa precisa de um modelo SOTA
  Por exemplo, uso o Gemma 4 como tradutor offline no iPhone,
  e ele é mais rápido e mais preciso que o Apple Translate
  Em coisas pequenas, como edição de JSON, um modelo local é muito mais eficiente

Qwen3.6-35B-A3B: desempenho de codificação agentic agora aberto para todos os usuários

Visão geral do Qwen3.6-35B-A3B

Avaliação de desempenho

Desempenho em linguagem e codificação

Ambiente de avaliação

Desempenho visão-linguagem

Uso do Qwen3.6-35B-A3B

Implantação e acesso

Uso da API

Integração com OpenClaw

Integração com Qwen Code

Integração com Claude Code

Resumo e perspectivas

Informações de citação

Leituras relacionadas

1 comentários

Comentários do Hacker News