- Um modelo open source com arquitetura esparsa Mixture-of-Experts (MoE), em que apenas 3 bilhões de um total de 35 bilhões de parâmetros são ativados, alcançando eficiência e desempenho ao mesmo tempo
- Em comparação com a geração anterior, sua capacidade de codificação agentic melhorou significativamente, mostrando um nível competitivo com grandes modelos densos como Qwen3.5-27B e Gemma4-31B
- Registrou pontuações altas em importantes benchmarks de codificação como SWE-bench, Terminal-Bench e Claw-Eval, e também alcançou desempenho no nível do Claude Sonnet 4.5 em tarefas multimodais
- Pesos abertos e acesso via API estão disponíveis por meio do Alibaba Cloud Model Studio API, Hugging Face e ModelScope, com suporte de integração a várias ferramentas de codificação como OpenClaw e Claude Code
- Apresenta um novo padrão para modelos abertos eficientes ao igualar grandes modelos com apenas 3 bilhões de parâmetros ativos
Visão geral do Qwen3.6-35B-A3B
- Qwen3.6-35B-A3B é um modelo esparso Mixture-of-Experts (MoE) em que apenas 3 bilhões de um total de 35 bilhões de parâmetros são ativados, combinando eficiência e desempenho em um modelo open source
- Em relação à versão anterior, o Qwen3.5-35B-A3B, o desempenho em codificação agentic (agentic coding) melhorou bastante, alcançando um nível competitivo com grandes modelos densos como Qwen3.5-27B e Gemma4-31B
- Suporta tanto raciocínio multimodal quanto modo sem raciocínio, e está disponível via Qwen Studio, API, Hugging Face e ModelScope
- O modelo pode ser usado de forma interativa no Qwen Studio, chamado pela Alibaba Cloud Model Studio API (
qwen3.6-flash) ou hospedado diretamente
Avaliação de desempenho
-
Desempenho em linguagem e codificação
- O Qwen3.6-35B-A3B supera o Qwen3.5-27B (modelo denso com 27 bilhões de parâmetros) em vários benchmarks importantes de codificação usando apenas 3 bilhões de parâmetros ativos
- Obteve pontuações altas como SWE-bench Verified 73.4, Terminal-Bench 51.5 e média 68.7 no Claw-Eval
- No QwenWebBench (benchmark de geração de código web), registrou 1397 pontos, um dos melhores níveis da categoria
- Também apresentou resultados superiores aos modelos concorrentes em benchmarks gerais de agentes, como MCPMark, MCP-Atlas e WideSearch
- Manteve alta precisão também em MMLU-Pro, GPQA, AIME26 e outros testes de conhecimento e raciocínio
-
Ambiente de avaliação
- A série SWE-Bench foi avaliada com base em um scaffold interno de agente (ferramentas bash + edição de arquivos) em uma janela de contexto de 200K
- O Terminal-Bench 2.0 foi medido pela média de 5 execuções, com limite de 3 horas, em ambiente com 32 CPU/48GB RAM
- O SkillsBench foi avaliado em 78 tarefas, excluindo trabalhos dependentes de API
- QwenClawBench e QwenWebBench são benchmarks internos baseados em distribuição de uso real, refletindo ambientes reais de usuários
-
Desempenho visão-linguagem
- O Qwen3.6-35B-A3B é um modelo multimodal nativo que alcança desempenho no nível do Claude Sonnet 4.5 com apenas 3 bilhões de parâmetros ativos
- Mostra força em inteligência espacial com RefCOCO (cognição espacial) 92.0 e ODInW13 50.8
- Também obteve pontuações altas em várias tarefas de visão-linguagem, como RealWorldQA 85.3, MMBench EN-DEV 92.8 e OmniDocBench1.5 89.9
- Em benchmarks de compreensão de vídeo (VideoMME, VideoMMMU, MLVU etc.), manteve pontuações na faixa de 80 a 86, demonstrando desempenho estável
Uso do Qwen3.6-35B-A3B
-
Implantação e acesso
- Disponível via Alibaba Cloud Model Studio API (
qwen3.6-flash), com download de pesos abertos no Hugging Face e no ModelScope - Pode ser testado imediatamente no Qwen Studio e oferece integração com assistentes de codificação de terceiros como OpenClaw, Claude Code e Qwen Code
- Disponível via Alibaba Cloud Model Studio API (
-
Uso da API
- Suporta o recurso
preserve_thinking, que mantém o conteúdo de thinking de conversas anteriores, sendo adequado para tarefas agentic - O Alibaba Cloud Model Studio oferece uma chat completions API compatível com os padrões das APIs da OpenAI e da Anthropic
- No código de exemplo, a opção
enable_thinkingpermite exibir separadamente o processo de raciocínio (reasoning trace) e a resposta final
- Suporta o recurso
-
Integração com OpenClaw
- O Qwen3.6-35B-A3B é compatível com OpenClaw (antigo Moltbot/Clawdbot) e, ao se conectar ao Model Studio, fornece um ambiente de codificação agentic baseado em terminal
- É usado mesclando as informações da API do Model Studio ao arquivo de configuração (
~/.openclaw/openclaw.json) - Pode ser instalado e executado em ambientes com Node.js 22 ou superior
-
Integração com Qwen Code
- Totalmente compatível com Qwen Code (agente de IA open source para terminal) otimizado para a série Qwen
- Após a instalação em Node.js 20 ou superior, a autenticação é feita com o comando
/auth
-
Integração com Claude Code
- Como suporta o protocolo da API da Anthropic, também pode ser usado diretamente no Claude Code
- Basta definir a variável de ambiente
ANTHROPIC_MODEL="qwen3.6-flash"e executar a CLI
Resumo e perspectivas
- O Qwen3.6-35B-A3B prova que uma arquitetura MoE esparsa também pode oferecer capacidade de codificação agentic e raciocínio comparável à de grandes modelos densos
- Com 3 bilhões de parâmetros ativos, entrega eficiência e desempenho ao mesmo tempo, além de mostrar resultados excelentes em benchmarks multimodais
- Publicado como checkpoint totalmente open source, apresenta um novo padrão para modelos abertos eficientes
- A equipe Qwen pretende continuar expandindo a família open source Qwen3.6 e espera feedback e adoção da comunidade
Informações de citação
@misc{qwen36_35b_a3b, title = {Qwen3.6-35B-A3B: Agentic Coding Power, Now Open to All}, url = {https://qwen.ai/blog?id=qwen3.6-35b-a3b}, author = {Qwen Team}, month = {April}, year = {2026}}
1 comentários
Comentários do Hacker News
Testei a versão Unsloth 20.9GB GGUF no meu notebook com o LM Studio
Link do modelo
Surpreendentemente, desenhou um pelicano andando de bicicleta melhor do que o Opus 4.7
Veja o post de comparação do Simon Willison
O meu resultado tinha sol e nuvens no céu, grama em forma de linhas verdes finas e um efeito de sol com halo
Também havia uma expressão de “fluxo de ar” parecida com a do Simon, mas no fim o que importa é o pelicano e a bicicleta
Usei no projeto Shoggoth.db para tarefas de exploração de wiki + construção automática de DB
Deu para sentir que a capacidade de explorar novos seres vivos melhorou em relação ao Qwen3.5
A velocidade também aumentou para cerca de 140 token/s, e funcionou de forma estável numa RTX 4090 sem offload de memória
Só foi preciso usar a opção
--no-mmproj-offloadpara evitar conflitos multimodaisA intenção original era avaliar a criatividade do modelo com prompts estranhos que ninguém tinha imaginado, mas agora parece que virou uma espécie de benchmark interno
Ele está sentado em cima do pneu, a posição do bico está estranha, e a proporção entre raios da roda e pernas ficou esquisita
Os óculos escuros também são semitransparentes, então só dá para ver um olho
É fofo, mas acho que os laços e acessórios não solicitados acabam contando negativamente
O resultado do Opus era menos chamativo, mas mais preciso
No fim das contas, os modelos atuais ainda parecem ser apenas geradores probabilísticos de frases
É bom ver a equipe do Qwen continuar lançando pesos abertos
Notícia relacionada 1, notícia 2
É impressionante que o projeto continue mesmo depois da saída de nomes importantes como Junyang Lin
Os modelos menores provavelmente serão lançados em breve, mas o modelo principal 397A17B parece ter ficado de fora
A Unsloth já tem uma versão com quantização e conversão concluídas
Link do Hugging Face
Vale conferir de novo depois de uma semana para baixar uma versão mais estável
Às vezes um modelo bom acaba sendo subestimado por causa de bugs iniciais
Acho que o processo de quantização é complexo e tem risco de perda de qualidade, então talvez fosse melhor o próprio desenvolvedor original fazer isso
Uma versão quantizada ruim pode acabar prejudicando a reputação do modelo
e quais são as vantagens de um bom formato
Também seria bom se explicassem o próprio conceito de quantização
ollama run claudeGostei de ver esse lançamento da equipe do Qwen
Modelos pequenos de código com open weights são úteis para criar agentes personalizados em setores específicos (como finanças e saúde), para equipes de desenvolvimento com acesso restrito à nuvem
No Ocidente, quase ninguém atende esse mercado; a Mistral parece ser a única exceção
As outras empresas de IA passam a impressão de mirar só no lucro de curto prazo
Para trabalho sério, é melhor investir em hardware que permita rodar modelos maiores por conta própria
Mesmo com equipamentos na faixa de 100 mil dólares, já dá para rodar modelos maiores on-premises
As características de embeddings de linguagem do Qwen são interessantes
Tweet com análise relacionada
Dizem que o Qwen, diferente de outros modelos, fica numa bacia de distribuição centrada em prova/teste
Um executivo do Qwen fez uma enquete no Twitter perguntando qual modelo o pessoal queria ver como open source,
e embora a versão 27B tenha sido a mais popular, ela não foi lançada
Como a arquitetura A3B acelera a destilação, talvez saia em breve
Este último parece mais rápido e “inteligente”
Com a mesma VRAM, um modelo dense de 27B conseguiria lidar com contexto maior e teria qualidade melhor
Usei bastante o Qwen3.5-35B-A3B em testes locais,
e foi o modelo mais poderoso que consegui rodar no meu hardware
Especialmente as versões quantizadas Mudler APEX-I-Quality e Byteshape Q3_K_S-3.40bpw me impressionaram
Num ambiente com RTX 3060 12GB, sobrou memória e a velocidade também melhorou para mais de 40 t/s
Ele até conseguiu melhorar por conta própria projetos nos quais antes travava
Esse é o tipo de lançamento de software de IA que mais me anima
Sem marketing exagerado de risco, sem assinatura, só um modelo que dá vontade de usar
Fico curioso sobre como as pessoas realmente usam esses modelos locais
Queria entender qual é o valor disso em comparação com alugar tokens da Anthropic ou da OpenAI
Como os formatos dos documentos variam muito, antes eu usava um pipeline complexo baseado em regras,
mas agora a capacidade multimodal permite extração combinando linguagem e visão
Ele é bom o suficiente para análise de vídeo, e deixo resumo de texto ou tradução para modelos maiores
Quando não é em tempo real, a qualidade importa mais que a velocidade, então ele é ideal para processamento em lote
Quero um modelo totalmente privado e self-hosted
Já estou cansado de serviços SaaS sendo descontinuados, então acho que os LLMs também vão acabar indo para o self-hosting
Foi possível usar 100% da GPU sem limite de tokens nem limitação de velocidade
Por exemplo, uso o Gemma 4 como tradutor offline no iPhone,
e ele é mais rápido e mais preciso que o Apple Translate
Em coisas pequenas, como edição de JSON, um modelo local é muito mais eficiente