Qwen3.6-35B-A3B: poder de codificação agentic, agora aberto a todos

(qwen.ai)

25 pontos por ragingwind 13 일 전 | 2 comentários | Compartilhar no WhatsApp

É um modelo de linguagem de grande porte que a equipe Qwen, da Alibaba, lançou como open source em abril de 2026. Ele usa a arquitetura MoE (Mixture-of-Experts). MoE é uma abordagem em que vários “especialistas” existem dentro do modelo, e apenas alguns deles são selecionados e ativados cada vez que uma entrada é recebida. O total de parâmetros é de 35 bilhões, mas apenas 3 bilhões são usados na inferência real, então ele opera com cerca de 8,6% da capacidade total. É também um modelo multimodal que entende não só texto, mas também imagens e vídeos, e oferece tanto o modo Thinking, que mostra o processo de raciocínio, quanto o modo Non-thinking, que responde diretamente.

Conteúdo principal

Em comparação com o modelo anterior, Qwen3.5-35B-A3B, houve uma grande melhora no desempenho em codificação agentic (uma forma autônoma de programação em que a IA explora arquivos por conta própria, executa comandos no terminal e diagnostica e corrige bugs)
Com 73,4 no SWE-bench Verified (avaliação de correção de bugs reais de software) e 51,5 no Terminal-Bench 2.0, supera em vários itens o Qwen3.5-27B, um modelo Dense muito maior em parâmetros (estrutura tradicional em que todos os parâmetros são usados)
É comparável ao modelo Dense de 27B em matemática competitiva (AIME 2026), com 92,7, e em codificação em tempo real (LiveCodeBench v6), com 80,4
Na área multimodal, supera o Claude Sonnet 4.5 (modelo comercial pago) com 81,7 no MMMU e 85,3 no RealWorldQA, e é especialmente forte em inteligência espacial, como no reconhecimento da posição de objetos em imagens (RefCOCO 92,0)
Pode ser integrado imediatamente com ferramentas de codificação de terceiros como OpenClaw, Claude Code e Qwen Code, e também é compatível com o protocolo de API da Anthropic

Vantagens

Com 3B de parâmetros ativos, entrega desempenho comparável ao de modelos Dense de 27~31B, o que reduz o uso de memória GPU e o consumo de energia, permitindo operação também em ambientes menores
Está entre os melhores da categoria em benchmarks de codificação agentic de forma geral
Processa texto, imagens, vídeos e documentos em um único modelo
É totalmente open source, permitindo que qualquer pessoa faça download, ajuste fino adicional e customize o modelo

Desvantagens

Em tarefas gerais de agente (35,6 no VITA-Bench), fica abaixo do modelo Dense anterior de 27B (41,8), então ainda há espaço para melhorias
Também fica atrás de grandes modelos Dense em raciocínio acadêmico de altíssima dificuldade (21,4 no HLE, contra 24,3)
Tem pequena desvantagem no benchmark de conhecimento MMLU-Pro
A API ainda está em estado de “coming soon”, o que dificulta a aplicação imediata em serviços de grande escala

Diferenciais

Supera com folga em quase todos os benchmarks o Google Gemma4-26B-A4B, que usa uma estrutura MoE semelhante
A função preserve_thinking, que preserva o conteúdo de raciocínio de turnos anteriores da conversa durante tarefas de agente, é vantajosa para manter contexto de longo prazo
Também é compatível com o protocolo de API da Anthropic, o que permite entrada imediata no ecossistema do Claude Code

Implicações

Resultados comparáveis aos de um modelo de 27B com apenas 3B de parâmetros ativos mostram que a arquitetura MoE está se tornando um novo padrão de eficiência em IA
Como um modelo open source está vencendo um modelo pago como o Claude Sonnet 4.5 em vários itens, cresce o incentivo para que empresas migrem de APIs caras para hospedagem própria
Como a composição dos benchmarks dá peso muito alto à codificação agentic, isso sugere que o setor vê a capacidade autônoma de desenvolvimento de software da IA como o critério de avaliação mais importante

2 comentários

jeeeyul 11 일 전

Segundo os resultados dos testes do nosso laboratório, este é um modelo que uma equipe Qwen sem a equipe Qwen lançou às pressas, ajustado apenas para benchmarks, para administrar a ansiedade do mercado. A obsessão por ferramentas é forte demais. Consideramos um retrocesso em relação ao 3.5.

woung717 12 일 전

Estou testando a versão 3.5 no Mac, e a melhora de inteligência em relação às gerações anteriores é realmente impressionante. Só de ter alcançado até o Oss 120b já diz tudo.