- Lançado como um modelo multimodal dense de 27 bilhões de parâmetros, com suporte conjunto a modos thinking e non-thinking e processamento de imagens e vídeos em um único checkpoint unificado
- O desempenho em agentic coding supera o flagship open source da geração anterior, Qwen3.5-397B-A17B, nos principais benchmarks de codificação, e até ultrapassa modelos com até 15 vezes mais parâmetros no total
- Registrou 77.2 no SWE-bench Verified, 53.5 no SWE-bench Pro, 59.3 no Terminal-Bench 2.0 e 48.2 no SkillsBench; também foram divulgadas métricas de raciocínio em texto e STEM como 87.8 no GPQA Diamond e 94.1 no AIME26
- Com a adoção de uma arquitetura dense, elimina a complexidade de roteamento de MoE e simplifica o deployment, além de oferecer pesos abertos, API, uso imediato no Qwen Studio e suporte a integração com OpenClaw, Qwen Code e Claude Code
- Mostra que um modelo dense bem treinado pode superar uma geração anterior muito maior em tarefas centrais para desenvolvedores, além de ampliar o foco da linha Qwen3.6 em agentic coding
Visão geral
- Qwen3.6-27B foi lançado como um modelo multimodal dense de 27 bilhões de parâmetros, com suporte tanto a modo multimodal thinking quanto non-thinking
- Em agentic coding, supera o flagship open source da geração anterior, Qwen3.5-397B-A17B, nos principais benchmarks de codificação
- Ao adotar uma arquitetura dense sem a complexidade de roteamento do MoE, simplifica o deployment e entrega desempenho de codificação de ponta em uma escala prática e amplamente distribuível
- Já está disponível para uso imediato no Qwen Studio, com pesos abertos para a comunidade e acesso via API
- Entre as características centrais estão agentic coding em nível flagship, forte raciocínio textual e capacidades de raciocínio multimodal
Desempenho
- O Qwen3.6-27B foi avaliado de forma abrangente contra modelos de referência dense e MoE, com grande avanço em benchmarks de agentic coding
- É declarado que ele supera até modelos com 15 vezes mais parâmetros no total
- Os itens de avaliação abrangem linguagem, conhecimento, STEM e raciocínio, visão-linguagem, compreensão de documentos, compreensão de vídeo e visual agent
-
Linguagem
- Com apenas 27 bilhões de parâmetros, supera o Qwen3.5-397B-A17B em todos os principais benchmarks de codificação
- SWE-bench Verified 77.2 vs 76.2
- SWE-bench Pro 53.5 vs 50.9
- Terminal-Bench 2.0 59.3 vs 52.5
- SkillsBench 48.2 vs 30.0
- Também fica bem à frente de outros modelos dense de porte semelhante
- Em tarefas de raciocínio, registra 87.8 pontos no GPQA Diamond, um nível competitivo com modelos várias vezes maiores da própria empresa
- A tabela detalhada inclui comparações entre Qwen3.5-27B, Qwen3.5-397B-A17B, Gemma4-31B, Claude 4.5 Opus, Qwen3.6-35B-A3B e Qwen3.6-27B
- Principais números da categoria Coding Agent
- SWE-bench Multilingual 71.3
- QwenWebBench 1487
- NL2Repo 36.2
- Claw-Eval Avg 72.4
- Claw-Eval Pass^3 60.6
- QwenClawBench 53.4
- Principais números da categoria Knowledge
- MMLU-Pro 86.2
- MMLU-Redux 93.5
- SuperGPQA 66.0
- C-Eval 91.4
- Principais números da categoria STEM e raciocínio
- HLE 24.0
- LiveCodeBench v6 83.9
- HMMT Feb 25 93.8
- HMMT Nov 25 90.7
- HMMT Feb 26 84.3
- IMOAnswerBench 80.8
- AIME26 94.1
- Com apenas 27 bilhões de parâmetros, supera o Qwen3.5-397B-A17B em todos os principais benchmarks de codificação
-
Configuração das avaliações de linguagem
- A SWE-Bench Series usa scaffold interno de agent, ferramentas bash e de edição de arquivos, com temp 1.0, top_p 0.95 e janela de contexto de 200K
- Todos os modelos de referência foram avaliados em um benchmark refinado que corrige algumas tarefas problemáticas do conjunto público SWE-bench Pro
- O Terminal-Bench 2.0 usa harness Harbor ou Terminus-2
- timeout de 3 horas, 32 CPU, 48 GB de RAM
- temp 1.0, top_p 0.95, top_k 20, max_tokens 80K, ctx 256K
- média de 5 execuções
- O SkillsBench avalia 78 tarefas com OpenCode
- subset autocontido, excluindo tarefas dependentes de API
- média de 5 execuções
- As avaliações de outros modelos no NL2Repo usam Claude Code
- temp 1.0, top_p 0.95, max_turns 900
- O QwenClawBench é um benchmark do agente Claw baseado na distribuição de uso real dos usuários
- temp 0.6, ctx 256K
- O QwenWebBench é um benchmark interno de geração de código frontend
- composição bilíngue em EN e CN
- 7 categorias: Web Design, Web Apps, Games, SVG, Data Visualization, Animation e 3D
- a avaliação usa auto-render e judge multimodal para verificar código e consistência visual
- usa sistema de rating BT ou Elo
- O AIME 26 usa integralmente o AIME 2026 I e II
- é informado que a pontuação pode diferir das notas do Qwen 3.5
- A SWE-Bench Series usa scaffold interno de agent, ferramentas bash e de edição de arquivos, com temp 1.0, top_p 0.95 e janela de contexto de 200K
-
Visão-linguagem
- O Qwen3.6-27B suporta modos de thinking e non-thinking em visão-linguagem em um único checkpoint unificado
- Processa imagens e vídeos junto com texto
- Dá suporte a raciocínio multimodal, compreensão de documentos e tarefas de visual question answering
- A tabela comparativa usa Qwen3.5-27B, Qwen3.5-397B-A17B, Gemma4-31B, Claude 4.5 Opus, Qwen3.6-35B-A3B e Qwen3.6-27B como referência
-
STEM e puzzles
- MMMU 82.9
- MMMU-Pro 75.8
- MathVista mini 87.4
- DynaMath 85.6
- VlmsAreBlind 97.0
-
VQA geral
- RealWorldQA 84.1
- MMStar 81.4
- MMBench EN-DEV-v1.1 92.3
- SimpleVQA 56.1
-
Compreensão de documentos
- CharXiv RQ 78.4
- CC-OCR 81.2
- OCRBench 89.4
-
Inteligência espacial
- ERQA 62.5
- CountBench 97.8
- RefCOCO avg 92.5
- EmbSpatialBench 84.6
- RefSpatialBench 70.0
-
Compreensão de vídeo
- VideoMME(w sub.) 87.7
- VideoMMMU 84.4
- MLVU 86.6
- MVBench 75.5
-
Visual Agent
- V* 94.7
- AndroidWorld 70.3
-
Observação
- Os campos em branco (--) na tabela significam que ainda não há pontuação ou que não se aplica
Uso do Qwen3.6-27B
- É informado que o suporte no Alibaba Cloud Model Studio será disponibilizado em breve
- Os pesos abertos estão disponíveis no Hugging Face e no ModelScope, com possibilidade de self-hosting
- Há acesso via API do Alibaba Cloud Model Studio e caminho para teste imediato no Qwen Studio
- Também há suporte a integração com assistentes de codificação de terceiros como OpenClaw, Claude Code e Qwen Code
- É mencionada a simplificação do workflow de desenvolvimento e suporte a uma context-aware coding experience
-
Uso via API
- Esta release oferece suporte ao recurso
preserve_thinking - Trata-se de uma função que preserva o conteúdo de thinking gerado em todos os turnos anteriores da conversa, recomendada para agentic task
- Esta release oferece suporte ao recurso
-
Alibaba Cloud Model Studio
- Suporte a chat completions e responses API compatíveis com o padrão OpenAI
- Também há suporte a interface de API compatível com Anthropic
- A documentação oficial fornece exemplos de variáveis de ambiente
DASHSCOPE_API_KEYDASHSCOPE_BASE_URLDASHSCOPE_MODEL
- Também são mostrados exemplos de Base URL por região
- No código de exemplo, o nome de modelo padrão é
qwen3.6-27b - Em
extra_body, incluienable_thinking: Truepreserve_thinking: Trueaparece em forma de comentário
- Há exemplo de resposta em streaming separando a coleta de reasoning_content e answer content
- Para mais informações, é indicado consultar o link da API doc
-
Coding & Agents
- O Qwen3.6-27B tem capacidade de agentic coding e pode ser integrado de forma fluida com OpenClaw, Claude Code e Qwen Code
-
OpenClaw
- OpenClaw é um agente open source de AI coding self-hosted, anteriormente chamado Moltbot ou Clawdbot
- Conectado ao Model Studio, oferece uma experiência completa de agentic coding no terminal
- O script inicial inclui Node.js 22+, execução do script de instalação, configuração de
DASHSCOPE_API_KEYe execução deopenclaw dashboardouopenclaw tui - No primeiro uso, é preciso editar
~/.openclaw/openclaw.json- É explicitamente indicado que não se deve sobrescrever o arquivo inteiro
- Para preservar as configurações existentes, devem ser mesclados apenas os campos necessários
- A configuração de exemplo inclui o provider
modelstudioe o modeloqwen3.6-27bapiéopenai-completionsreasoningé true- Os tipos de entrada são
text,image contextWindowé 131072maxTokensé 16384- O modelo primary padrão é
modelstudio/qwen3.6-27b
-
Qwen Code
- Qwen Code é um agente open source para terminal, profundamente otimizado para a série Qwen
- O script inicial inclui Node.js 20+, instalação de
@qwen-code/qwen-code@lateste execução deqwen - Dentro da sessão, são mostrados exemplos de uso dos comandos
/helpe/auth - No primeiro uso, aparece um prompt de login, e é possível alternar o método de autenticação com
/auth
-
Claude Code
- As Qwen APIs também suportam o protocolo de API da Anthropic
- É informado que podem ser usadas com ferramentas como Claude Code
- O exemplo de configuração inclui as seguintes variáveis de ambiente
ANTHROPIC_MODEL="qwen3.6-27b"ANTHROPIC_SMALL_FAST_MODEL="qwen3.6-27b"ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropicANTHROPIC_AUTH_TOKEN=<your_api_key>
- O comando de execução é
claude
Encerramento
- O Qwen3.6-27B demonstra que um modelo dense bem treinado pode superar uma geração anterior muito maior em tarefas importantes para desenvolvedores
- Mesmo com 27 bilhões de parâmetros, supera o Qwen3.5-397B-A17B em todos os principais benchmarks de agentic coding
- Sua estrutura simplifica deployment e operação, e a linha open source Qwen3.6 passa a cobrir uma gama mais ampla de configurações de modelos com a adição do Qwen3.6-27B
4 comentários
Teria que ser A3B pra pelo menos rodar um pouco localmente haha
Dizem que os benchmarks são bons, mas no uso real ainda não parece estar num nível utilizável como agente de programação.
Eu usei e não há grandes problemas para codificação agêntica. No entanto, como você disse, em uso real + programação geral ele inevitavelmente fica atrás de modelos com mais parâmetros. As configurações são diferentes da 3.5 e o modo
preserve_thinkingtambém foi adicionado, então vale ter isso em mente. Algo como a quantização 4bit de 27B não apresentou problemas para uso local.Comentários no Hacker News
unsloth/Qwen3.6-27B-GGUF:Q4_K_Mcomllama-server, e o modelo 35B-A3B ficou em cerca de 25 t/s. Para comparar, num A100 foram algo como 41 t/s e 97 t/s, respectivamente. Ainda não testei o 27B por muito tempo, mas o 35B-A3B frequentemente saía dos trilhos quando o contexto passava de 15k~20k tokens. Dá para usar em tarefas básicas com estabilidade, mas eu não diria que isso está no nível de modelos frontier