- Sucessor do Qwen3.6-Plus, com melhorias em relação à versão anterior em codificação agêntica, conhecimento de mundo mais robusto e capacidade de seguir instruções
- Registrou a maior pontuação em 6 benchmarks principais de código, confirmando um grande avanço no desempenho de agentes de codificação
- Suporta o recurso preserve_thinking, que preserva no histórico de mensagens o processo de raciocínio dos turnos anteriores durante tarefas agênticas
- Nos benchmarks de conhecimento de mundo, houve melhora de SuperGPQA +2.3 e QwenChineseBench +5.3; em seguimento de instruções, registrou ToolcallFormatIFBench +2.8
- Pode ser testado de forma interativa no Qwen Studio e será chamado como
qwen3.6-max-previewvia API do Alibaba Cloud Model Studio
Principais melhorias
- Em comparação com o Qwen3.6-Plus, a capacidade de codificação agêntica melhorou significativamente: SkillsBench +9.9, SciCode +6.3, NL2Repo +5.0, Terminal-Bench 2.0 +3.8
- Conhecimento de mundo (world knowledge) aprimorado: SuperGPQA +2.3, QwenChineseBench +5.3
- Melhoria em execução de instruções (instruction following): ToolcallFormatIFBench +2.8
- Alcançou a maior pontuação em 6 benchmarks principais de código: SWE-bench Pro, Terminal-Bench 2.0, SkillsBench, QwenClawBench, QwenWebBench, SciCode
Características do modelo e abordagem
- Modelo hospedado exclusivo fornecido via Alibaba Cloud Model Studio
- Melhorias no desempenho de agentes reais (real-world agent) e na confiabilidade do conhecimento (knowledge reliability)
- Pode ser testado imediatamente de forma interativa no Qwen Studio
- O nome do modelo na API é
qwen3.6-max-previewe estará disponível em breve na API do Alibaba Cloud Model Studio
Uso da API e recursos
- Suporte a protocolos padrão do setor, como APIs OpenAI-compatíveis de chat completions e responses, além de interfaces compatíveis com Anthropic
- Com o recurso
preserve_thinking, é possível preservar o processo de raciocínio (reasoning content) dos turnos anteriores, sendo recomendado para tarefas agênticas - Ao definir
enable_thinking: True, é possível receber separadamente, em streaming, o conteúdo de raciocínio e a resposta - Base URLs da API disponíveis por região: Pequim, Singapura e EUA (Virgínia)
Estado de desenvolvimento
- Atualmente em fase de preview release, com melhorias iterativas contínuas, e mais aprimoramentos estão previstos para versões futuras
1 comentários
Comentários do Hacker News
Acho meio engraçado como as pessoas ficam obcecadas só com comparações de SOTA. Já vi casos em que o glm 5.1 conseguiu fazer coisas que o Opus não conseguia, e também passei por situações em que ele programou melhor. Ainda não usei o qwen max, mas também já vi um modelo local 122b ler documentação melhor e processá-la com mais precisão. No fim, benchmark é só uma parte da história; na prática, cada modelo tem seus próprios pontos fortes, então acho que não faz sentido falar disso como se fosse comparar martelo e chave inglesa em termos de superioridade simples
Estou usando Claude Code de forma constante na empresa há alguns meses e, há pouco tempo, também aproveitei bem em um pequeno projeto pessoal de site. No último fim de semana, tentei self-hosting pela primeira vez. Gostaria de saber se alguém, depois de usar bastante CC ou Codex e ficar razoavelmente satisfeito, encontrou alguma configuração self-hosted que prestasse. Eu testei várias combinações de ollama, docker desktop model runner, pi-coding-agent, opencode e Gemma 4, Qwen, GLM-5.1 num ambiente com 32GB DDR5, AMD 7800X3D, RTX 4090, Windows e WSL. O uso base de RAM já era alto, então não consegui rodar modelos bons como o Gemma4-31B. Em Windows puro, o tratamento de caminhos de arquivo quebrava com frequência, e rodar pi ou opencode no WSL com os modelos no docker desktop funcionou até que razoavelmente. Mesmo assim, a sensação de desempenho real era lenta demais comparada ao CC, e a qualidade das ferramentas também pareceu muito melhor no lado do harness do CC. Acabei gastando tempo demais na configuração e não consegui usar por muito tempo de verdade, mas ainda assim foi um experimento divertido
Fico preocupado porque parece que esta área está indo na direção de liberar coisas grátis primeiro para ganhar nome e depois transformar tudo em proprietary. Mesmo assim, espero que open weights continue existindo. Vai ser realmente triste se chegar o dia em que ninguém mais lançar open weights. Se esse mundo chegar, acho que vai ficar mais difícil para as pessoas comuns terem seu próprio compute
Como o Kimi K2.6 também saiu hoje, acho bem natural comparar os dois. Só pelos preços, o Qwen parece mais caro: 1,3 dólar de entrada e 7,8 dólares de saída, enquanto o Kimi custa 0,95 dólar de entrada e 4 dólares de saída. O post de anúncio tem só dois benchmarks em comum, e em ambos — SWE-Bench Pro e Terminal-Bench 2.0 — o Kimi ficou ligeiramente acima do Qwen. Claro que cada modelo tem seus pontos fortes e benchmark não é tudo, mas, olhando só para os números, o Kimi parece mais atraente
A ironia deste anúncio, para mim, está no próprio nome. Max-Preview é proprietary e cloud-only. Na minha visão, o Qwen realmente importante é a linha de open weights que as pessoas rodam no próprio hardware. Eu rodo 32B e 72B localmente com dual A4000. Ainda existe uma diferença para o Max hospedado, mas dá para ver essa distância diminuindo a cada release. Então a pergunta realmente interessante não é tanto como o Max se compara ao Opus, e sim quando a camada open-weight vai tornar a camada cloud irrelevante para a maioria das cargas de trabalho
Enquanto todo mundo corre atrás do SOTA, eu faço todo o meu trabalho de programação por 10 dólares por mês com várias sessões paralelas no MiniMax M2.5 e quase nunca bato nos limites
Li a documentação de context caching do Qwen e também testei Opus, Codex e Qwen juntos, e sinto que o Qwen realmente é forte em muitas tarefas de programação. Mas o que mais me importa é o comportamento em sessões longas. O Qwen destaca sua grande janela de contexto, mas a eficiência real em contexto longo parece depender muito da forma como o context caching funciona. Pela documentação oficial, ele oferece tanto implicit quanto explicit caching, mas o TTL é curto, de poucos minutos, e há restrições como correspondência baseada em prefixo e condição mínima de tokens. Por causa dessas limitações, em workflows como agentes de programação, em que o contexto cresce continuamente, o reaproveitamento de cache pode não funcionar tão bem quanto se espera. Então, mesmo que o preço por token pareça baixo, em sessões longas a cache hit rate pode cair, a recomputação aumenta e o custo percebido acaba parecendo maior. Ainda assim, em trabalhos ligados à segurança, pessoalmente já vi o Qwen se sair melhor que o Opus. Pela minha experiência, o Qwen é muito melhor que o Opus em tarefas curtas, como no nível de método ou função isolada, mas, olhando a experiência geral de programação, ele me parece mais um gerador em nível de função do que um assistente autônomo de programação end-to-end como o Claude
Quando vejo a Qwen comparando com Opus 4.5, acho difícil interpretar isso totalmente de boa-fé. Entendo não incluírem o Opus 4.7 por ser muito recente, mas o Opus 4.6 já existe há um bom tempo
Olhando para os fornecedores chineses recentemente, sinto que existe um padrão. O primeiro é caminhar para manter os modelos como closed source, e o segundo é aumentar bastante os preços. Em alguns casos, a alta chega perto de 100%
O engraçado é que dá para conhecer toda a linha de modelos Qwen que rodam localmente e, ao mesmo tempo, não saber absolutamente nada da parte de modelos em nuvem. Eu conhecia só a linha 3.5 e talvez um 3.6, e o nome Plus foi a primeira vez que vi