Qwen3.6-Plus: em direção a agentes do mundo real

(qwen.ai)

7 pontos por GN⁺ 27 일 전 | 1 comentários | Compartilhar no WhatsApp

Qwen3.6-Plus é um modelo com grande upgrade lançado após o Qwen3.5, reforçando significativamente as capacidades de codificação orientada a agentes e o desempenho de raciocínio multimodal
Oferece suporte a janela de contexto de 1M tokens e pode ser usado imediatamente via Alibaba Cloud Model Studio API
Alcança desempenho de nível líder do setor em benchmarks de código, linguagem, multimodalidade e agentes, além de melhorar a capacidade de gerenciar código complexo e executar planejamento de longo prazo
Com a opção preserve_thinking, mantém o contexto de raciocínio e oferece integração com diversos agentes de codificação como OpenClaw, Claude Code e Qwen Code
Evolui para uma IA multimodal orientada a agentes, capaz de ir da percepção visual à tomada de ação, com o objetivo futuro de abrir modelos menores como open source e avançar para superagentes de alta autonomia

Resumo dos principais recursos e desempenho do Qwen3.6-Plus

Qwen3.6-Plus é uma versão de grande upgrade lançada após a série Qwen3.5, com forte reforço nas capacidades de codificação orientada a agentes e no desempenho de raciocínio multimodal
Está disponível imediatamente por API via Alibaba Cloud Model Studio e oferece por padrão uma janela de contexto de 1M tokens
Reflete o feedback da comunidade para melhorar estabilidade e confiabilidade, mirando a experiência de “vibe coding” em ambientes reais de desenvolvimento

Avaliação de desempenho

Registra desempenho de nível topo de classe em diversos benchmarks de linguagem, codificação, multimodalidade e agentes
Na área de agentes de codificação, alcança resultados semelhantes ou superiores aos de modelos líderes do setor em benchmarks importantes como SWE-bench, Terminal-Bench e Claw-Eval
Em agentes gerais e uso de ferramentas, mostra melhora geral em TAU3-Bench, DeepPlanning e MCPMark
Também estabelece novos recordes em raciocínio STEM, extração de informações em textos ultralongos e adaptação multilíngue
O modelo integra de forma orgânica raciocínio lógico, memória e execução de ferramentas, reforçando a capacidade de resolver problemas do mundo real como gerenciamento de código complexo e planejamento de longo prazo

Desempenho multimodal

Com raciocínio multimodal avançado, obtém grandes avanços em compreensão de documentos, análise do mundo físico, raciocínio em vídeo e codificação visual
Em termos de aplicabilidade no mundo real, demonstra desempenho estável em ambientes de negócios reais, incluindo texto, reconhecimento de objetos e percepção visual de alta precisão
Com a integração visão-linguagem, evolui além do desempenho em tarefas isoladas para uma IA orientada a agentes centrada em workflows
Em benchmarks como RealWorldQA, OmniDocBench, CountBench e VideoMME, apresenta resultados competitivos frente a GPT5.2, Claude 4.5 e Gemini-3 Pro

API e integração com desenvolvimento

A Alibaba Cloud Model Studio API oferece suporte a protocolos compatíveis com OpenAI e Anthropic
Adiciona a nova opção de API preserve_thinking
- Mantém o conteúdo de raciocínio de conversas anteriores para melhorar a consistência em tarefas orientadas a agentes e a eficiência de tokens
- O padrão é desativado (false) e, quando ativado, preserva todo o contexto de raciocínio
A API pode ser usada por meio do endpoint compatível com OpenAI chat.completions, com código de exemplo disponível

Integração com codificação e agentes

Qwen3.6-Plus pode ser integrado a assistentes de codificação de terceiros como OpenClaw, Claude Code, Qwen Code, Kilo Code, Cline e OpenCode
Reforça a capacidade de lidar com projetos complexos em desenvolvimento frontend, como cenas 3D, jogos e web design
Integração com OpenClaw
- Um agente open source de codificação com IA para self-hosting que, ao se conectar ao Model Studio, oferece um ambiente de codificação orientado a agentes baseado em terminal
- Pode ser usado adicionando o modelo Qwen3.6-Plus ao arquivo de configuração (openclaw.json)
- O modelo oferece suporte a reasoning ativado, entrada de texto e imagem e janela de contexto de 1M
Integração com Qwen Code
- Agente open source de codificação com IA em terminal otimizado para a série Qwen
- Oferece suporte a compreensão de codebases complexas, automação de tarefas repetitivas e implantação rápida
- Após a instalação em ambiente Node.js, a autenticação pode ser feita com o comando /auth
Integração com Claude Code
- Graças à compatibilidade com o protocolo de API da Anthropic, o Qwen3.6-Plus também pode ser usado no Claude Code CLI
- Basta configurar por variáveis de ambiente o nome do modelo (qwen3.6-plus) e o endpoint da API antes da execução

Agente visual e expansão multimodal

Continua reforçando a trajetória de evolução de percepção visual → raciocínio multimodal → execução por agentes
Vai além do simples reconhecimento para também realizar análise de relações em informações visuais e tomada de decisão para ações
Dá suporte a tarefas visuais práticas como compreensão de documentos, análise de gráficos, reconhecimento de UI e localização precisa
Em entendimento de vídeo, consegue processar informação temporal e relações entre frames para análise de conteúdo dinâmico
Em cenários de agentes GUI, reconhece o estado da tela e executa planejamento e execução em múltiplas etapas

Planos futuros

O Qwen3.6-Plus representa um avanço prático em codificação orientada a agentes e IA multimodal, fortalecendo a base do ecossistema de desenvolvedores
Em breve, está prevista a divulgação completa da série Qwen3.6 e a abertura dos modelos menores como open source
No longo prazo, o objetivo é evoluir para superagentes de alta autonomia capazes de realizar tarefas complexas e de longa duração no nível de repositório

1 comentários

GN⁺ 27 일 전

Opiniões no Hacker News

Este modelo é somente hospedado, então não tem pesos abertos (open weight)
Antes eles tinham uma boa reputação com modelos abertos, mas agora será difícil mudar a percepção para serem vistos como concorrentes do Claude ou do ChatGPT
Na prática, liberar modelos pequenos de graça não foi generosidade, e sim uma estratégia de marketing
Além disso, comparar com o Opus 4.5 em vez do 4.6 parece uma tentativa deliberada de induzir ao erro
Mesmo assim, existe um mercado bem grande para modelos que não são SOTA, mas são baratos
Só que esse mercado tem baixa fidelidade à marca, então as pessoas tendem a trocar imediatamente quando aparece um modelo um pouco melhor
- Eles disseram que vão abrir “pequenas variantes do modelo” depois, mas sem detalhes concretos
  Também não está claro se haverá alguma variante na faixa de 300B, como no Qwen 3.5. Não há menção disso no blog oficial
- Ah, então era por isso que houve saída recente de membros da equipe Qwen
- Hoje em dia, o que mais me desperta curiosidade é a rentabilidade desses modelos
  Com cada vez mais modelos abertos e rodando até em hardware barato, fica a dúvida de como as empresas de IA vão conseguir proteger suas margens
- Na verdade, tenho a impressão de que o Opus 4.5 é melhor que o 4.6
  O 4.6 foi só uma atualização para reduzir custos, e parece que apenas ajustaram benchmarks para fazê-lo parecer melhor
- Quando você usa vários modelos em produção, a “personalidade” do modelo importa
  Por exemplo: seguir bem instruções, não desperdiçar tokens e não sair do script
  Os modelos chineses são fortes nesse aspecto e oferecem qualidade parecida por 70~90% menos
Eu entendo por que o Qwen comparou com o Opus 4.5 e o Gemini Pro 3.0
Mas acho exagero chamar isso de enganoso
Modelos de IA ganham novas versões a cada trimestre, mas isso não significa que todo mundo esqueceu o desempenho da geração anterior
Já usei GLM-5 e Kimi K2.5 e achei ambos bem bons. Se este novo modelo da Qwen estiver nesse nível, já é impressionante
O Qwen 3.5-plus e o 3-Max também já eram modelos fechados, então não é a primeira vez
É uma pena que seja fechado, mas acho que a corrida por SOTA no fim beneficia o consumidor
- O problema não é só com quem se compara, e sim a sinceridade da comparação
  Fica parecendo quando a Apple lança um iPhone novo e compara com um Android antigo, então a confiança cai
- O Opus 4.5 já era bom o bastante
  E além disso, o Opus 4.5 custa $25 por token de saída, enquanto este modelo fica em algo como $6, ou seja, 1/4 do preço
Consegui resultados bem decentes com Pelican
Gereis via API do Alibaba Cloud Model Studio, e precisei criar conta e conectar o PayPal
Mas agora dá para usar de graça no OpenRouter
- Surgiu até uma piada de que o Pelican está alcançando o pelotão de vácuo (drafting peloton)
- Também brincaram que em breve vão treinar um pelicano pedalando bicicleta. Algo como um “benchmark global”
Para quem acha que os laboratórios chineses vão parar com o open source, eu diria o seguinte
Isso não vai acontecer
Tente, por exemplo, assinar o plano de coding da Z.ai — é quase impossível
Eles têm pouca capacidade de marketing, então soltar modelos abertos é praticamente a única forma de manter presença
As vendas também dependem de canais de distribuição como OpenRouter e OpenCode
No fim, virar open source não é uma estratégia nacional, e sim o único meio de comercialização
- Também teve a piada: “Então por que o modelo não faz o próprio marketing?”
  Se ele nem consegue se promover, talvez isso já seja um sinal de limite de desempenho
Este modelo, ao contrário da maioria dos modelos da Qwen, tem pesos fechados, e o número de parâmetros também não foi divulgado
Além disso, é estranho terem comparado com o Opus 4.5 quando o 4.6 saiu há dois meses
- No último parágrafo do blog, eles dizem que em breve vão liberar pequenas variantes do modelo como open source
  Fonte
- Se o Opus 4.6 foi lançado há dois meses, também é possível que a Qwen ainda não tenha concluído os testes comparativos
- Na verdade, os modelos -MAX e -Omni da Qwen já eram fechados desde o início
Eu não acho tão problemático terem comparado com o Opus 4.5
Comparar com um modelo que eu conheço bem é, na prática, mais útil
Se eu quiser o melhor desempenho, vou usar outro modelo, mas se estiver procurando uma opção barata com qualidade parecida, isso já é bastante relevante
- Se der para obter desempenho no nível do Opus 4.5 de graça, isso já chama atenção
  Mesmo que eu não use na função principal do app, dá para aproveitar bem em partes menos críticas
- Sinceramente, com o Opus 4.6 e o GPT 5.4 eu quase não senti diferença perceptível em relação à geração anterior
  Se eu puder usar desempenho de nível 4.5 por 1/10 do preço, eu escolheria isso
Os resultados nos benchmarks de agentes são interessantes, mas tenho curiosidade sobre a capacidade do Qwen3.6-Plus de se recuperar de erros
A maioria dos testes só cobre o happy path,
mas na prática a questão real é se ele erra na etapa 3 e ainda consegue voltar ao caminho certo na etapa 15
Queria saber se alguém já fez esse tipo de teste de estresse em um fluxo real de desenvolvimento
Eu queria que os fornecedores de IA parassem com esse marketing de comparar com modelos da geração anterior da concorrência
Ninguém cai nisso, e no fim isso só desgasta a confiança na marca
O modelo da Qwen em si é excelente, então é uma pena ver a reputação dele prejudicada por esse tipo de estratégia de comparação
Na verdade, a Qwen já vinha operando as versões Plus e Max como fechadas há bastante tempo
Então esse formato de lançamento não é novidade
O Qwen 3.6 Plus parece apenas uma versão refinada do 3.5 Plus
Link de comparação

Qwen3.6-Plus: em direção a agentes do mundo real

Resumo dos principais recursos e desempenho do Qwen3.6-Plus

Avaliação de desempenho

Desempenho multimodal

API e integração com desenvolvimento

Integração com codificação e agentes

Integração com OpenClaw

Integração com Qwen Code

Integração com Claude Code

Agente visual e expansão multimodal

Planos futuros

Leituras relacionadas

1 comentários

Opiniões no Hacker News