- Qwen3.5-397B-A17B é um modelo unificado de linguagem e visão que apresenta excelente desempenho em raciocínio, codificação, agentes e compreensão multimodal em geral
- Com uma arquitetura híbrida que combina atenção linear baseada em GDN e MoE esparso, apenas 17 bilhões dos 397 bilhões de parâmetros são ativados, alcançando ao mesmo tempo eficiência de inferência e redução de custos
- O suporte a idiomas e dialetos foi expandido de 119 para 201, reforçando a acessibilidade global e o desempenho em processamento multilíngue
- O Qwen3.5-Plus, oferecido por meio do Alibaba Cloud Model Studio, oferece suporte nativo a janela de contexto de 1 milhão de tokens e uso adaptativo de ferramentas
- Com a expansão do ambiente de aprendizado por reforço e um design de infraestrutura eficiente, foi garantida a estabilidade e a escalabilidade do treinamento e da inferência de agentes multimodais em larga escala
Visão geral do Qwen3.5
- O Qwen3.5 é um modelo integrado de visão e linguagem que apresenta desempenho excepcional em vários benchmarks, como raciocínio, codificação, agentes e compreensão multimodal
- Nome do modelo: Qwen3.5-397B-A17B, com ativação de apenas 17 bilhões de parâmetros entre um total de 397 bilhões
- Combina atenção linear baseada em Gated Delta Networks com uma arquitetura Mixture-of-Experts esparsa para otimizar velocidade e custo
- O suporte a idiomas foi expandido de 119 para 201, melhorando a acessibilidade multilíngue
- Qwen3.5-Plus é oferecido no Alibaba Cloud Model Studio e
- inclui janela de contexto de 1M, ferramentas oficiais integradas e uso adaptativo de ferramentas
Avaliação de desempenho
- Ao ser comparado com modelos de ponta como GPT5.2, Claude 4.5 Opus e Gemini-3 Pro, o Qwen3.5
- registra pontuações competitivas em linguagem, raciocínio, codificação, agentes e multimodalidade
- Nas avaliações de linguagem, obteve desempenho de destaque com MMLU-Pro 94.9, SuperGPQA 70.4 e IFBench 76.5
- Nas avaliações de visão-linguagem, obteve pontuações altas em MathVision 88.6, AI2D_TEST 93.9 e OCRBench 93.1
- Mostra resultados melhores que o Qwen3-VL em compreensão multimodal e resolução de problemas STEM
- Com a expansão do ambiente de aprendizado por reforço, o desempenho de agentes gerais melhorou, com avanço na classificação média em BFCL-V4 e VITA-Bench
Pré-treinamento (Pretraining)
- Power: em comparação com o Qwen3, houve reforço no treinamento em larga escala com tokens visuais e textuais, além de dados multilíngues, STEM e de raciocínio
- O Qwen3.5-397B-A17B alcança desempenho equivalente ao de um modelo de classe de 1T de parâmetros (Qwen3-Max-Base)
- Efficiency: com base na arquitetura Qwen3-Next, aplica esparsidade MoE, Gated DeltaNet e previsão de múltiplos tokens
- Em contextos de 32k/256k, entrega 8,6x/19x o throughput de decodificação em comparação com o Qwen3-Max
- Versatility: com fusão antecipada de texto e visão para processamento multimodal natural
- Com vocabulário de 250 mil termos (antes 150 mil), a eficiência de codificação e decodificação melhora de 10% a 60%
Infraestrutura e framework de treinamento
- Uma infraestrutura heterogênea com separação de estratégias paralelas para visão e linguagem oferece suporte eficiente ao treinamento multimodal
- Aproveitando a ativação esparsa, atinge eficiência de processamento próxima de 100% mesmo com dados mistos de texto, imagem e vídeo
- Um pipeline FP8 otimiza a precisão de ativações, roteamento MoE e operações GEMM
- Reduz o uso de memória em 50% e melhora a velocidade em mais de 10%
- Foi construído um framework assíncrono de aprendizado por reforço para dar suporte ao treinamento de modelos de texto, multimodais e multiturno
- Com treinamento end-to-end em FP8, speculative decoding e multi-turn rollout locking, entre outros,
garante ganho de velocidade de processamento de 3 a 5 vezes e escalabilidade estável
Uso e integração
- O Qwen Chat oferece os modos Auto, Thinking e Fast
- Auto: uso automático de ferramentas e raciocínio adaptativo
- Thinking: raciocínio aprofundado
- Fast: resposta imediata
- Pela ModelStudio API, é possível ativar recursos de reasoning, web search e Code Interpreter
- Controlados pelos parâmetros
enable_thinking e enable_search
- Integra-se com Qwen Code e OpenClaw para oferecer codificação baseada em linguagem natural e criação multimodal
Demonstrações e aplicações
- Desenvolvimento web: geração de páginas web e código de UI por meio de comandos em linguagem natural
- Visual Agent: execução de operações automáticas em smartphones e PCs com base em linguagem natural
- Visual Coding: com entrada de 1 milhão de tokens, permite processar até 2 horas de vídeo
- oferecendo suporte a conversão de UI desenhada à mão em código, resumo de vídeos e mais
- Spatial Intelligence: melhora a precisão em contagem de objetos, relações de posição e descrição espacial
- sugerindo potencial para aplicações em direção autônoma e robótica
- Visual Reasoning: melhora em relação ao Qwen3-VL na resolução de problemas científicos e no raciocínio lógico visual
Resumo e próximos passos
- O Qwen3.5, com base em uma arquitetura híbrida eficiente e raciocínio multimodal nativo,
estabelece a base para a construção de um agente digital de propósito geral
- O próximo objetivo é a transição da expansão do modelo para a integração de sistemas
- com o desenvolvimento de sistemas de agentes autônomos e persistentes com memória contínua, interfaces com o mundo real, autoaperfeiçoamento e capacidade de tomada de decisão econômica
1 comentários
Comentários do Hacker News
Achei interessante a notícia de que, no desafio de LLM de hoje, escolheram “drive the car to the wash”
Como os LLMs acabam consumindo todo o corpus, fica difícil distinguir se a melhora é aprendizado de verdade ou se foi só colado um “post-it mental”
É preciso encontrar uma forma de fazer com que, embora expresso em linguagem natural, isso pareça para o LLM um problema “criptografado”
Por exemplo, talvez desse para testar com um gerador simples de programas em LUA que cria código aleatório, traduz isso para o inglês, pede ao LLM para prever o resultado e depois compara com a execução real
Essa abordagem parece quase um tipo de cenário de guerra de informação
Para quem tiver interesse, subi os MXFP4 GGUFs no Hugging Face, e o guia de execução está na documentação da unsloth.ai
Pelican é ok, mas não é uma boa bicicleta — veja este exemplo relacionado
Se o Qwen 3.5 sair na faixa de 80~110B, parece que caberia certinho em um dispositivo com 128GB. O Qwen3-Next é 80B, mas não tem encoder de visão
É uma pena terem divulgado só o modelo flagship e não haver versões destiladas menores. Eu gostava do Qwen antigo porque saía em vários tamanhos
No Ano-Novo Lunar passado, eu nem imaginava que um modelo nível Sonnet 4.5 rodaria rápido localmente, mas agora talvez isso seja possível em um MacBook Pro M5 Max de 2026
Qwen é um modelo aberto muito forte, e especialmente a série visual é impressionante
Em um relatório de AI, mencionavam que o Fennec (Sonnet 5) seria lançado em 4 de fevereiro, mas na prática era uma mistura de rumor com alucinação (hallucination) de ferramenta de notícias de AI. Foi um caso interessante
O blog da Qwen tem um problema de não carregar. Mesmo desativando o bloqueador de anúncios, ainda só aparece o placeholder
Fico curioso sobre o que exatamente são os 15.000 ambientes de RL que eles mencionaram. Consigo imaginar algumas centenas, mas acima disso já é difícil
Hoje em dia todo mundo só olha para pontuações de benchmark, mas o que realmente importa é se o modelo consegue manter o contexto durante uso de ferramentas em múltiplas etapas
A maioria dos modelos abertos ainda desmorona nesse ponto