- A série Qwen3.5 é composta por quatro modelos de linguagem de grande porte, incluindo 35B, 122B e 27B, e três deles são lançados sob a licença open source Apache 2.0
- Apresenta desempenho de benchmark superior ao OpenAI GPT-5-mini e ao Anthropic Claude Sonnet 4.5, com execução de alto desempenho mesmo em ambientes locais com GPU
- Com quantização de 4 bits, mantém quase toda a precisão e ainda oferece janela de contexto acima de 1 milhão de tokens, permitindo processar grandes volumes de dados até mesmo em GPUs de desktop
- Combina as arquiteturas Gated Delta Networks e Mixture-of-Experts (MoE) para aumentar a eficiência e, por meio do “Thinking Mode”, gera respostas após passar por um processo interno de raciocínio
- Isso permite que empresas construam IA on-premises com foco em privacidade e desenvolvam agentes autônomos sem depender de nuvens de alto custo
Visão geral do modelo Qwen3.5-Medium
- A série Qwen3.5-Medium, lançada pela equipe Qwen AI da Alibaba, é composta por quatro LLMs com suporte a agentic tool calling
- Modelos públicos: Qwen3.5-35B-A3B, Qwen3.5-122B-A10B, Qwen3.5-27B
- Modelo proprietário: Qwen3.5-Flash (exclusivo da API Alibaba Cloud Model Studio)
- Os três modelos open source podem ser baixados no Hugging Face e no ModelScope
- O Qwen3.5-Flash é oferecido como API comercial e tem custo operacional menor em comparação com modelos ocidentais
Desempenho e arquitetura técnica
- Os modelos Qwen3.5 superam OpenAI GPT-5-mini e Claude Sonnet 4.5 em benchmarks
- Mesmo após a quantização, mantêm alta precisão e suportam janela de contexto acima de 1 milhão de tokens em ambiente com GPU local (32 GB de VRAM)
- Com quantização de pesos em 4 bits e do cache KV, possibilitam precisão sem perdas e processamento de grandes volumes de dados
- Arquitetura híbrida: Gated Delta Networks + Sparse Mixture-of-Experts (MoE)
- De um total de 35 bilhões de parâmetros, apenas 300 milhões são ativados
- As camadas MoE são compostas por 256 especialistas (8 roteados + 1 compartilhado)
- Mantém a precisão mesmo com compressão em 4 bits, reduzindo o uso de memória em implantações locais
- O modelo Qwen3.5-35B-A3B-Base também foi lançado para apoiar pesquisas
Composição do produto e recursos
- Thinking Mode: antes de responder, o modelo gera o processo interno de raciocínio na tag ``
- Características por modelo
- Qwen3.5-27B: focado em eficiência, com suporte a contexto acima de 800 mil tokens
- Qwen3.5-Flash: contexto padrão de 1 milhão de tokens, com ferramentas oficiais integradas
- Qwen3.5-122B-A10B: para GPUs de servidor (80 GB de VRAM), com suporte a contexto acima de 1 milhão
- Resultados de benchmark: o Qwen3.5-35B-A3B supera Qwen3-235B, GPT-5-mini e Sonnet 4.5 em conhecimento (MMMLU) e raciocínio visual (MMMU-Pro)
Preços e integração via API
- Preços da API Qwen3.5-Flash
- Entrada: $0.1 / 1 milhão de tokens
- Saída: $0.4 / 1 milhão de tokens
- Criação de cache: $0.125 / 1 milhão de tokens
- Leitura de cache: $0.01 / 1 milhão de tokens
- Plano de preços para tool calling: Web Search $10/1.000 vezes, Code Interpreter gratuito (temporariamente)
- É uma das APIs mais baratas quando comparada aos principais LLMs
- Ex.: Claude Sonnet 4.5 custa $18/1 milhão de tokens no total, GPT-5.2 custa $15.75, enquanto o Qwen3.5-Flash custa $0.5
Uso corporativo e significado
- Com o lançamento do Qwen3.5-Medium, até empresas comuns passam a poder realizar ajuste fino e implantação de modelos em nível de grandes centros de pesquisa
- Permite analisar grandes volumes de documentos e vídeos em ambiente on-premises, reforçando a privacidade dos dados
- A estrutura Mixture-of-Experts pode ser executada dentro do firewall corporativo, mantendo a soberania dos dados
- Com Thinking Mode e Tool Calling, torna-se possível construir agentes autônomos de IA
- Os primeiros usuários avaliaram que “a diferença para os grandes modelos fechados diminuiu”
- Seu design focado em eficiência pode reduzir custos, reforçar a segurança e aumentar a agilidade operacional na integração de IA
4 comentários
Tenho uma RTX Pro 6000 (96GB, na prática 94GB), mas o modelo 122B não sobe no
ollama. Acho que é por ser um modelo de visão, por causa da parte que inclui o vision transformer. Já o modelo GPT OSS 120b sobe com folga.Isso mesmo... quando se usa um encoder de visão, até um modelo de 1B acaba consumindo 9 GB de VRAM.
Só entrega desempenho se for executado em um servidor
llama.cppbaseado em CUDA.Comentários do Hacker News
A maioria dos modelos open source está jogando o jogo de otimização de benchmarks
Cada modelo novo é divulgado como estando no nível do SOTA de alguns meses atrás, mas quando você usa de verdade, muitas vezes decepciona
Testei o Qwen3-Coder-Next e o Qwen3.5, e eles não chegam ao nível do Sonnet 4.5
Ainda assim, se você definir objetivos com clareza e impor restrições por meio de testes, eles insistem bastante e acabam resolvendo o problema
Mesmo assim, é impressionante para um modelo open source, e é surpreendente que esse nível seja possível em um ambiente self-hosted
Mas não dá para acreditar no hype exagerado de que seria nível Sonnet 4.5
Em especial, StepFun-3.5-flash funciona muito bem até em codebases complexas em Rust
Não tenho nenhuma relação com a StepFun, mas tenho muito respeito pela equipe que conseguiu esse desempenho com uma arquitetura 196B/11B
O benchmark da GertLabs, que coloca modelos para competir entre si, é difícil de manipular e parece bem confiável
Na realidade, os modelos em nuvem podem ser até piores nesse aspecto, porque conseguem ajustar até o runtime
Antes era quase inútil, mas desta vez fiquei realmente impressionado
Se forem testes diferentes dos problemas padrão, talvez também sejam mais resistentes a overfitting
Estou rodando modelos locais em um MBP M3 Max 128G e comparando desempenho
Opus 4.6 e Gemini Pro foram rápidos e precisos, mas o qwen3.5:35b-a3b ficou rodando por 45 minutos e deu uma resposta imprecisa
O barulho do ventilador estava tão forte que parecia uma decolagem de avião
Fico em dúvida se é viável lidar com codebases grandes com um modelo tão lento
Modelos em nuvem rodam com mais de 1T de parâmetros em GPUs que custam milhões de dólares
Codificação local está em um nível mais realista de algo como “gerar boilerplate de app Android”
Modelos locais ainda estão no nível de desempenho de duas gerações atrás, e se fosse realmente nível Sonnet 4.5, haveria uma grande diferença em relação ao Opus 4.6
Na verdade, um modelo pequeno especializado em um problema estreito pode funcionar melhor
Nossa equipe está rodando um modelo pequeno focado apenas em programação em um M2 16GB, e achamos que ele é melhor que o Sonnet 4.5
Vamos lançar em breve o beta do rig.ai
Mesmo em servidores, fixar a rotação do ventilador em 100% aumenta o desempenho da GPU em 30%
Modelos locais são adequados para tarefas leves, e deixar as pesadas para a nuvem é mais eficiente
Há relatos de que ele fica muito mais eficiente quando recebe um prompt de sistema longo ou conteúdo de arquivos
Escrevi um guia para configurar llama.cpp, OpenCode e Qwen3-Coder-30B-A3B-Instruct (GGUF, quantização Q4_K_M) em um M1 MacBook Pro
A instalação foi bem complicada, mas também pode ser aplicada aos modelos mais recentes
Link do guia de instalação
Graças à estrutura MoE, a velocidade de inferência também é boa
Escolhi a quantização Q4_K_M, mas fico me perguntando se essa é mesmo a melhor escolha
Comecei a estudar o interior dos LLMs e percebi que float32 é uma precisão tolerante demais
Aprendi sobre quantização por meio de blogs e pedi ao Claude que analisasse a precisão de quantização de 1 a 8 bits
O 4 bits pareceu um sweet spot, com quase nenhuma perda e 99% de similaridade, mas ocupando metade do tamanho do 8 bits
É interessante ver que especialistas de verdade também usam 4 bits
Os modelos GPT-OSS foram treinados no formato MXFP4
Documento de padronização da OCP, especificação do formato MX
As operações são muito rápidas e a eficiência de cache é alta, então vale explorar
Como o sistema é muito caixa-preta, é difícil entender isso intuitivamente
Rodei o Qwen3.5 122B com LM Studio e Opencode, e fiquei bastante impressionado
Mesmo em um ambiente M4 Max/128GB, ele não é lento e mostra uma capacidade de análise de código no nível do Claude Code
É surpreendente como uma alternativa totalmente local evoluiu tanto
Os modelos abertos estão melhorando cada vez mais, mas ainda não estão no nível do Sonnet 4.5
Em domínios estreitos, eles são excelentes, mas são fracos para resolver problemas ambíguos
O Qwen 3.5 foi o melhor OSS que já usei até agora, e está começando a demonstrar inteligência de verdade
Eu o rodo de graça em uma RTX 6000 Pro, mas uso o Composer 1.5 com mais frequência
Ainda assim, espero que até o fim do ano saia um modelo local no nível do GPT 5.2
Há muitas afirmações exageradas
Poucas pessoas realmente usaram, e muitas vezes faltam critérios realistas
Antigamente sempre vinha com a ressalva de “não dá para usar acima de alguns K tokens”
Os outros modelos erravam a implementação da pilha ou faziam uma UI horrível
O Claude Sonnet 4.6 também resolveu esse problema direito, mas fora ele, quase todos falharam
Antes, os modelos sempre alucinavam código em pandas, então isso é um grande avanço
Chama atenção que o Claude está ausente do gráfico SWE
Isso dá a impressão de manipulação intencional dos dados
Só essa postura já faz perder a confiança
Estou ansioso pelo dia em que poderei rodar isso diretamente em local
Quero reduzir minha dependência de serviços dos EUA
Queria saber se existe algum serviço na Europa para testar modelos abertos