Modelos open source Qwen3.5-Medium da Alibaba oferecem desempenho de nível Sonnet 4.5 localmente

(venturebeat.com)

22 pontos por GN⁺ 2026-03-02 | 4 comentários | Compartilhar no WhatsApp

A série Qwen3.5 é composta por quatro modelos de linguagem de grande porte, incluindo 35B, 122B e 27B, e três deles são lançados sob a licença open source Apache 2.0
Apresenta desempenho de benchmark superior ao OpenAI GPT-5-mini e ao Anthropic Claude Sonnet 4.5, com execução de alto desempenho mesmo em ambientes locais com GPU
Com quantização de 4 bits, mantém quase toda a precisão e ainda oferece janela de contexto acima de 1 milhão de tokens, permitindo processar grandes volumes de dados até mesmo em GPUs de desktop
Combina as arquiteturas Gated Delta Networks e Mixture-of-Experts (MoE) para aumentar a eficiência e, por meio do “Thinking Mode”, gera respostas após passar por um processo interno de raciocínio
Isso permite que empresas construam IA on-premises com foco em privacidade e desenvolvam agentes autônomos sem depender de nuvens de alto custo

Visão geral do modelo Qwen3.5-Medium

A série Qwen3.5-Medium, lançada pela equipe Qwen AI da Alibaba, é composta por quatro LLMs com suporte a agentic tool calling
- Modelos públicos: Qwen3.5-35B-A3B, Qwen3.5-122B-A10B, Qwen3.5-27B
- Modelo proprietário: Qwen3.5-Flash (exclusivo da API Alibaba Cloud Model Studio)
Os três modelos open source podem ser baixados no Hugging Face e no ModelScope
O Qwen3.5-Flash é oferecido como API comercial e tem custo operacional menor em comparação com modelos ocidentais

Desempenho e arquitetura técnica

Os modelos Qwen3.5 superam OpenAI GPT-5-mini e Claude Sonnet 4.5 em benchmarks
Mesmo após a quantização, mantêm alta precisão e suportam janela de contexto acima de 1 milhão de tokens em ambiente com GPU local (32 GB de VRAM)
Com quantização de pesos em 4 bits e do cache KV, possibilitam precisão sem perdas e processamento de grandes volumes de dados
Arquitetura híbrida: Gated Delta Networks + Sparse Mixture-of-Experts (MoE)
- De um total de 35 bilhões de parâmetros, apenas 300 milhões são ativados
- As camadas MoE são compostas por 256 especialistas (8 roteados + 1 compartilhado)
- Mantém a precisão mesmo com compressão em 4 bits, reduzindo o uso de memória em implantações locais
O modelo Qwen3.5-35B-A3B-Base também foi lançado para apoiar pesquisas

Composição do produto e recursos

Thinking Mode: antes de responder, o modelo gera o processo interno de raciocínio na tag ``
Características por modelo
- Qwen3.5-27B: focado em eficiência, com suporte a contexto acima de 800 mil tokens
- Qwen3.5-Flash: contexto padrão de 1 milhão de tokens, com ferramentas oficiais integradas
- Qwen3.5-122B-A10B: para GPUs de servidor (80 GB de VRAM), com suporte a contexto acima de 1 milhão
Resultados de benchmark: o Qwen3.5-35B-A3B supera Qwen3-235B, GPT-5-mini e Sonnet 4.5 em conhecimento (MMMLU) e raciocínio visual (MMMU-Pro)

Preços e integração via API

Preços da API Qwen3.5-Flash
- Entrada: $0.1 / 1 milhão de tokens
- Saída: $0.4 / 1 milhão de tokens
- Criação de cache: $0.125 / 1 milhão de tokens
- Leitura de cache: $0.01 / 1 milhão de tokens
Plano de preços para tool calling: Web Search $10/1.000 vezes, Code Interpreter gratuito (temporariamente)
É uma das APIs mais baratas quando comparada aos principais LLMs
- Ex.: Claude Sonnet 4.5 custa $18/1 milhão de tokens no total, GPT-5.2 custa $15.75, enquanto o Qwen3.5-Flash custa $0.5

Uso corporativo e significado

Com o lançamento do Qwen3.5-Medium, até empresas comuns passam a poder realizar ajuste fino e implantação de modelos em nível de grandes centros de pesquisa
Permite analisar grandes volumes de documentos e vídeos em ambiente on-premises, reforçando a privacidade dos dados
A estrutura Mixture-of-Experts pode ser executada dentro do firewall corporativo, mantendo a soberania dos dados
Com Thinking Mode e Tool Calling, torna-se possível construir agentes autônomos de IA
Os primeiros usuários avaliaram que “a diferença para os grandes modelos fechados diminuiu”
Seu design focado em eficiência pode reduzir custos, reforçar a segurança e aumentar a agilidade operacional na integração de IA

4 comentários

chcv0313 2026-03-02

Tenho uma RTX Pro 6000 (96GB, na prática 94GB), mas o modelo 122B não sobe no ollama. Acho que é por ser um modelo de visão, por causa da parte que inclui o vision transformer. Já o modelo GPT OSS 120b sobe com folga.

ng0301 2026-03-02

Isso mesmo... quando se usa um encoder de visão, até um modelo de 1B acaba consumindo 9 GB de VRAM.

kensin2 2026-03-02

Só entrega desempenho se for executado em um servidor llama.cpp baseado em CUDA.

GN⁺ 2026-03-02

Comentários do Hacker News

A maioria dos modelos open source está jogando o jogo de otimização de benchmarks
Cada modelo novo é divulgado como estando no nível do SOTA de alguns meses atrás, mas quando você usa de verdade, muitas vezes decepciona
Testei o Qwen3-Coder-Next e o Qwen3.5, e eles não chegam ao nível do Sonnet 4.5
Ainda assim, se você definir objetivos com clareza e impor restrições por meio de testes, eles insistem bastante e acabam resolvendo o problema
Mesmo assim, é impressionante para um modelo open source, e é surpreendente que esse nível seja possível em um ambiente self-hosted
Mas não dá para acreditar no hype exagerado de que seria nível Sonnet 4.5
- Pela minha experiência, alguns modelos open source são realmente poderosos e práticos
  Em especial, StepFun-3.5-flash funciona muito bem até em codebases complexas em Rust
  Não tenho nenhuma relação com a StepFun, mas tenho muito respeito pela equipe que conseguiu esse desempenho com uma arquitetura 196B/11B
- Os modelos da “geração passada” ainda são melhores que os open source, mas modelos como o GLM-5 parecem ter captado bem a capacidade de correspondência de padrões
  O benchmark da GertLabs, que coloca modelos para competir entre si, é difícil de manipular e parece bem confiável
- Na verdade, essa otimização para benchmark é algo que todos os modelos fazem
  Na realidade, os modelos em nuvem podem ser até piores nesse aspecto, porque conseguem ajustar até o runtime
- Estou rodando o Qwen 3.5 27B em uma 4090, e é a primeira vez que vejo um modelo local com desempenho de codificação tão bom
  Antes era quase inútil, mas desta vez fiquei realmente impressionado
- Eu estava curioso para saber se existia algum benchmark recente de codificação offline/privada, e o Apex Testing parece bem interessante
  Se forem testes diferentes dos problemas padrão, talvez também sejam mais resistentes a overfitting
Estou rodando modelos locais em um MBP M3 Max 128G e comparando desempenho
Opus 4.6 e Gemini Pro foram rápidos e precisos, mas o qwen3.5:35b-a3b ficou rodando por 45 minutos e deu uma resposta imprecisa
O barulho do ventilador estava tão forte que parecia uma decolagem de avião
Fico em dúvida se é viável lidar com codebases grandes com um modelo tão lento
- Na prática, rodar um modelo aberto de 100B parâmetros em um notebook tem limitações
  Modelos em nuvem rodam com mais de 1T de parâmetros em GPUs que custam milhões de dólares
  Codificação local está em um nível mais realista de algo como “gerar boilerplate de app Android”
- Opus e Gemini rodam em GPUs do nível H200 que custam milhões de dólares
  Modelos locais ainda estão no nível de desempenho de duas gerações atrás, e se fosse realmente nível Sonnet 4.5, haveria uma grande diferença em relação ao Opus 4.6
- O setor caiu na falácia lógica de que “modelo maior é sempre melhor”
  Na verdade, um modelo pequeno especializado em um problema estreito pode funcionar melhor
  Nossa equipe está rodando um modelo pequeno focado apenas em programação em um M2 16GB, e achamos que ele é melhor que o Sonnet 4.5
  Vamos lançar em breve o beta do rig.ai
- O MacBook tem limitações térmicas severas, então não é adequado para tarefas longas
  Mesmo em servidores, fixar a rotação do ventilador em 100% aumenta o desempenho da GPU em 30%
  Modelos locais são adequados para tarefas leves, e deixar as pesadas para a nuvem é mais eficiente
- O qwen3.5-35b-a3b tende a gastar muito tempo raciocinando quando o contexto é curto
  Há relatos de que ele fica muito mais eficiente quando recebe um prompt de sistema longo ou conteúdo de arquivos
Escrevi um guia para configurar llama.cpp, OpenCode e Qwen3-Coder-30B-A3B-Instruct (GGUF, quantização Q4_K_M) em um M1 MacBook Pro
A instalação foi bem complicada, mas também pode ser aplicada aos modelos mais recentes
Link do guia de instalação
- Com o LM Studio, dá para instalar com uma busca e um clique, e ele é exposto como uma API compatível com OpenAI
- Fiz a mesma configuração em um desktop Ryzen com 32GB, e o Qwen foi o mais impressionante
  Graças à estrutura MoE, a velocidade de inferência também é boa
  Escolhi a quantização Q4_K_M, mas fico me perguntando se essa é mesmo a melhor escolha
- Estou esperando aparecer um modelo local utilizável mesmo com 16GB de RAM
- Fico curioso para saber qual é a velocidade de execução no M1
Comecei a estudar o interior dos LLMs e percebi que float32 é uma precisão tolerante demais
Aprendi sobre quantização por meio de blogs e pedi ao Claude que analisasse a precisão de quantização de 1 a 8 bits
O 4 bits pareceu um sweet spot, com quase nenhuma perda e 99% de similaridade, mas ocupando metade do tamanho do 8 bits
É interessante ver que especialistas de verdade também usam 4 bits
- O hardware NVIDIA mais recente também oferece suporte a treinamento em 4 bits
  Os modelos GPT-OSS foram treinados no formato MXFP4
  Documento de padronização da OCP, especificação do formato MX
- A pesquisa com modelos ternários também é interessante
  As operações são muito rápidas e a eficiência de cache é alta, então vale explorar
- Quero aprender mais materiais relacionados, e queria saber se há recursos recomendados
- Não consigo ter noção de que tipo de efeito cognitivo uma diferença de 1% em precisão realmente produz
  Como o sistema é muito caixa-preta, é difícil entender isso intuitivamente
Rodei o Qwen3.5 122B com LM Studio e Opencode, e fiquei bastante impressionado
Mesmo em um ambiente M4 Max/128GB, ele não é lento e mostra uma capacidade de análise de código no nível do Claude Code
É surpreendente como uma alternativa totalmente local evoluiu tanto
Os modelos abertos estão melhorando cada vez mais, mas ainda não estão no nível do Sonnet 4.5
Em domínios estreitos, eles são excelentes, mas são fracos para resolver problemas ambíguos
O Qwen 3.5 foi o melhor OSS que já usei até agora, e está começando a demonstrar inteligência de verdade
Eu o rodo de graça em uma RTX 6000 Pro, mas uso o Composer 1.5 com mais frequência
Ainda assim, espero que até o fim do ano saia um modelo local no nível do GPT 5.2
Há muitas afirmações exageradas
Poucas pessoas realmente usaram, e muitas vezes faltam critérios realistas
Antigamente sempre vinha com a ressalva de “não dá para usar acima de alguns K tokens”
- Fiz um aplicativo web de calculadora RPN com o Qwen 3.5 122B/a10B (q3, unsloth dynamic quant), e foi o primeiro modelo local que funcionou completamente
  Os outros modelos erravam a implementação da pilha ou faziam uma UI horrível
  O Claude Sonnet 4.6 também resolveu esse problema direito, mas fora ele, quase todos falharam
- O Qwen3-Coder-30B-A3B-Instruct é bom para integração com IDE ou tarefas pequenas no nível de função, mas tem limitações em implementações de funcionalidades grandes
- Completei uma implementação de PCA baseada em Polars em 10 minutos com o modelo 35B
  Antes, os modelos sempre alucinavam código em pandas, então isso é um grande avanço
Chama atenção que o Claude está ausente do gráfico SWE
Isso dá a impressão de manipulação intencional dos dados
Só essa postura já faz perder a confiança
Estou ansioso pelo dia em que poderei rodar isso diretamente em local
Quero reduzir minha dependência de serviços dos EUA
Queria saber se existe algum serviço na Europa para testar modelos abertos
- A Koyeb pode alugar GPUs por minuto desde que foi adquirida pela Mistral, e também permite deploy de modelos com um clique