25 pontos por ragingwind 13 일 전 | 2 comentários | Compartilhar no WhatsApp

É um modelo de linguagem de grande porte que a equipe Qwen, da Alibaba, lançou como open source em abril de 2026. Ele usa a arquitetura MoE (Mixture-of-Experts). MoE é uma abordagem em que vários “especialistas” existem dentro do modelo, e apenas alguns deles são selecionados e ativados cada vez que uma entrada é recebida. O total de parâmetros é de 35 bilhões, mas apenas 3 bilhões são usados na inferência real, então ele opera com cerca de 8,6% da capacidade total. É também um modelo multimodal que entende não só texto, mas também imagens e vídeos, e oferece tanto o modo Thinking, que mostra o processo de raciocínio, quanto o modo Non-thinking, que responde diretamente.

Conteúdo principal

  • Em comparação com o modelo anterior, Qwen3.5-35B-A3B, houve uma grande melhora no desempenho em codificação agentic (uma forma autônoma de programação em que a IA explora arquivos por conta própria, executa comandos no terminal e diagnostica e corrige bugs)
  • Com 73,4 no SWE-bench Verified (avaliação de correção de bugs reais de software) e 51,5 no Terminal-Bench 2.0, supera em vários itens o Qwen3.5-27B, um modelo Dense muito maior em parâmetros (estrutura tradicional em que todos os parâmetros são usados)
  • É comparável ao modelo Dense de 27B em matemática competitiva (AIME 2026), com 92,7, e em codificação em tempo real (LiveCodeBench v6), com 80,4
  • Na área multimodal, supera o Claude Sonnet 4.5 (modelo comercial pago) com 81,7 no MMMU e 85,3 no RealWorldQA, e é especialmente forte em inteligência espacial, como no reconhecimento da posição de objetos em imagens (RefCOCO 92,0)
  • Pode ser integrado imediatamente com ferramentas de codificação de terceiros como OpenClaw, Claude Code e Qwen Code, e também é compatível com o protocolo de API da Anthropic

Vantagens

  • Com 3B de parâmetros ativos, entrega desempenho comparável ao de modelos Dense de 27~31B, o que reduz o uso de memória GPU e o consumo de energia, permitindo operação também em ambientes menores
  • Está entre os melhores da categoria em benchmarks de codificação agentic de forma geral
  • Processa texto, imagens, vídeos e documentos em um único modelo
  • É totalmente open source, permitindo que qualquer pessoa faça download, ajuste fino adicional e customize o modelo

Desvantagens

  • Em tarefas gerais de agente (35,6 no VITA-Bench), fica abaixo do modelo Dense anterior de 27B (41,8), então ainda há espaço para melhorias
  • Também fica atrás de grandes modelos Dense em raciocínio acadêmico de altíssima dificuldade (21,4 no HLE, contra 24,3)
  • Tem pequena desvantagem no benchmark de conhecimento MMLU-Pro
  • A API ainda está em estado de “coming soon”, o que dificulta a aplicação imediata em serviços de grande escala

Diferenciais

  • Supera com folga em quase todos os benchmarks o Google Gemma4-26B-A4B, que usa uma estrutura MoE semelhante
  • A função preserve_thinking, que preserva o conteúdo de raciocínio de turnos anteriores da conversa durante tarefas de agente, é vantajosa para manter contexto de longo prazo
  • Também é compatível com o protocolo de API da Anthropic, o que permite entrada imediata no ecossistema do Claude Code

Implicações

  • Resultados comparáveis aos de um modelo de 27B com apenas 3B de parâmetros ativos mostram que a arquitetura MoE está se tornando um novo padrão de eficiência em IA
  • Como um modelo open source está vencendo um modelo pago como o Claude Sonnet 4.5 em vários itens, cresce o incentivo para que empresas migrem de APIs caras para hospedagem própria
  • Como a composição dos benchmarks dá peso muito alto à codificação agentic, isso sugere que o setor vê a capacidade autônoma de desenvolvimento de software da IA como o critério de avaliação mais importante

2 comentários

 
jeeeyul 11 일 전

Segundo os resultados dos testes do nosso laboratório, este é um modelo que uma equipe Qwen sem a equipe Qwen lançou às pressas, ajustado apenas para benchmarks, para administrar a ansiedade do mercado. A obsessão por ferramentas é forte demais. Consideramos um retrocesso em relação ao 3.5.

 
woung717 12 일 전

Estou testando a versão 3.5 no Mac, e a melhora de inteligência em relação às gerações anteriores é realmente impressionante. Só de ter alcançado até o Oss 120b já diz tudo.