4 pontos por GN⁺ 14 일 전 | 1 comentários | Compartilhar no WhatsApp
  • Um modelo open source com arquitetura esparsa Mixture-of-Experts (MoE), em que apenas 3 bilhões de um total de 35 bilhões de parâmetros são ativados, alcançando eficiência e desempenho ao mesmo tempo
  • Em comparação com a geração anterior, sua capacidade de codificação agentic melhorou significativamente, mostrando um nível competitivo com grandes modelos densos como Qwen3.5-27B e Gemma4-31B
  • Registrou pontuações altas em importantes benchmarks de codificação como SWE-bench, Terminal-Bench e Claw-Eval, e também alcançou desempenho no nível do Claude Sonnet 4.5 em tarefas multimodais
  • Pesos abertos e acesso via API estão disponíveis por meio do Alibaba Cloud Model Studio API, Hugging Face e ModelScope, com suporte de integração a várias ferramentas de codificação como OpenClaw e Claude Code
  • Apresenta um novo padrão para modelos abertos eficientes ao igualar grandes modelos com apenas 3 bilhões de parâmetros ativos

Visão geral do Qwen3.6-35B-A3B

  • Qwen3.6-35B-A3B é um modelo esparso Mixture-of-Experts (MoE) em que apenas 3 bilhões de um total de 35 bilhões de parâmetros são ativados, combinando eficiência e desempenho em um modelo open source
  • Em relação à versão anterior, o Qwen3.5-35B-A3B, o desempenho em codificação agentic (agentic coding) melhorou bastante, alcançando um nível competitivo com grandes modelos densos como Qwen3.5-27B e Gemma4-31B
  • Suporta tanto raciocínio multimodal quanto modo sem raciocínio, e está disponível via Qwen Studio, API, Hugging Face e ModelScope
  • O modelo pode ser usado de forma interativa no Qwen Studio, chamado pela Alibaba Cloud Model Studio API (qwen3.6-flash) ou hospedado diretamente

Avaliação de desempenho

  • Desempenho em linguagem e codificação

    • O Qwen3.6-35B-A3B supera o Qwen3.5-27B (modelo denso com 27 bilhões de parâmetros) em vários benchmarks importantes de codificação usando apenas 3 bilhões de parâmetros ativos
    • Obteve pontuações altas como SWE-bench Verified 73.4, Terminal-Bench 51.5 e média 68.7 no Claw-Eval
    • No QwenWebBench (benchmark de geração de código web), registrou 1397 pontos, um dos melhores níveis da categoria
    • Também apresentou resultados superiores aos modelos concorrentes em benchmarks gerais de agentes, como MCPMark, MCP-Atlas e WideSearch
    • Manteve alta precisão também em MMLU-Pro, GPQA, AIME26 e outros testes de conhecimento e raciocínio
  • Ambiente de avaliação

    • A série SWE-Bench foi avaliada com base em um scaffold interno de agente (ferramentas bash + edição de arquivos) em uma janela de contexto de 200K
    • O Terminal-Bench 2.0 foi medido pela média de 5 execuções, com limite de 3 horas, em ambiente com 32 CPU/48GB RAM
    • O SkillsBench foi avaliado em 78 tarefas, excluindo trabalhos dependentes de API
    • QwenClawBench e QwenWebBench são benchmarks internos baseados em distribuição de uso real, refletindo ambientes reais de usuários
  • Desempenho visão-linguagem

    • O Qwen3.6-35B-A3B é um modelo multimodal nativo que alcança desempenho no nível do Claude Sonnet 4.5 com apenas 3 bilhões de parâmetros ativos
    • Mostra força em inteligência espacial com RefCOCO (cognição espacial) 92.0 e ODInW13 50.8
    • Também obteve pontuações altas em várias tarefas de visão-linguagem, como RealWorldQA 85.3, MMBench EN-DEV 92.8 e OmniDocBench1.5 89.9
    • Em benchmarks de compreensão de vídeo (VideoMME, VideoMMMU, MLVU etc.), manteve pontuações na faixa de 80 a 86, demonstrando desempenho estável

Uso do Qwen3.6-35B-A3B

  • Implantação e acesso

    • Disponível via Alibaba Cloud Model Studio API (qwen3.6-flash), com download de pesos abertos no Hugging Face e no ModelScope
    • Pode ser testado imediatamente no Qwen Studio e oferece integração com assistentes de codificação de terceiros como OpenClaw, Claude Code e Qwen Code
  • Uso da API

    • Suporta o recurso preserve_thinking, que mantém o conteúdo de thinking de conversas anteriores, sendo adequado para tarefas agentic
    • O Alibaba Cloud Model Studio oferece uma chat completions API compatível com os padrões das APIs da OpenAI e da Anthropic
    • No código de exemplo, a opção enable_thinking permite exibir separadamente o processo de raciocínio (reasoning trace) e a resposta final
  • Integração com OpenClaw

    • O Qwen3.6-35B-A3B é compatível com OpenClaw (antigo Moltbot/Clawdbot) e, ao se conectar ao Model Studio, fornece um ambiente de codificação agentic baseado em terminal
    • É usado mesclando as informações da API do Model Studio ao arquivo de configuração (~/.openclaw/openclaw.json)
    • Pode ser instalado e executado em ambientes com Node.js 22 ou superior
  • Integração com Qwen Code

    • Totalmente compatível com Qwen Code (agente de IA open source para terminal) otimizado para a série Qwen
    • Após a instalação em Node.js 20 ou superior, a autenticação é feita com o comando /auth
  • Integração com Claude Code

    • Como suporta o protocolo da API da Anthropic, também pode ser usado diretamente no Claude Code
    • Basta definir a variável de ambiente ANTHROPIC_MODEL="qwen3.6-flash" e executar a CLI

Resumo e perspectivas

  • O Qwen3.6-35B-A3B prova que uma arquitetura MoE esparsa também pode oferecer capacidade de codificação agentic e raciocínio comparável à de grandes modelos densos
  • Com 3 bilhões de parâmetros ativos, entrega eficiência e desempenho ao mesmo tempo, além de mostrar resultados excelentes em benchmarks multimodais
  • Publicado como checkpoint totalmente open source, apresenta um novo padrão para modelos abertos eficientes
  • A equipe Qwen pretende continuar expandindo a família open source Qwen3.6 e espera feedback e adoção da comunidade

Informações de citação

1 comentários

 
GN⁺ 14 일 전
Comentários do Hacker News
  • Testei a versão Unsloth 20.9GB GGUF no meu notebook com o LM Studio
    Link do modelo
    Surpreendentemente, desenhou um pelicano andando de bicicleta melhor do que o Opus 4.7
    Veja o post de comparação do Simon Willison

    • Reproduzi com o mesmo modelo (M1 Max 64GB, menos de 90 segundos) — imagem do resultado
      O meu resultado tinha sol e nuvens no céu, grama em forma de linhas verdes finas e um efeito de sol com halo
      Também havia uma expressão de “fluxo de ar” parecida com a do Simon, mas no fim o que importa é o pelicano e a bicicleta
    • Resolvi testar graças ao link do GGUF
      Usei no projeto Shoggoth.db para tarefas de exploração de wiki + construção automática de DB
      Deu para sentir que a capacidade de explorar novos seres vivos melhorou em relação ao Qwen3.5
      A velocidade também aumentou para cerca de 140 token/s, e funcionou de forma estável numa RTX 4090 sem offload de memória
      Só foi preciso usar a opção --no-mmproj-offload para evitar conflitos multimodais
    • Fico pensando quando testes como “pelicano andando de bicicleta” vão deixar de ser úteis
      A intenção original era avaliar a criatividade do modelo com prompts estranhos que ninguém tinha imaginado, mas agora parece que virou uma espécie de benchmark interno
    • Não entendi por que o desenho do flamingo do Qwen venceu
      Ele está sentado em cima do pneu, a posição do bico está estranha, e a proporção entre raios da roda e pernas ficou esquisita
      Os óculos escuros também são semitransparentes, então só dá para ver um olho
      É fofo, mas acho que os laços e acessórios não solicitados acabam contando negativamente
      O resultado do Opus era menos chamativo, mas mais preciso
    • Quanto mais olho essas imagens, mais acho que o world model ainda é a peça que falta no quebra-cabeça
      No fim das contas, os modelos atuais ainda parecem ser apenas geradores probabilísticos de frases
  • É bom ver a equipe do Qwen continuar lançando pesos abertos
    Notícia relacionada 1, notícia 2
    É impressionante que o projeto continue mesmo depois da saída de nomes importantes como Junyang Lin

    • É apenas um dos modelos da série Qwen 3.6
      Os modelos menores provavelmente serão lançados em breve, mas o modelo principal 397A17B parece ter ficado de fora
    • Pessoalmente, eu queria ver os pesos abertos do qwen-image 2.0
  • A Unsloth já tem uma versão com quantização e conversão concluídas
    Link do Hugging Face

    • A Unsloth costuma subir quants experimentais rapidamente, mas as versões logo após o lançamento geralmente são corrigidas depois
      Vale conferir de novo depois de uma semana para baixar uma versão mais estável
      Às vezes um modelo bom acaba sendo subestimado por causa de bugs iniciais
    • Fico curioso por que o próprio Qwen não lança modelos quantizados
      Acho que o processo de quantização é complexo e tem risco de perda de qualidade, então talvez fosse melhor o próprio desenvolvedor original fazer isso
      Uma versão quantizada ruim pode acabar prejudicando a reputação do modelo
    • Queria saber a exigência de VRAM. Queria entender se dá para rodar isso até numa GPU de 16GB
    • Queria entender por que a quantização padrão do Qwen é ruim, quem é a Unsloth,
      e quais são as vantagens de um bom formato
      Também seria bom se explicassem o próprio conceito de quantização
    • Queria saber se também dá para usar esse modelo com o comando ollama run claude
  • Gostei de ver esse lançamento da equipe do Qwen
    Modelos pequenos de código com open weights são úteis para criar agentes personalizados em setores específicos (como finanças e saúde), para equipes de desenvolvimento com acesso restrito à nuvem
    No Ocidente, quase ninguém atende esse mercado; a Mistral parece ser a única exceção

    • A Mistral parece ser a única empresa buscando um modelo de negócios sustentável
      As outras empresas de IA passam a impressão de mirar só no lucro de curto prazo
    • Modelos pequenos e abertos são divertidos, mas estão em outra categoria em relação aos grandes modelos hospedados
      Para trabalho sério, é melhor investir em hardware que permita rodar modelos maiores por conta própria
    • Concordo, mas esses modelos pequenos ainda deixam a desejar para uso industrial real
      Mesmo com equipamentos na faixa de 100 mil dólares, já dá para rodar modelos maiores on-premises
    • Fazer um modelo concorrente com open weights é ótimo, mas o custo é alto demais
    • Em setores regulados, fico curioso sobre como verificar que o modelo não foi treinado com dados maliciosos
  • As características de embeddings de linguagem do Qwen são interessantes
    Tweet com análise relacionada
    Dizem que o Qwen, diferente de outros modelos, fica numa bacia de distribuição centrada em prova/teste

  • Um executivo do Qwen fez uma enquete no Twitter perguntando qual modelo o pessoal queria ver como open source,
    e embora a versão 27B tenha sido a mais popular, ela não foi lançada

    • Como aconteceu no 3.5, pode ser que eles liberem aos poucos depois de um processo de destilação
      Como a arquitetura A3B acelera a destilação, talvez saia em breve
    • O 27B é um modelo dense, então em termos de marketing ele é menos atraente que o 35A3B
      Este último parece mais rápido e “inteligente”
    • Provavelmente será lançado em breve
    • Pessoalmente, acho a arquitetura MoE ineficiente
      Com a mesma VRAM, um modelo dense de 27B conseguiria lidar com contexto maior e teria qualidade melhor
  • Usei bastante o Qwen3.5-35B-A3B em testes locais,
    e foi o modelo mais poderoso que consegui rodar no meu hardware
    Especialmente as versões quantizadas Mudler APEX-I-Quality e Byteshape Q3_K_S-3.40bpw me impressionaram
    Num ambiente com RTX 3060 12GB, sobrou memória e a velocidade também melhorou para mais de 40 t/s

    • Depois de testar várias tarefas, o Qwen3.6 é um salto muito maior em relação ao 3.5
      Ele até conseguiu melhorar por conta própria projetos nos quais antes travava
    • Queria saber qual versão quantizada é a melhor
  • Esse é o tipo de lançamento de software de IA que mais me anima
    Sem marketing exagerado de risco, sem assinatura, só um modelo que dá vontade de usar

    • Penso a mesma coisa. Espero que em um futuro próximo os modelos locais e o desempenho do hardware evoluam o suficiente para se tornarem práticos na maioria dos casos de uso
  • Fico curioso sobre como as pessoas realmente usam esses modelos locais
    Queria entender qual é o valor disso em comparação com alugar tokens da Anthropic ou da OpenAI

    • Estou usando o Qwen3.5-9B para extração local de tabelas por OCR
      Como os formatos dos documentos variam muito, antes eu usava um pipeline complexo baseado em regras,
      mas agora a capacidade multimodal permite extração combinando linguagem e visão
    • Eu uso o Qwen3.5-4B junto com o Frigate, um NVR FOSS
      Ele é bom o suficiente para análise de vídeo, e deixo resumo de texto ou tradução para modelos maiores
      Quando não é em tempo real, a qualidade importa mais que a velocidade, então ele é ideal para processamento em lote
    • Eu não quero depender para sempre de um modelo de aluguel de tokens
      Quero um modelo totalmente privado e self-hosted
      Já estou cansado de serviços SaaS sendo descontinuados, então acho que os LLMs também vão acabar indo para o self-hosting
    • Já processei em lote milhões de documentos com vLLM + qwen3-coder-next
      Foi possível usar 100% da GPU sem limite de tokens nem limitação de velocidade
    • Nem toda tarefa precisa de um modelo SOTA
      Por exemplo, uso o Gemma 4 como tradutor offline no iPhone,
      e ele é mais rápido e mais preciso que o Apple Translate
      Em coisas pequenas, como edição de JSON, um modelo local é muito mais eficiente