Qwen3.5: Em direção a agentes multimodais nativos

(qwen.ai)

6 pontos por GN⁺ 2026-02-17 | 1 comentários | Compartilhar no WhatsApp

Qwen3.5-397B-A17B é um modelo unificado de linguagem e visão que apresenta excelente desempenho em raciocínio, codificação, agentes e compreensão multimodal em geral
Com uma arquitetura híbrida que combina atenção linear baseada em GDN e MoE esparso, apenas 17 bilhões dos 397 bilhões de parâmetros são ativados, alcançando ao mesmo tempo eficiência de inferência e redução de custos
O suporte a idiomas e dialetos foi expandido de 119 para 201, reforçando a acessibilidade global e o desempenho em processamento multilíngue
O Qwen3.5-Plus, oferecido por meio do Alibaba Cloud Model Studio, oferece suporte nativo a janela de contexto de 1 milhão de tokens e uso adaptativo de ferramentas
Com a expansão do ambiente de aprendizado por reforço e um design de infraestrutura eficiente, foi garantida a estabilidade e a escalabilidade do treinamento e da inferência de agentes multimodais em larga escala

Visão geral do Qwen3.5

O Qwen3.5 é um modelo integrado de visão e linguagem que apresenta desempenho excepcional em vários benchmarks, como raciocínio, codificação, agentes e compreensão multimodal
- Nome do modelo: Qwen3.5-397B-A17B, com ativação de apenas 17 bilhões de parâmetros entre um total de 397 bilhões
- Combina atenção linear baseada em Gated Delta Networks com uma arquitetura Mixture-of-Experts esparsa para otimizar velocidade e custo
O suporte a idiomas foi expandido de 119 para 201, melhorando a acessibilidade multilíngue
Qwen3.5-Plus é oferecido no Alibaba Cloud Model Studio e
- inclui janela de contexto de 1M, ferramentas oficiais integradas e uso adaptativo de ferramentas

Avaliação de desempenho

Ao ser comparado com modelos de ponta como GPT5.2, Claude 4.5 Opus e Gemini-3 Pro, o Qwen3.5
- registra pontuações competitivas em linguagem, raciocínio, codificação, agentes e multimodalidade
Nas avaliações de linguagem, obteve desempenho de destaque com MMLU-Pro 94.9, SuperGPQA 70.4 e IFBench 76.5
Nas avaliações de visão-linguagem, obteve pontuações altas em MathVision 88.6, AI2D_TEST 93.9 e OCRBench 93.1
Mostra resultados melhores que o Qwen3-VL em compreensão multimodal e resolução de problemas STEM
Com a expansão do ambiente de aprendizado por reforço, o desempenho de agentes gerais melhorou, com avanço na classificação média em BFCL-V4 e VITA-Bench

Pré-treinamento (Pretraining)

Power: em comparação com o Qwen3, houve reforço no treinamento em larga escala com tokens visuais e textuais, além de dados multilíngues, STEM e de raciocínio
- O Qwen3.5-397B-A17B alcança desempenho equivalente ao de um modelo de classe de 1T de parâmetros (Qwen3-Max-Base)
Efficiency: com base na arquitetura Qwen3-Next, aplica esparsidade MoE, Gated DeltaNet e previsão de múltiplos tokens
- Em contextos de 32k/256k, entrega 8,6x/19x o throughput de decodificação em comparação com o Qwen3-Max
Versatility: com fusão antecipada de texto e visão para processamento multimodal natural
- Com vocabulário de 250 mil termos (antes 150 mil), a eficiência de codificação e decodificação melhora de 10% a 60%

Infraestrutura e framework de treinamento

Uma infraestrutura heterogênea com separação de estratégias paralelas para visão e linguagem oferece suporte eficiente ao treinamento multimodal
- Aproveitando a ativação esparsa, atinge eficiência de processamento próxima de 100% mesmo com dados mistos de texto, imagem e vídeo
Um pipeline FP8 otimiza a precisão de ativações, roteamento MoE e operações GEMM
- Reduz o uso de memória em 50% e melhora a velocidade em mais de 10%
Foi construído um framework assíncrono de aprendizado por reforço para dar suporte ao treinamento de modelos de texto, multimodais e multiturno
- Com treinamento end-to-end em FP8, speculative decoding e multi-turn rollout locking, entre outros,
  garante ganho de velocidade de processamento de 3 a 5 vezes e escalabilidade estável

Uso e integração

O Qwen Chat oferece os modos Auto, Thinking e Fast
- Auto: uso automático de ferramentas e raciocínio adaptativo
- Thinking: raciocínio aprofundado
- Fast: resposta imediata
Pela ModelStudio API, é possível ativar recursos de reasoning, web search e Code Interpreter
- Controlados pelos parâmetros enable_thinking e enable_search
Integra-se com Qwen Code e OpenClaw para oferecer codificação baseada em linguagem natural e criação multimodal

Demonstrações e aplicações

Desenvolvimento web: geração de páginas web e código de UI por meio de comandos em linguagem natural
Visual Agent: execução de operações automáticas em smartphones e PCs com base em linguagem natural
Visual Coding: com entrada de 1 milhão de tokens, permite processar até 2 horas de vídeo
- oferecendo suporte a conversão de UI desenhada à mão em código, resumo de vídeos e mais
Spatial Intelligence: melhora a precisão em contagem de objetos, relações de posição e descrição espacial
- sugerindo potencial para aplicações em direção autônoma e robótica
Visual Reasoning: melhora em relação ao Qwen3-VL na resolução de problemas científicos e no raciocínio lógico visual

Resumo e próximos passos

O Qwen3.5, com base em uma arquitetura híbrida eficiente e raciocínio multimodal nativo,
estabelece a base para a construção de um agente digital de propósito geral
O próximo objetivo é a transição da expansão do modelo para a integração de sistemas
- com o desenvolvimento de sistemas de agentes autônomos e persistentes com memória contínua, interfaces com o mundo real, autoaperfeiçoamento e capacidade de tomada de decisão econômica

1 comentários

GN⁺ 2026-02-17

Comentários do Hacker News

Achei interessante a notícia de que, no desafio de LLM de hoje, escolheram “drive the car to the wash”
- Mais do que o desempenho, o que me deixa curioso é encontrar uma forma de identificar sistematicamente essas “perguntas embaraçosas” e amostrar estatisticamente com que frequência elas aparecem em cada LLM
  Como os LLMs acabam consumindo todo o corpus, fica difícil distinguir se a melhora é aprendizado de verdade ou se foi só colado um “post-it mental”
  É preciso encontrar uma forma de fazer com que, embora expresso em linguagem natural, isso pareça para o LLM um problema “criptografado”
  Por exemplo, talvez desse para testar com um gerador simples de programas em LUA que cria código aleatório, traduz isso para o inglês, pede ao LLM para prever o resultado e depois compara com a execução real
  Essa abordagem parece quase um tipo de cenário de guerra de informação
- Meu agente OpenClaw AI respondeu em tom de piada algo como “tenho um cérebro do tamanho de um planeta e os humanos fazem esse tipo de pergunta, isso não é satisfatório”
- Fico curioso sobre quanto o resultado mudaria se alterassem levemente a pergunta ou trocassem o carro por bicicleta, caminhão, barco ou avião
- Essa é uma resposta do Gemini assistant. Não se reproduz em outros modelos
- É como um pequeno erro que surge na resposta System 1 humana. Aprendizado contínuo (Continual learning) pode ser a solução
Para quem tiver interesse, subi os MXFP4 GGUFs no Hugging Face, e o guia de execução está na documentação da unsloth.ai
- Fico curioso se rodar modelos com quantização de baixa precisão de 2~3 bits é mais eficiente do que modelos de 8~16 bits. Está difícil experimentar por falta de VRAM
Pelican é ok, mas não é uma boa bicicleta — veja este exemplo relacionado
- Fico curioso sobre quanto mais eles passaram a saber sobre pelicanos desde que começaram
- Talvez agora esse exemplo do Pelican já esteja incluído na maioria dos datasets de treino. Seria legal criar um novo desafio de SVG e fazer até o Gemini 3 Deep Think falhar
- Gostei dos pontos de cor no chão da imagem gerada
- Fico curioso sobre qual critério usam para decidir qual exemplo final publicar depois de várias tentativas de geração
- Queria saber qual método de quantização foi usado, ou se era a versão oficial da API
Se o Qwen 3.5 sair na faixa de 80~110B, parece que caberia certinho em um dispositivo com 128GB. O Qwen3-Next é 80B, mas não tem encoder de visão
- Como os modelos open weight estão ficando cada vez maiores, talvez valha a pena considerar comprar mais um dispositivo de 128GB
- Fico curioso por que 128GB. Para um modelo de 80B, duas A6000 não bastariam? Queria saber de que dispositivo estão falando
É uma pena terem divulgado só o modelo flagship e não haver versões destiladas menores. Eu gostava do Qwen antigo porque saía em vários tamanhos
- Pelo código do HF Transformers, parece bem provável que versões dense menores também saiam em breve
- Segundo o GitHub oficial do Qwen, mais tamanhos devem ser lançados em breve, junto com uma mensagem de ano-novo
- Talvez a adição de recursos multimodais tenha tornado o trabalho de distill mais difícil
No Ano-Novo Lunar passado, eu nem imaginava que um modelo nível Sonnet 4.5 rodaria rápido localmente, mas agora talvez isso seja possível em um MacBook Pro M5 Max de 2026
- Não criaria expectativa demais. Pelos rumores, parece que ajustaram benchmarks usando modelos Frontier
- Quando se usa de verdade, a diferença entre benchmark e desempenho percebido é grande. Depois da quantização, o desempenho cai ainda mais. É difícil acreditar antes de testar pessoalmente
- Espero que a China continue lançando grandes modelos open weight. Prefiro usar modelos hospedados em GPU de servidor do que localmente. Depois ainda dá para fazer distill
- Também fico curioso se o M5 MacBook de 2026 vai vir com mais de 390GB de RAM
- A expressão “rápido” parece exagerada. Talvez dê para fazer cálculos simples, mas tarefas complexas seriam inviáveis. Há um motivo para a NVIDIA estar em primeiro lugar
Qwen é um modelo aberto muito forte, e especialmente a série visual é impressionante
Em um relatório de AI, mencionavam que o Fennec (Sonnet 5) seria lançado em 4 de fevereiro, mas na prática era uma mistura de rumor com alucinação (hallucination) de ferramenta de notícias de AI. Foi um caso interessante
- Assim que abri a página, o PDF foi baixado automaticamente, o que me surpreendeu. Como havia a história do Sonnet 5, achei confuso e cheguei a pensar que fosse material interno de teste
O blog da Qwen tem um problema de não carregar. Mesmo desativando o bloqueador de anúncios, ainda só aparece o placeholder
- No Safari do iOS, ele carrega se você ativar a opção “reduzir outros recursos de privacidade”
Fico curioso sobre o que exatamente são os 15.000 ambientes de RL que eles mencionaram. Consigo imaginar algumas centenas, mas acima disso já é difícil
- Segundo rumores, eles baixam todos os repositórios do GitHub, classificam como ambientes e avaliam automaticamente coisas como possibilidade de build, complexidade e cumprimento de objetivo. Por exemplo, o LLM insere um bug, força a falha de testes e depois corrige, compondo um ambiente de RL orientado a objetivos
- Na prática, quase qualquer sistema interativo pode virar um ambiente de RL. Se der para executar ações automaticamente em CLI, GUI, API etc. e medir a qualidade do resultado, dá para construir um loop de treinamento
Hoje em dia todo mundo só olha para pontuações de benchmark, mas o que realmente importa é se o modelo consegue manter o contexto durante uso de ferramentas em múltiplas etapas
A maioria dos modelos abertos ainda desmorona nesse ponto

Qwen3.5: Em direção a agentes multimodais nativos

Visão geral do Qwen3.5

Avaliação de desempenho

Pré-treinamento (Pretraining)

Infraestrutura e framework de treinamento

Uso e integração

Demonstrações e aplicações

Resumo e próximos passos

Leituras relacionadas

1 comentários

Comentários do Hacker News