6 pontos por GN⁺ 2026-02-17 | 1 comentários | Compartilhar no WhatsApp
  • Qwen3.5-397B-A17B é um modelo unificado de linguagem e visão que apresenta excelente desempenho em raciocínio, codificação, agentes e compreensão multimodal em geral
  • Com uma arquitetura híbrida que combina atenção linear baseada em GDN e MoE esparso, apenas 17 bilhões dos 397 bilhões de parâmetros são ativados, alcançando ao mesmo tempo eficiência de inferência e redução de custos
  • O suporte a idiomas e dialetos foi expandido de 119 para 201, reforçando a acessibilidade global e o desempenho em processamento multilíngue
  • O Qwen3.5-Plus, oferecido por meio do Alibaba Cloud Model Studio, oferece suporte nativo a janela de contexto de 1 milhão de tokens e uso adaptativo de ferramentas
  • Com a expansão do ambiente de aprendizado por reforço e um design de infraestrutura eficiente, foi garantida a estabilidade e a escalabilidade do treinamento e da inferência de agentes multimodais em larga escala

Visão geral do Qwen3.5

  • O Qwen3.5 é um modelo integrado de visão e linguagem que apresenta desempenho excepcional em vários benchmarks, como raciocínio, codificação, agentes e compreensão multimodal
    • Nome do modelo: Qwen3.5-397B-A17B, com ativação de apenas 17 bilhões de parâmetros entre um total de 397 bilhões
    • Combina atenção linear baseada em Gated Delta Networks com uma arquitetura Mixture-of-Experts esparsa para otimizar velocidade e custo
  • O suporte a idiomas foi expandido de 119 para 201, melhorando a acessibilidade multilíngue
  • Qwen3.5-Plus é oferecido no Alibaba Cloud Model Studio e
    • inclui janela de contexto de 1M, ferramentas oficiais integradas e uso adaptativo de ferramentas

Avaliação de desempenho

  • Ao ser comparado com modelos de ponta como GPT5.2, Claude 4.5 Opus e Gemini-3 Pro, o Qwen3.5
    • registra pontuações competitivas em linguagem, raciocínio, codificação, agentes e multimodalidade
  • Nas avaliações de linguagem, obteve desempenho de destaque com MMLU-Pro 94.9, SuperGPQA 70.4 e IFBench 76.5
  • Nas avaliações de visão-linguagem, obteve pontuações altas em MathVision 88.6, AI2D_TEST 93.9 e OCRBench 93.1
  • Mostra resultados melhores que o Qwen3-VL em compreensão multimodal e resolução de problemas STEM
  • Com a expansão do ambiente de aprendizado por reforço, o desempenho de agentes gerais melhorou, com avanço na classificação média em BFCL-V4 e VITA-Bench

Pré-treinamento (Pretraining)

  • Power: em comparação com o Qwen3, houve reforço no treinamento em larga escala com tokens visuais e textuais, além de dados multilíngues, STEM e de raciocínio
    • O Qwen3.5-397B-A17B alcança desempenho equivalente ao de um modelo de classe de 1T de parâmetros (Qwen3-Max-Base)
  • Efficiency: com base na arquitetura Qwen3-Next, aplica esparsidade MoE, Gated DeltaNet e previsão de múltiplos tokens
    • Em contextos de 32k/256k, entrega 8,6x/19x o throughput de decodificação em comparação com o Qwen3-Max
  • Versatility: com fusão antecipada de texto e visão para processamento multimodal natural
    • Com vocabulário de 250 mil termos (antes 150 mil), a eficiência de codificação e decodificação melhora de 10% a 60%

Infraestrutura e framework de treinamento

  • Uma infraestrutura heterogênea com separação de estratégias paralelas para visão e linguagem oferece suporte eficiente ao treinamento multimodal
    • Aproveitando a ativação esparsa, atinge eficiência de processamento próxima de 100% mesmo com dados mistos de texto, imagem e vídeo
  • Um pipeline FP8 otimiza a precisão de ativações, roteamento MoE e operações GEMM
    • Reduz o uso de memória em 50% e melhora a velocidade em mais de 10%
  • Foi construído um framework assíncrono de aprendizado por reforço para dar suporte ao treinamento de modelos de texto, multimodais e multiturno
    • Com treinamento end-to-end em FP8, speculative decoding e multi-turn rollout locking, entre outros,
      garante ganho de velocidade de processamento de 3 a 5 vezes e escalabilidade estável

Uso e integração

  • O Qwen Chat oferece os modos Auto, Thinking e Fast
    • Auto: uso automático de ferramentas e raciocínio adaptativo
    • Thinking: raciocínio aprofundado
    • Fast: resposta imediata
  • Pela ModelStudio API, é possível ativar recursos de reasoning, web search e Code Interpreter
    • Controlados pelos parâmetros enable_thinking e enable_search
  • Integra-se com Qwen Code e OpenClaw para oferecer codificação baseada em linguagem natural e criação multimodal

Demonstrações e aplicações

  • Desenvolvimento web: geração de páginas web e código de UI por meio de comandos em linguagem natural
  • Visual Agent: execução de operações automáticas em smartphones e PCs com base em linguagem natural
  • Visual Coding: com entrada de 1 milhão de tokens, permite processar até 2 horas de vídeo
    • oferecendo suporte a conversão de UI desenhada à mão em código, resumo de vídeos e mais
  • Spatial Intelligence: melhora a precisão em contagem de objetos, relações de posição e descrição espacial
    • sugerindo potencial para aplicações em direção autônoma e robótica
  • Visual Reasoning: melhora em relação ao Qwen3-VL na resolução de problemas científicos e no raciocínio lógico visual

Resumo e próximos passos

  • O Qwen3.5, com base em uma arquitetura híbrida eficiente e raciocínio multimodal nativo,
    estabelece a base para a construção de um agente digital de propósito geral
  • O próximo objetivo é a transição da expansão do modelo para a integração de sistemas
    • com o desenvolvimento de sistemas de agentes autônomos e persistentes com memória contínua, interfaces com o mundo real, autoaperfeiçoamento e capacidade de tomada de decisão econômica

1 comentários

 
GN⁺ 2026-02-17
Comentários do Hacker News
  • Achei interessante a notícia de que, no desafio de LLM de hoje, escolheram “drive the car to the wash”

    • Mais do que o desempenho, o que me deixa curioso é encontrar uma forma de identificar sistematicamente essas “perguntas embaraçosas” e amostrar estatisticamente com que frequência elas aparecem em cada LLM
      Como os LLMs acabam consumindo todo o corpus, fica difícil distinguir se a melhora é aprendizado de verdade ou se foi só colado um “post-it mental”
      É preciso encontrar uma forma de fazer com que, embora expresso em linguagem natural, isso pareça para o LLM um problema “criptografado”
      Por exemplo, talvez desse para testar com um gerador simples de programas em LUA que cria código aleatório, traduz isso para o inglês, pede ao LLM para prever o resultado e depois compara com a execução real
      Essa abordagem parece quase um tipo de cenário de guerra de informação
    • Meu agente OpenClaw AI respondeu em tom de piada algo como “tenho um cérebro do tamanho de um planeta e os humanos fazem esse tipo de pergunta, isso não é satisfatório”
    • Fico curioso sobre quanto o resultado mudaria se alterassem levemente a pergunta ou trocassem o carro por bicicleta, caminhão, barco ou avião
    • Essa é uma resposta do Gemini assistant. Não se reproduz em outros modelos
    • É como um pequeno erro que surge na resposta System 1 humana. Aprendizado contínuo (Continual learning) pode ser a solução
  • Para quem tiver interesse, subi os MXFP4 GGUFs no Hugging Face, e o guia de execução está na documentação da unsloth.ai

    • Fico curioso se rodar modelos com quantização de baixa precisão de 2~3 bits é mais eficiente do que modelos de 8~16 bits. Está difícil experimentar por falta de VRAM
  • Pelican é ok, mas não é uma boa bicicleta — veja este exemplo relacionado

    • Fico curioso sobre quanto mais eles passaram a saber sobre pelicanos desde que começaram
    • Talvez agora esse exemplo do Pelican já esteja incluído na maioria dos datasets de treino. Seria legal criar um novo desafio de SVG e fazer até o Gemini 3 Deep Think falhar
    • Gostei dos pontos de cor no chão da imagem gerada
    • Fico curioso sobre qual critério usam para decidir qual exemplo final publicar depois de várias tentativas de geração
    • Queria saber qual método de quantização foi usado, ou se era a versão oficial da API
  • Se o Qwen 3.5 sair na faixa de 80~110B, parece que caberia certinho em um dispositivo com 128GB. O Qwen3-Next é 80B, mas não tem encoder de visão

    • Como os modelos open weight estão ficando cada vez maiores, talvez valha a pena considerar comprar mais um dispositivo de 128GB
    • Fico curioso por que 128GB. Para um modelo de 80B, duas A6000 não bastariam? Queria saber de que dispositivo estão falando
  • É uma pena terem divulgado só o modelo flagship e não haver versões destiladas menores. Eu gostava do Qwen antigo porque saía em vários tamanhos

    • Pelo código do HF Transformers, parece bem provável que versões dense menores também saiam em breve
    • Segundo o GitHub oficial do Qwen, mais tamanhos devem ser lançados em breve, junto com uma mensagem de ano-novo
    • Talvez a adição de recursos multimodais tenha tornado o trabalho de distill mais difícil
  • No Ano-Novo Lunar passado, eu nem imaginava que um modelo nível Sonnet 4.5 rodaria rápido localmente, mas agora talvez isso seja possível em um MacBook Pro M5 Max de 2026

    • Não criaria expectativa demais. Pelos rumores, parece que ajustaram benchmarks usando modelos Frontier
    • Quando se usa de verdade, a diferença entre benchmark e desempenho percebido é grande. Depois da quantização, o desempenho cai ainda mais. É difícil acreditar antes de testar pessoalmente
    • Espero que a China continue lançando grandes modelos open weight. Prefiro usar modelos hospedados em GPU de servidor do que localmente. Depois ainda dá para fazer distill
    • Também fico curioso se o M5 MacBook de 2026 vai vir com mais de 390GB de RAM
    • A expressão “rápido” parece exagerada. Talvez dê para fazer cálculos simples, mas tarefas complexas seriam inviáveis. Há um motivo para a NVIDIA estar em primeiro lugar
  • Qwen é um modelo aberto muito forte, e especialmente a série visual é impressionante
    Em um relatório de AI, mencionavam que o Fennec (Sonnet 5) seria lançado em 4 de fevereiro, mas na prática era uma mistura de rumor com alucinação (hallucination) de ferramenta de notícias de AI. Foi um caso interessante

    • Assim que abri a página, o PDF foi baixado automaticamente, o que me surpreendeu. Como havia a história do Sonnet 5, achei confuso e cheguei a pensar que fosse material interno de teste
  • O blog da Qwen tem um problema de não carregar. Mesmo desativando o bloqueador de anúncios, ainda só aparece o placeholder

    • No Safari do iOS, ele carrega se você ativar a opção “reduzir outros recursos de privacidade
  • Fico curioso sobre o que exatamente são os 15.000 ambientes de RL que eles mencionaram. Consigo imaginar algumas centenas, mas acima disso já é difícil

    • Segundo rumores, eles baixam todos os repositórios do GitHub, classificam como ambientes e avaliam automaticamente coisas como possibilidade de build, complexidade e cumprimento de objetivo. Por exemplo, o LLM insere um bug, força a falha de testes e depois corrige, compondo um ambiente de RL orientado a objetivos
    • Na prática, quase qualquer sistema interativo pode virar um ambiente de RL. Se der para executar ações automaticamente em CLI, GUI, API etc. e medir a qualidade do resultado, dá para construir um loop de treinamento
  • Hoje em dia todo mundo só olha para pontuações de benchmark, mas o que realmente importa é se o modelo consegue manter o contexto durante uso de ferramentas em múltiplas etapas
    A maioria dos modelos abertos ainda desmorona nesse ponto