7 pontos por GN⁺ 2026-01-27 | 1 comentários | Compartilhar no WhatsApp
  • Mais recente modelo focado em raciocínio, com desempenho aprimorado em várias áreas, como conhecimento factual, raciocínio complexo e alinhamento com preferências humanas, por meio de aprendizado por reforço em larga escala e expansão de parâmetros
  • Em 19 benchmarks, registrou resultados semelhantes ou superiores em algumas áreas a GPT-5.2-Thinking, Claude-Opus-4.5 e Gemini 3 Pro
  • Com o recurso de uso adaptativo de ferramentas, aciona automaticamente busca, memória e interpretador de código durante a conversa, ajudando a reduzir alucinações e acessar informações em tempo real
  • Com a estratégia de test-time scaling, reduz cálculos repetitivos durante o raciocínio e melhora a eficiência por meio de um mecanismo de acúmulo de experiência baseado em autorreflexão
  • Disponível imediatamente via Qwen Chat e API, com compatibilidade com as APIs da OpenAI e da Anthropic, facilitando a integração aos fluxos de trabalho existentes dos desenvolvedores

Visão geral do Qwen3-Max-Thinking

  • Qwen3-Max-Thinking é o mais recente modelo de raciocínio flagship da série Qwen, com desempenho ampliado por meio de aprendizado por reforço e uso de recursos computacionais em larga escala
    • Melhorias em múltiplas dimensões, como conhecimento factual, raciocínio complexo, seguimento de instruções, alinhamento com preferências humanas e capacidades de agente
    • Alcança desempenho em nível semelhante ao de GPT-5.2-Thinking, Claude-Opus-4.5 e Gemini 3 Pro em 19 benchmarks padronizados
  • Reforçado por duas inovações principais
    • Uso adaptativo de ferramentas (adaptive tool-use): aciona automaticamente busca e interpretador de código quando necessário
    • Test-time scaling avançado: usa computação adicional de forma eficiente durante o raciocínio para alcançar desempenho superior ao do Gemini 3 Pro

Resumo do desempenho em benchmarks

  • Na área de conhecimento (knowledge), obteve pontuações próximas às dos principais modelos, como MMLU-Pro 85.7 e C-Eval 93.7
  • Em STEM, manteve desempenho equilibrado, embora abaixo de alguns modelos, com GPQA 87.4 e HLE 30.2
  • Em benchmarks de raciocínio (reasoning), registrou números altos, como HMMT Nov 25 94.7 e LiveCodeBench v6 85.9
  • Em seguimento de instruções e alinhamento (instruction following & alignment), atingiu nível máximo com Arena-Hard v2 90.2
  • Também apresentou alguns resultados superiores aos de modelos concorrentes em uso de ferramentas (tool use) e busca agêntica (agentic search)

Recurso de uso adaptativo de ferramentas

  • Mesmo sem o usuário escolher diretamente as ferramentas, o modelo utiliza automaticamente Search, Memory e Code Interpreter
    • Search e Memory reduzem alucinações e permitem acesso a informações em tempo real e respostas personalizadas
    • Code Interpreter auxilia na resolução de problemas complexos por meio de execução de código e raciocínio baseado em cálculo
  • Esses recursos foram reforçados por um processo adicional de treinamento que combina feedback baseado em regras e feedback baseado em modelo
  • Como resultado, oferece uma experiência conversacional natural e poderosa

Estratégia de test-time scaling

  • Método que melhora o desempenho ao distribuir computação adicional durante o raciocínio, sendo mais eficiente do que simples amostragem paralela
  • A abordagem proposta usa um método multirrodada baseado em acúmulo de experiência com autorreflexão (self-reflective multi-round)
    • Por meio do mecanismo “take-experience”, extrai os principais insights da rodada anterior
    • Em vez de repetir conclusões já obtidas, foca em incertezas ainda não resolvidas
  • Alcança maior eficiência de contexto com o mesmo consumo de tokens
    • Melhora de GPQA 90.3→92.8, HLE 34.1→36.5, LiveCodeBench v6 88.0→91.4, IMO-AnswerBench 89.5→91.5 e HLE(w/ tools) 55.8→58.3

Desenvolvimento e integração via API

  • Disponível imediatamente no Qwen Chat, com o nome de modelo qwen3-max-2026-01-23
  • Pode ser usado após a criação de uma chave de API via Alibaba Cloud Model Studio
  • Totalmente compatível com a API da OpenAI, com exemplo de código em Python fornecido
    • O modo de raciocínio pode ser ativado com a opção enable_thinking
  • Também compatível com o protocolo de API da Anthropic, funcionando da mesma forma no ambiente Claude Code
    • Pode ser executado com o comando claude após configurar as variáveis de ambiente

1 comentários

 
GN⁺ 2026-01-27
Comentários do Hacker News
  • Houve uma pergunta sobre uma foto famosa, mas o sistema a detectou como "conteúdo impróprio" e retornou um erro. O usuário queria entender por que essa imagem é importante internacionalmente

    • Isso parece ser por causa de um mecanismo de segurança separado. Na prática, modelos anteriores da Qwen, quando servidos fora da China, tratavam até de temas ligados à Praça da Paz Celestial com liberdade. Por exemplo, o Qwen3 235B A22B Instruct 2507 explica em detalhe o contexto histórico da foto do "Tank Man" e até a situação da censura dentro da China. Houve também a análise de que essa própria censura reforçou ainda mais o simbolismo
    • Para uma empresa chinesa, seguir a censura é uma obrigação legal, então não chega a ser surpreendente. Ainda assim, fica a dúvida sobre como essas restrições afetam áreas não políticas, como tarefas de programação. Na prática, a Anthropic nos EUA também impõe limitações em forma de "alinhamento (Alignment)" para impedir atividades ilegais
    • Os LLMs dos EUA também passam por problemas parecidos de censura. A diferença é apenas o que está sendo censurado
    • Houve curiosidade se algum pesquisador estuda a possibilidade de inserir comportamentos maliciosos (backdoors) em LLMs. Alguns artigos dizem que, com apenas alguns poucos exemplos maliciosos, já é possível treinar o modelo para reagir a certas frases de "gatilho". Até manipular o arquivo do tokenizador poderia causar efeitos colaterais como aumento de custo de API ou enfraquecimento de filtros de segurança. Parece ser um debate necessário neste momento
    • Também houve quem dissesse que esse tipo de assunto costuma desviar a discussão, e que seria melhor voltar a conversa para os aspectos técnicos dos modelos chineses de IA
  • Surgiu curiosidade sobre o uso de tokens dos modelos atuais. "Melhorias na capacidade de raciocínio" ou "maior uso de ferramentas" parecem ser menos uma evolução do modelo em si e mais uma forma de guiá-lo melhor usando mais tokens. Ou seja, não é "fazer mais com menos", mas sim "fazer mais usando mais"

    • Isso parece mostrar os limites práticos da AGI (inteligência artificial geral). Se forem necessários recursos computacionais demais, mesmo com um avanço técnico o mundo real pode não mudar tanto por um bom tempo. No fim, os recursos de computação para inferência podem virar o gargalo
    • Perguntaram ao Gemini sobre consumo de energia em comparação com busca tradicional, e a resposta foi surpreendente: busca com IA seria mais eficiente que busca tradicional. Entre os artigos da arXiv recomendados pelo Perplexity, chamou atenção On the Slow Death of Scaling, de Sara Hooker. O artigo mostra casos em que modelos pequenos superam modelos grandes e defende que os próximos avanços dependem mais de inovação algorítmica do que de força bruta computacional
    • Houve a sensação de que são necessárias novas métricas para avaliar a evolução dos modelos. Em vez de olhar só para benchmark, seria preciso considerar também uso de GPU, velocidade e custo
    • Houve quem sugerisse Pareto frontier como o conceito adequado para explicar esse equilíbrio entre eficiência e desempenho
    • Também apontaram que alguns modelos exibem processos de raciocínio com grande desperdício de tokens, o que na prática os torna ineficientes
  • Houve dúvida sobre por que, com a busca desligada, ele fica atrás do Opus 4.5, mas com a busca ligada fica melhor. Surgiu até a hipótese de que a qualidade do conteúdo da internet chinesa seria superior

    • Isso parece uma inferência exagerada. O mais provável é simplesmente que o desempenho de busca e a qualidade da integração sejam melhores. Como o modelo suporta vários idiomas, ele processa bem sites do mundo todo
    • Eu uso o Kagi Assistant e gosto porque ele permite filtrar para buscar apenas material acadêmico. Ainda assim, existe a preocupação de que um dia até artigos acadêmicos acabem contaminados por conteúdo gerado por IA. Mesmo assim, a crença é que no fim encontraremos uma solução
    • Também houve a piada: "Talvez seja porque não tem Reddit?"
  • Houve curiosidade sobre a política de preços dos modelos Qwen. Perguntaram se é a mesma tarifa do Qwen Max e por que os preços dentro da China são muito mais baixos
    Página de modelos da Alibaba Cloud

    • Dentro da China, a guerra de preços em IA é intensa, e o governo está reduzindo custos de infraestrutura com vouchers de computação e subsídios
      Artigo relacionado
    • Provavelmente também é um subsídio para apoiar desenvolvedores domésticos
    • O custo menor de energia também pode ser um fator
    • Foi apresentado o conceito de precificação de vigilância (surveillance pricing), em que o preço muda conforme região e condições de busca, junto com este link de vídeo
  • No HN, o Opus 4.5 vinha sendo tratado quase como o modelo padrão, e achava-se que os modelos chineses estavam mais de 8 meses atrás. Surgiu a dúvida se este novo modelo vai reduzir essa distância

    • Pelos benchmarks divulgados, ainda parece estar cerca de 6 meses atrás
    • Pessoalmente, parece que o GPT-5.2 é melhor e mais barato. O viés pró-Claude Code no HN talvez seja uma racionalização dos próprios assinantes. Ainda assim, o Opus 4.5 é rápido e de alta qualidade, então sua usabilidade real é excelente.
      Já o Gemini 3 Pro/Flash ainda parece um nível abaixo, mas está muito mais rápido e barato do que no ano passado. No fim, benchmarks servem só como referência e a qualidade percebida no uso real é subjetiva
  • No outono passado, alguém usou o Qwen3-coder em um projeto Rust via o agente CLI trae, e achou que sua capacidade de geração e refatoração de código era melhor que a do Gemini 2.5 Pro e do Claude Opus 3.5.
    Ele lidou bem até com adição de chamadas IPC de memória compartilhada no Linux e otimização SIMD para x86_64. Mas, como usava cache de tokens e uma janela de contexto grande, o custo chegava a centenas de dólares por mês

  • Como não havia link no Hugging Face, surgiu a dúvida se a Qwen não estaria mais publicando modelos abertos

    • A versão Max sempre foi um modelo fechado
    • Nem todos os modelos são distribuídos com pesos abertos, e este também ainda não parece ser open-weight
  • Também perguntaram se ele estará disponível no Open Router. Havia expectativa por uma comparação com o Gemini 3 Flash
    Mafia Arena

  • Benchmark de LLM é quase como entrevista para desenvolvedor. O modelo resolve bem problemas complexos de algoritmo distribuído, mas no trabalho real pode adicionar um botão e esquecer de reutilizar classes do Tailwind

  • Houve uma pergunta sobre o tamanho do modelo

    • O Qwen2.5 foi treinado com 18 trilhões de tokens, mas o Qwen3 foi para 36 trilhões de tokens, quase o dobro. Ele inclui 119 idiomas e dialetos
      Blog oficial