Modelo Qwen3-Max-Thinking é apresentado

(qwen.ai)

7 pontos por GN⁺ 2026-01-27 | 1 comentários | Compartilhar no WhatsApp

Mais recente modelo focado em raciocínio, com desempenho aprimorado em várias áreas, como conhecimento factual, raciocínio complexo e alinhamento com preferências humanas, por meio de aprendizado por reforço em larga escala e expansão de parâmetros
Em 19 benchmarks, registrou resultados semelhantes ou superiores em algumas áreas a GPT-5.2-Thinking, Claude-Opus-4.5 e Gemini 3 Pro
Com o recurso de uso adaptativo de ferramentas, aciona automaticamente busca, memória e interpretador de código durante a conversa, ajudando a reduzir alucinações e acessar informações em tempo real
Com a estratégia de test-time scaling, reduz cálculos repetitivos durante o raciocínio e melhora a eficiência por meio de um mecanismo de acúmulo de experiência baseado em autorreflexão
Disponível imediatamente via Qwen Chat e API, com compatibilidade com as APIs da OpenAI e da Anthropic, facilitando a integração aos fluxos de trabalho existentes dos desenvolvedores

Visão geral do Qwen3-Max-Thinking

Qwen3-Max-Thinking é o mais recente modelo de raciocínio flagship da série Qwen, com desempenho ampliado por meio de aprendizado por reforço e uso de recursos computacionais em larga escala
- Melhorias em múltiplas dimensões, como conhecimento factual, raciocínio complexo, seguimento de instruções, alinhamento com preferências humanas e capacidades de agente
- Alcança desempenho em nível semelhante ao de GPT-5.2-Thinking, Claude-Opus-4.5 e Gemini 3 Pro em 19 benchmarks padronizados
Reforçado por duas inovações principais
- Uso adaptativo de ferramentas (adaptive tool-use): aciona automaticamente busca e interpretador de código quando necessário
- Test-time scaling avançado: usa computação adicional de forma eficiente durante o raciocínio para alcançar desempenho superior ao do Gemini 3 Pro

Resumo do desempenho em benchmarks

Na área de conhecimento (knowledge), obteve pontuações próximas às dos principais modelos, como MMLU-Pro 85.7 e C-Eval 93.7
Em STEM, manteve desempenho equilibrado, embora abaixo de alguns modelos, com GPQA 87.4 e HLE 30.2
Em benchmarks de raciocínio (reasoning), registrou números altos, como HMMT Nov 25 94.7 e LiveCodeBench v6 85.9
Em seguimento de instruções e alinhamento (instruction following & alignment), atingiu nível máximo com Arena-Hard v2 90.2
Também apresentou alguns resultados superiores aos de modelos concorrentes em uso de ferramentas (tool use) e busca agêntica (agentic search)

Recurso de uso adaptativo de ferramentas

Mesmo sem o usuário escolher diretamente as ferramentas, o modelo utiliza automaticamente Search, Memory e Code Interpreter
- Search e Memory reduzem alucinações e permitem acesso a informações em tempo real e respostas personalizadas
- Code Interpreter auxilia na resolução de problemas complexos por meio de execução de código e raciocínio baseado em cálculo
Esses recursos foram reforçados por um processo adicional de treinamento que combina feedback baseado em regras e feedback baseado em modelo
Como resultado, oferece uma experiência conversacional natural e poderosa

Estratégia de test-time scaling

Método que melhora o desempenho ao distribuir computação adicional durante o raciocínio, sendo mais eficiente do que simples amostragem paralela
A abordagem proposta usa um método multirrodada baseado em acúmulo de experiência com autorreflexão (self-reflective multi-round)
- Por meio do mecanismo “take-experience”, extrai os principais insights da rodada anterior
- Em vez de repetir conclusões já obtidas, foca em incertezas ainda não resolvidas
Alcança maior eficiência de contexto com o mesmo consumo de tokens
- Melhora de GPQA 90.3→92.8, HLE 34.1→36.5, LiveCodeBench v6 88.0→91.4, IMO-AnswerBench 89.5→91.5 e HLE(w/ tools) 55.8→58.3

Desenvolvimento e integração via API

Disponível imediatamente no Qwen Chat, com o nome de modelo qwen3-max-2026-01-23
Pode ser usado após a criação de uma chave de API via Alibaba Cloud Model Studio
Totalmente compatível com a API da OpenAI, com exemplo de código em Python fornecido
- O modo de raciocínio pode ser ativado com a opção enable_thinking
Também compatível com o protocolo de API da Anthropic, funcionando da mesma forma no ambiente Claude Code
- Pode ser executado com o comando claude após configurar as variáveis de ambiente

1 comentários

GN⁺ 2026-01-27

Comentários do Hacker News

Houve uma pergunta sobre uma foto famosa, mas o sistema a detectou como "conteúdo impróprio" e retornou um erro. O usuário queria entender por que essa imagem é importante internacionalmente
- Isso parece ser por causa de um mecanismo de segurança separado. Na prática, modelos anteriores da Qwen, quando servidos fora da China, tratavam até de temas ligados à Praça da Paz Celestial com liberdade. Por exemplo, o Qwen3 235B A22B Instruct 2507 explica em detalhe o contexto histórico da foto do "Tank Man" e até a situação da censura dentro da China. Houve também a análise de que essa própria censura reforçou ainda mais o simbolismo
- Para uma empresa chinesa, seguir a censura é uma obrigação legal, então não chega a ser surpreendente. Ainda assim, fica a dúvida sobre como essas restrições afetam áreas não políticas, como tarefas de programação. Na prática, a Anthropic nos EUA também impõe limitações em forma de "alinhamento (Alignment)" para impedir atividades ilegais
- Os LLMs dos EUA também passam por problemas parecidos de censura. A diferença é apenas o que está sendo censurado
- Houve curiosidade se algum pesquisador estuda a possibilidade de inserir comportamentos maliciosos (backdoors) em LLMs. Alguns artigos dizem que, com apenas alguns poucos exemplos maliciosos, já é possível treinar o modelo para reagir a certas frases de "gatilho". Até manipular o arquivo do tokenizador poderia causar efeitos colaterais como aumento de custo de API ou enfraquecimento de filtros de segurança. Parece ser um debate necessário neste momento
- Também houve quem dissesse que esse tipo de assunto costuma desviar a discussão, e que seria melhor voltar a conversa para os aspectos técnicos dos modelos chineses de IA
Surgiu curiosidade sobre o uso de tokens dos modelos atuais. "Melhorias na capacidade de raciocínio" ou "maior uso de ferramentas" parecem ser menos uma evolução do modelo em si e mais uma forma de guiá-lo melhor usando mais tokens. Ou seja, não é "fazer mais com menos", mas sim "fazer mais usando mais"
- Isso parece mostrar os limites práticos da AGI (inteligência artificial geral). Se forem necessários recursos computacionais demais, mesmo com um avanço técnico o mundo real pode não mudar tanto por um bom tempo. No fim, os recursos de computação para inferência podem virar o gargalo
- Perguntaram ao Gemini sobre consumo de energia em comparação com busca tradicional, e a resposta foi surpreendente: busca com IA seria mais eficiente que busca tradicional. Entre os artigos da arXiv recomendados pelo Perplexity, chamou atenção On the Slow Death of Scaling, de Sara Hooker. O artigo mostra casos em que modelos pequenos superam modelos grandes e defende que os próximos avanços dependem mais de inovação algorítmica do que de força bruta computacional
- Houve a sensação de que são necessárias novas métricas para avaliar a evolução dos modelos. Em vez de olhar só para benchmark, seria preciso considerar também uso de GPU, velocidade e custo
- Houve quem sugerisse Pareto frontier como o conceito adequado para explicar esse equilíbrio entre eficiência e desempenho
- Também apontaram que alguns modelos exibem processos de raciocínio com grande desperdício de tokens, o que na prática os torna ineficientes
Houve dúvida sobre por que, com a busca desligada, ele fica atrás do Opus 4.5, mas com a busca ligada fica melhor. Surgiu até a hipótese de que a qualidade do conteúdo da internet chinesa seria superior
- Isso parece uma inferência exagerada. O mais provável é simplesmente que o desempenho de busca e a qualidade da integração sejam melhores. Como o modelo suporta vários idiomas, ele processa bem sites do mundo todo
- Eu uso o Kagi Assistant e gosto porque ele permite filtrar para buscar apenas material acadêmico. Ainda assim, existe a preocupação de que um dia até artigos acadêmicos acabem contaminados por conteúdo gerado por IA. Mesmo assim, a crença é que no fim encontraremos uma solução
- Também houve a piada: "Talvez seja porque não tem Reddit?"
Houve curiosidade sobre a política de preços dos modelos Qwen. Perguntaram se é a mesma tarifa do Qwen Max e por que os preços dentro da China são muito mais baixos
Página de modelos da Alibaba Cloud
- Dentro da China, a guerra de preços em IA é intensa, e o governo está reduzindo custos de infraestrutura com vouchers de computação e subsídios
  Artigo relacionado
- Provavelmente também é um subsídio para apoiar desenvolvedores domésticos
- O custo menor de energia também pode ser um fator
- Foi apresentado o conceito de precificação de vigilância (surveillance pricing), em que o preço muda conforme região e condições de busca, junto com este link de vídeo
No HN, o Opus 4.5 vinha sendo tratado quase como o modelo padrão, e achava-se que os modelos chineses estavam mais de 8 meses atrás. Surgiu a dúvida se este novo modelo vai reduzir essa distância
- Pelos benchmarks divulgados, ainda parece estar cerca de 6 meses atrás
- Pessoalmente, parece que o GPT-5.2 é melhor e mais barato. O viés pró-Claude Code no HN talvez seja uma racionalização dos próprios assinantes. Ainda assim, o Opus 4.5 é rápido e de alta qualidade, então sua usabilidade real é excelente.
  Já o Gemini 3 Pro/Flash ainda parece um nível abaixo, mas está muito mais rápido e barato do que no ano passado. No fim, benchmarks servem só como referência e a qualidade percebida no uso real é subjetiva
No outono passado, alguém usou o Qwen3-coder em um projeto Rust via o agente CLI trae, e achou que sua capacidade de geração e refatoração de código era melhor que a do Gemini 2.5 Pro e do Claude Opus 3.5.
Ele lidou bem até com adição de chamadas IPC de memória compartilhada no Linux e otimização SIMD para x86_64. Mas, como usava cache de tokens e uma janela de contexto grande, o custo chegava a centenas de dólares por mês
Como não havia link no Hugging Face, surgiu a dúvida se a Qwen não estaria mais publicando modelos abertos
- A versão Max sempre foi um modelo fechado
- Nem todos os modelos são distribuídos com pesos abertos, e este também ainda não parece ser open-weight
Também perguntaram se ele estará disponível no Open Router. Havia expectativa por uma comparação com o Gemini 3 Flash
Mafia Arena
- Ainda não foi listado, mas parece que será adicionado em breve
- Também compartilharam vários sites de benchmark para comparar modelos:
  lmarena.ai, dashboard da safe.ai,
  Clock Draw Test, EQBench, OCR Arena
Benchmark de LLM é quase como entrevista para desenvolvedor. O modelo resolve bem problemas complexos de algoritmo distribuído, mas no trabalho real pode adicionar um botão e esquecer de reutilizar classes do Tailwind
Houve uma pergunta sobre o tamanho do modelo
- O Qwen2.5 foi treinado com 18 trilhões de tokens, mas o Qwen3 foi para 36 trilhões de tokens, quase o dobro. Ele inclui 119 idiomas e dialetos
  Blog oficial

Modelo Qwen3-Max-Thinking é apresentado

Visão geral do Qwen3-Max-Thinking

Resumo do desempenho em benchmarks

Recurso de uso adaptativo de ferramentas

Estratégia de test-time scaling

Desenvolvimento e integração via API

Leituras relacionadas

1 comentários

Comentários do Hacker News