- Mais recente modelo focado em raciocínio, com desempenho aprimorado em várias áreas, como conhecimento factual, raciocínio complexo e alinhamento com preferências humanas, por meio de aprendizado por reforço em larga escala e expansão de parâmetros
- Em 19 benchmarks, registrou resultados semelhantes ou superiores em algumas áreas a GPT-5.2-Thinking, Claude-Opus-4.5 e Gemini 3 Pro
- Com o recurso de uso adaptativo de ferramentas, aciona automaticamente busca, memória e interpretador de código durante a conversa, ajudando a reduzir alucinações e acessar informações em tempo real
- Com a estratégia de test-time scaling, reduz cálculos repetitivos durante o raciocínio e melhora a eficiência por meio de um mecanismo de acúmulo de experiência baseado em autorreflexão
- Disponível imediatamente via Qwen Chat e API, com compatibilidade com as APIs da OpenAI e da Anthropic, facilitando a integração aos fluxos de trabalho existentes dos desenvolvedores
Visão geral do Qwen3-Max-Thinking
- Qwen3-Max-Thinking é o mais recente modelo de raciocínio flagship da série Qwen, com desempenho ampliado por meio de aprendizado por reforço e uso de recursos computacionais em larga escala
- Melhorias em múltiplas dimensões, como conhecimento factual, raciocínio complexo, seguimento de instruções, alinhamento com preferências humanas e capacidades de agente
- Alcança desempenho em nível semelhante ao de GPT-5.2-Thinking, Claude-Opus-4.5 e Gemini 3 Pro em 19 benchmarks padronizados
- Reforçado por duas inovações principais
- Uso adaptativo de ferramentas (adaptive tool-use): aciona automaticamente busca e interpretador de código quando necessário
- Test-time scaling avançado: usa computação adicional de forma eficiente durante o raciocínio para alcançar desempenho superior ao do Gemini 3 Pro
Resumo do desempenho em benchmarks
- Na área de conhecimento (knowledge), obteve pontuações próximas às dos principais modelos, como MMLU-Pro 85.7 e C-Eval 93.7
- Em STEM, manteve desempenho equilibrado, embora abaixo de alguns modelos, com GPQA 87.4 e HLE 30.2
- Em benchmarks de raciocínio (reasoning), registrou números altos, como HMMT Nov 25 94.7 e LiveCodeBench v6 85.9
- Em seguimento de instruções e alinhamento (instruction following & alignment), atingiu nível máximo com Arena-Hard v2 90.2
- Também apresentou alguns resultados superiores aos de modelos concorrentes em uso de ferramentas (tool use) e busca agêntica (agentic search)
Recurso de uso adaptativo de ferramentas
- Mesmo sem o usuário escolher diretamente as ferramentas, o modelo utiliza automaticamente Search, Memory e Code Interpreter
- Search e Memory reduzem alucinações e permitem acesso a informações em tempo real e respostas personalizadas
- Code Interpreter auxilia na resolução de problemas complexos por meio de execução de código e raciocínio baseado em cálculo
- Esses recursos foram reforçados por um processo adicional de treinamento que combina feedback baseado em regras e feedback baseado em modelo
- Como resultado, oferece uma experiência conversacional natural e poderosa
Estratégia de test-time scaling
- Método que melhora o desempenho ao distribuir computação adicional durante o raciocínio, sendo mais eficiente do que simples amostragem paralela
- A abordagem proposta usa um método multirrodada baseado em acúmulo de experiência com autorreflexão (self-reflective multi-round)
- Por meio do mecanismo “take-experience”, extrai os principais insights da rodada anterior
- Em vez de repetir conclusões já obtidas, foca em incertezas ainda não resolvidas
- Alcança maior eficiência de contexto com o mesmo consumo de tokens
- Melhora de GPQA 90.3→92.8, HLE 34.1→36.5, LiveCodeBench v6 88.0→91.4, IMO-AnswerBench 89.5→91.5 e HLE(w/ tools) 55.8→58.3
Desenvolvimento e integração via API
- Disponível imediatamente no Qwen Chat, com o nome de modelo
qwen3-max-2026-01-23
- Pode ser usado após a criação de uma chave de API via Alibaba Cloud Model Studio
- Totalmente compatível com a API da OpenAI, com exemplo de código em Python fornecido
- O modo de raciocínio pode ser ativado com a opção
enable_thinking
- Também compatível com o protocolo de API da Anthropic, funcionando da mesma forma no ambiente Claude Code
- Pode ser executado com o comando
claude após configurar as variáveis de ambiente
1 comentários
Comentários do Hacker News
Houve uma pergunta sobre uma foto famosa, mas o sistema a detectou como "conteúdo impróprio" e retornou um erro. O usuário queria entender por que essa imagem é importante internacionalmente
Surgiu curiosidade sobre o uso de tokens dos modelos atuais. "Melhorias na capacidade de raciocínio" ou "maior uso de ferramentas" parecem ser menos uma evolução do modelo em si e mais uma forma de guiá-lo melhor usando mais tokens. Ou seja, não é "fazer mais com menos", mas sim "fazer mais usando mais"
Houve dúvida sobre por que, com a busca desligada, ele fica atrás do Opus 4.5, mas com a busca ligada fica melhor. Surgiu até a hipótese de que a qualidade do conteúdo da internet chinesa seria superior
Houve curiosidade sobre a política de preços dos modelos Qwen. Perguntaram se é a mesma tarifa do Qwen Max e por que os preços dentro da China são muito mais baixos
Página de modelos da Alibaba Cloud
Artigo relacionado
No HN, o Opus 4.5 vinha sendo tratado quase como o modelo padrão, e achava-se que os modelos chineses estavam mais de 8 meses atrás. Surgiu a dúvida se este novo modelo vai reduzir essa distância
Já o Gemini 3 Pro/Flash ainda parece um nível abaixo, mas está muito mais rápido e barato do que no ano passado. No fim, benchmarks servem só como referência e a qualidade percebida no uso real é subjetiva
No outono passado, alguém usou o Qwen3-coder em um projeto Rust via o agente CLI trae, e achou que sua capacidade de geração e refatoração de código era melhor que a do Gemini 2.5 Pro e do Claude Opus 3.5.
Ele lidou bem até com adição de chamadas IPC de memória compartilhada no Linux e otimização SIMD para x86_64. Mas, como usava cache de tokens e uma janela de contexto grande, o custo chegava a centenas de dólares por mês
Como não havia link no Hugging Face, surgiu a dúvida se a Qwen não estaria mais publicando modelos abertos
Também perguntaram se ele estará disponível no Open Router. Havia expectativa por uma comparação com o Gemini 3 Flash
Mafia Arena
lmarena.ai, dashboard da safe.ai,
Clock Draw Test, EQBench, OCR Arena
Benchmark de LLM é quase como entrevista para desenvolvedor. O modelo resolve bem problemas complexos de algoritmo distribuído, mas no trabalho real pode adicionar um botão e esquecer de reutilizar classes do Tailwind
Houve uma pergunta sobre o tamanho do modelo
Blog oficial