Qwen3.7-Max: a fronteira dos agentes
(qwen.ai)- Qwen3.7-Max é um modelo proprietário centrado em agentes, voltado para codificação e depuração, automação de escritório e execução autônoma com centenas a milhares de etapas
- Em avaliações de codificação, agentes gerais, raciocínio e multilinguismo, compete com modelos rivais, registrando 69,7 pontos no Terminal Bench 2.0-Terminus e 92,4 pontos no GPQA Diamond
- Em 35 horas de otimização autônoma de kernel, realizou 1.158 chamadas de ferramentas e 432 avaliações, alcançando melhoria geométrica média de 10,0x de velocidade em relação ao Triton
- Separa as instâncias de treinamento em Task·Harness·Verifier para realizar treinamento RL cross-harness e induzir resolução de problemas generalizada, em vez de atalhos específicos de um harness
- A API será disponibilizada em breve via Alibaba Cloud Model Studio e poderá ser integrada a frameworks de agentes como Claude Code, OpenClaw e Qwen Code
Avaliação de desempenho
- O Qwen3.7-Max foi avaliado junto com vários modelos comparativos nas áreas de agentes de codificação, agentes gerais, STEM e raciocínio, capacidades gerais e multilinguismo
- Células vazias (
--) significam que a pontuação ainda não foi fornecida -
Agentes de codificação
- No Terminal Bench 2.0-Terminus, obteve 69,7 pontos, superando os 67,9 do DS-V4-Pro Max
- No SWE-Verified, marcou 80,4 pontos, em nível semelhante ao Opus-4.6 Max com 80,8 e ao DS-V4-Pro Max com 80,6
- Registrou 60,6 pontos no SWE-Pro, 78,3 no SWE-Multilingual, 53,5 no SciCode e 1608 no QwenSVG
- O NL2repo foi avaliado com Claude Code, com comandos Bash como
pip download,pip installegit clonedesativados para impedir tentativas de acesso a repositórios específicos - O QwenWebDev é um benchmark interno de geração de código frontend bilíngue em inglês e chinês, usando 7 categorias, renderização automática, julgamento multimodal e pontuação BT/Elo
-
Agentes gerais
- No MCP-Mark, marcou 60,8 pontos, acima dos 57,5 do GLM-5.1, e no MCP-Atlas fez 76,4 pontos, superando os 75,8 do Opus-4.6
- No Skillsbench, obteve 59,2 pontos, acima dos 56,2 do K2.6
- No Kernel Bench L3, registrou ganho mediano de velocidade de 1,98x e taxa de vitória de 96%, mostrando capacidade em otimização de kernels GPU
- No BFCL-V4 marcou 75,0, no Qwenclaw 64,3 e no ClawEval 65,2, aproximando-se do Opus-4.6 Max
- No SpreadSheetBench-v1, obteve 87,0 pontos, mostrando forte desempenho também em benchmarks de automação de escritório
- O QwenClawBench foi aberto como benchmark open source de agentes Claw que reflete a distribuição de usuários reais
- O CoWorkBench é um benchmark interno colaborativo para tarefas longas em domínios de produtividade como ciência da computação, finanças, direito e saúde
-
Raciocínio
- No GPQA Diamond, marcou 92,4 pontos, superando os 91,3 do Opus-4.6
- No HLE, fez 41,4 pontos, acima dos 40,0 do Opus-4.6, e no HMMT 2026 Feb marcou 97,1, superando os 96,2 do Opus-4.6
- No IMOAnswerBench, obteve 90,0 pontos, acima dos 89,8 do DS-V4-Pro, e no Apex fez 44,5, superando os 38,3 do DS-V4-Pro
- Para cenários de raciocínio, recomenda-se um system prompt começando com
Reasoning effort is set to xhigh...
-
Capacidades gerais e multilinguismo
- No IFBench, marcou 79,1 pontos, acima dos 77,0 do DS-V4-Pro, mostrando desempenho preciso em seguir instruções
- No WMT24++ registrou 85,8 pontos e no MAXIFE 89,2, mostrando força também em compreensão multilíngue e qualidade de tradução
- No SuperGPQA fez 73,6 pontos e no QwenWorldBench 57,3
- O WMT24++ é um subconjunto mais difícil do WMT24 e usa a média de pontuação XCOMET-XXL em 55 idiomas
- O MAXIFE mede a precisão em 23 configurações de prompts em inglês e multilíngues
- O MMLU-ProX usa a média de precisão em 29 idiomas
Condições de avaliação e detalhes dos benchmarks
- O Terminal-Bench 2.0 foi avaliado com harness Harbor/Terminus-2, limite de 5 horas, 12 CPU/24 GB de RAM,
temp=1.0,top_p=0.95,top_k=20, máximo de 80K tokens, contexto de 256K e média de 5 execuções - A família SWE-Bench usa um scaffold interno de agente e ferramentas de Bash e edição de arquivos, com avaliação em
temp=1.0,top_p=0.95e janela de contexto de 200K - O SkillsBench foi avaliado com OpenCode, usando média de 5 execuções em 78 tarefas, excluindo 9 tarefas dependentes de APIs externas
- O MCP-Mark usa GitHub MCP v0.30.3 e truncou respostas do Playwright em 32K tokens
- O MCP-Atlas usa pontuação do conjunto público e o julgador
gemini-2.5-pro - O Kernel Bench L3 reporta, em 50 problemas, a mediana do ganho de velocidade por problema em relação ao PyTorch eager e a proporção de problemas em que foi mais rápido que
torch.compile - Cada amostra de teste do Kernel Bench L3 roda em um contêiner Docker isolado com 1 GPU H100 80GB, com acesso à internet limitado à codebase CUTLASS e à documentação oficial do CUDA
- O Kernel Bench L3 usa limite de 500 chamadas de ferramentas e parada antecipada após 100 turnos sem melhora, detecta possível comportamento de hacking com GPT-5.4(xhigh) e mede o tempo em nível de kernel com CUPTI
- O MRCR-v2 é um subconjunto de contexto 128K com 8 needles e adota o protocolo mrcr_v2 do eval_hub do Google DeepMind
Assistente colaborativo de produtividade
- O Qwen3.7-Max mira o papel de colega avançado para produtividade no trabalho real, realizando síntese complexa de informações, análise e modelagem profundas de dados e geração de documentos e visualizações publicáveis
- Tem compatibilidade básica com os principais harnesses de agentes e, em tarefas longas, oferece planejamento autônomo e execução contínua por várias horas
- Eleva gradualmente a qualidade de saída por meio de milhares de chamadas de ferramentas e dezenas de iterações de refinamento
- Afirma conseguir concluir end-to-end, em poucas horas, projetos complexos que normalmente exigiriam 1 a 2 semanas de uma equipe especializada
Treinamento de agentes e generalização
- Com base na abordagem de environment scaling introduzida no Qwen3.5, o Qwen3.7 expande a qualidade e a diversidade dos ambientes de treinamento de agentes
- Parte da observação de que, assim como modelos de linguagem generalizam a partir de diversos textos de pré-treinamento, as capacidades de agentes também generalizam a partir de ambientes variados de treinamento
- Todos os benchmarks de avaliação consistem em ambientes totalmente novos e out-of-domain, não incluídos no treinamento
- O environment scaling cria uma trajetória clara e consistente de melhoria, e o Qwen3.7-Max alcançou uma classificação média top 3 próxima ao Claude-4.6-Opus-Max
- Os ganhos de desempenho em subconjuntos de benchmarks são consistentes a ponto de prever melhorias relativas nos benchmarks restantes e na média geral, sugerindo generalização de capacidades em vez de melhorias específicas de benchmark
- Análises adicionais da dinâmica de scaling e da metodologia serão tratadas em um futuro relatório técnico
Generalização cross-harness
- A infraestrutura de rollout separa cada instância de treinamento em três componentes ortogonais: Task, Harness, Verifier
- Suporta diversos harnesses e suas versões, usando ambientes baseados no mundo real em vez de proxies sintéticos
- O design desacoplado permite scaling combinatório, combinando a mesma tarefa com diferentes tipos e versões de harness e verificadores com custo adicional mínimo
- Por meio de treinamento RL cross-harness e cross-verifier, em que a mesma tarefa aparece sob diferentes configurações de harness, o modelo aprende estratégias generalizáveis de resolução de problemas, e não atalhos específicos de um harness
- No QwenClawBench e no CoWorkBench, o Qwen3.7-Max mostra desempenho forte e consistente independentemente do harness usado na avaliação
Autoevolução em ambiente real
- O Extend Attention é o operador de atenção multi-head de comprimento variável em nível de produção do SGLang
- O cenário de teste trata de um kernel sensível à latência e limitado por memória no serving de LLM, calculando pontuações de atenção entre tokens recém-gerados com MTP e um prefix KV-cache de até 32K itens
- A implementação de referência é a implementação oficial em Triton do SGLang
-
Otimização de kernel em uma arquitetura PPU desconhecida
- O Qwen3.7-Max otimizou esse kernel em uma instância ECS equipada com a T-Head ZW-M890 PPU, arquitetura que não havia visto durante o treinamento
- Começou sem dados prévios de profiling, documentação de hardware ou kernels de exemplo para essa arquitetura
- O workspace vazio continha apenas a descrição da tarefa, a implementação existente do SGLang e o script de avaliação
- Ao longo de cerca de 35 horas de execução autônoma contínua, realizou 1.158 chamadas de ferramentas e 432 avaliações de kernel
- Fez por conta própria diagnóstico de falhas de compilação, correção de bugs de corretude, identificação de gargalos com base em profiling de runtime e redesenho da arquitetura do kernel
- O resultado final foi uma melhoria geométrica média de 10,0x em relação ao Triton em vários workloads
- Mesmo após 30 horas, continuou encontrando melhorias significativas, mostrando produtividade em otimização autônoma de longa duração
-
Trajetória de otimização
- Com paralelização Split-KV, dividiu o prefix KV-cache em vários blocos de threads por consulta e introduziu um kernel de redução para mesclar resultados parciais com online softmax rescaling, melhorando de 0,33x para 2,58x em cerca de 2 horas
- Substituiu
cudaMalloc/cudaFreepor chamada por tensorestorch::emptypré-alocados, removeucudaMemcpysíncrono e desenrolou o loop interno em 2x, chegando a 5,37x em cerca de 2,5 horas - Trocou o divisor de split fixo por uma heurística baseada no tamanho do workload e aumentou a ocupação de wave de SM na arquitetura de 36 SM, alcançando 6,85x em cerca de 3 horas
- Combinou remoção de barreiras de memória compartilhada, carregamento de K/V via registradores, persistent static tensor, atualização batched de softmax e pré-scaling de Q, alcançando 8,50x no intervalo entre 3 e 25 horas
- Um kernel especializado para MTP γ=4 processou simultaneamente 4 tokens de consulta por bloco e compartilhou carregamentos de K/V entre consultas, chegando a 10,0x entre 32 e 35 horas
-
Comparação em mesmas condições
- O GLM 5.1 chegou a 7,3x, o Kimi K2.6 a 5,0x, o DeepSeek V4 Pro a 3,3x e o Qwen3.6-Plus a 1,1x
- Modelos interrompidos cedo concluíram que não podiam avançar mais ao deixar de emitir chamadas de ferramentas em 5 tentativas consecutivas e encerraram voluntariamente a sessão
-
Geração de kernels para GPUs NVIDIA
- O Qwen3.7-Max gera kernels em nível de produção não apenas para PPU, mas também para diversas GPUs NVIDIA
- No KernelBench L3, o Qwen3.7-Max consegue criar kernels acelerados em 96% dos cenários
- Os números comparativos são 98% para Opus-4.6, 78% para GLM 5.1, 80% para Kimi K2.6, 54% para DeepSeek V4 Pro e 48% para Qwen3.6-Plus
-
Características de agentes autônomos de longa duração
- Mostra persistência de raciocínio de longo prazo, mantendo a estratégia de otimização ao longo de mais de 1.000 chamadas de ferramentas sem perder contexto nem regredir
- Mostra generalização in-context, criando kernels competitivos com base em feedback de runtime, e não em conhecimento de hardware memorizado, em arquiteturas não vistas no treinamento
Monitoramento de reward hacking
- O Qwen3.7-Max foi integrado ao monitoramento RL de tarefas de engenharia de software, formando um framework de auto-monitoramento de reward hacking e autoevolução de regras
- Ao longo de experimentos RL de mais de 80 horas, buscou e reproduziu autonomamente trajetórias de treinamento, executando mais de 10.000 chamadas
- Identificou de forma sistemática padrões candidatos de hacking, como tentativas de contornar restrições para acessar respostas no GitHub
- Realizou verificação de regras, mineração de contraexemplos e otimização iterativa
- Após várias rodadas de autoevolução de regras, adicionou 13 novas regras heurísticas e sinalizou corretamente 1.618 casos de hacking
- Esse processo ajuda a garantir a estabilidade das recompensas de RL e promove a melhoria contínua do modelo como agente sofisticado de engenharia de software
Planejamento e execução de longo prazo na gestão de startups
- No framework Dynamic Cumulative Survival Games, ampliou a complexidade temporal das tarefas de treinamento para fortalecer capacidade de planejamento e execução de longo prazo
- Em trajetórias de decisão sequencial com mais de mil etapas, aumentou a consistência de política do agente, permitindo sustentar formulação de hipóteses, ajuste de estratégia com base no feedback do ambiente e acúmulo de experiência e memória de longo prazo
- Mantém um ritmo de execução estável mesmo em horizontes longos, resistindo à degradação de contexto e ao desvio de instruções
-
Resultados do YC-Bench
- O YC-Bench é um benchmark que simula todo o ciclo de vida de um ano de uma startup
- O agente precisa tomar decisões ao longo de centenas de rodadas, como gestão de equipe, revisão de contratos e identificação de clientes maliciosos, mantendo a margem de lucro apesar do aumento dos custos trabalhistas
- O Qwen3.7-Max alcançou receita total de US$ 2,08 milhões, o dobro dos US$ 1,05 milhão do Qwen3.6-Plus e 5,9 vezes o desempenho dos US$ 352 mil do Qwen3.5-Plus
- O número de tarefas concluídas foi 237
- Realizou prospecção de clientes potenciais, identificação e blacklist de armadilhas maliciosas, priorização de fontes de receita estáveis e recuperação autônoma em crises de médio prazo
- Ao final, convergiu para um loop de execução estável e de alta eficiência
Construindo com Qwen3.7
- O Qwen3.7-Max será disponibilizado em breve via Alibaba Cloud Model Studio e poderá ser integrado a frameworks de agentes populares e assistentes de codificação
-
Uso da API
- O Qwen3.7-Max oferece suporte ao recurso
preserve_thinking, que preserva no histórico da mensagem o conteúdo de pensamento de todos os turnos anteriores, sendo recomendado para tarefas de agentes - O Alibaba Cloud Model Studio suporta protocolos padrão da indústria, como APIs de chat completions e responses compatíveis com a especificação OpenAI, além de interface de API compatível com Anthropic
DASHSCOPE_API_KEYusa a chave de API obtida no console do Model StudioDASHSCOPE_BASE_URLé opcional e pode usarhttps://dashscope-intl.aliyuncs.com/compatible-mode/v1como URL base da API em modo compatível- A URL de Pequim é
https://dashscope.aliyuncs.com/compatible-mode/v1, a de Singapura éhttps://dashscope-intl.aliyuncs.com/compatible-mode/v1e a da Virgínia, EUA, éhttps://dashscope-us.aliyuncs.com/compatible-mode/v1 - Mais informações podem ser encontradas na documentação da API
- O Qwen3.7-Max oferece suporte ao recurso
-
Codificação frontend
- O Qwen3.7-Max pode gerar, a partir de um único prompt, aplicações web interativas com cenas 3D em Three.js, animações em Canvas, layout de página inteira e SVG dinâmico
- O prompt de exemplo pede uma implementação em HTML com efeito de rotação 3D que detecta, pela câmera, abrir e fechar da palma da mão para controlar contração e dispersão de um conjunto de partículas, formando os textos
hello, worldeI’am Qwencom os gestos de dedo 1 e 2, respectivamente
-
Assistente de escritório
- O Qwen3.7-Max pode atuar como assistente inteligente de escritório por meio de integração com ferramentas
- No exemplo, ele lê as normas de formatação de um artigo universitário e reformata um rascunho bagunçado com chamadas autônomas da ferramenta office-cli
- Ajusta layout de página, estilo de títulos, fonte, margens, sumário e formato das referências
- O artigo de exemplo foi gerado por IA para fins de demonstração
-
Agente de navegação no mundo físico
- O Qwen3.7-Max pode controlar um cão robô por meio de chamadas de ferramentas
- Executa compreensão física, planejamento, memória e tomada de decisão em ambiente físico
- Usa o harness de agente robótico Qwen-RobotClaw, o modelo baseado em navegação Qwen-RobotNav e várias ferramentas de visão construídas sobre modelos Qwen-plus
- No demo, o painel esquerdo mostra o fluxo de interações de chamadas de ferramentas do agente ao longo de 20 minutos no mundo físico, o centro mostra a visão em primeira pessoa na trajetória do robô quadrúpede e a direita mostra a memória de longo prazo do agente
-
Integração com assistentes de codificação
- O Qwen3.7-Max é integrado a frameworks populares de agentes e assistentes de codificação
-
Claude Code
- A API da Qwen suporta o protocolo da API Anthropic, podendo ser usada diretamente no Claude Code
- Defina
ANTHROPIC_MODELeANTHROPIC_SMALL_FAST_MODELcomoqwen3.7-max, eANTHROPIC_BASE_URLcomohttps://dashscope-intl.aliyuncs.com/apps/anthropic
-
OpenClaw
- O OpenClaw pode ser conectado via Model Studio
- Depois de definir
DASHSCOPE_API_KEY, executeopenclaw dashboarde definamodelstudio/qwen3.7-maxcomo modelo padrão em~/.openclaw/openclaw.json - O exemplo de configuração inclui
contextWindow1000000,maxTokens65536 ereasoningtrue
-
Qwen Code
- O Qwen Code é profundamente otimizado para a série Qwen
- Instale com
npm install -g @qwen-code/qwen-code@lateste depois execute com o comandoqwen
1 comentários
Comentários do Hacker News
No AA-omniscience, a taxa de respostas sem alucinação está no topo, melhor que Opus 4.7, Gemini 3.1 Pro e GPT5.5. Parabéns à equipe
Não aparecia por padrão, tive que adicionar manualmente no gráfico, e fiquei curioso se é a menor taxa de alucinação do dataset
Por exemplo, se eu rodar o Step 3.5 Flash localmente, no geral ele é surpreendentemente competente, mas a eficiência de tokens é tão ruim que, em tempo real gasto, acaba ficando atrás da maioria dos outros modelos. Mesmo hackeando suporte a MTP no llama.cpp, no Spark foi algo como sair de 20tk/s para 30tk/s, e apesar de ter sido treinado com três heads, MTP 2 parecia o ponto ideal
Os modelos DeepSeek e o Qwen 3.5 Plus são parecidos, então, em comparação com Opus, especialmente GPT 5.5, usam muito mais tokens para chegar à mesma resposta
Espero muito que o Qwen 3.7 tenha melhorado nisso e quero testar logo. Aliás, rodar DeepSeek v4 Flash no Spark foi absurdamente impressionante, e se o antirez visse isso eu gostaria de agradecer
No fim das contas, isso só mede o quanto o modelo bate com as crenças do grupo que criou o teste, crenças essas que podem ser verdadeiras ou falsas
Ontem à noite eu estava perigosamente perto do limite semanal do Claude Code, então pedi ao Claude para configurar o Qwen3.6 com llama.cpp e OpenCode. Sinceramente, é uma excelente alternativa gratuita ao Claude Code e é bom o suficiente para uma boa parte das tarefas menores e menos complexas
Estou animado para testar esta nova versão também. É muito impressionante ver modelos open source chegando tão perto da fronteira
Na semana passada tentei qwen3.6-27b Q6_k GUFF com llama.cpp e LM Studio num MacBook Pro M2 32GB, e nos dois casos mal passava de 1 token por segundo
Não faço ideia de que velocidade eu deveria esperar. Lembro que, há uns 2 anos, com llama.cpp eu conseguia alguns tokens por segundo em modelos da linha Llama 3 34b, então não sei se configurei tudo completamente errado ou se minhas expectativas são irreais
Também fiquei pensando se, por algum motivo, o qwen 3.x é mais lento. Queria saber se ele é uma arquitetura mixture-of-experts (MoE). Não espero resposta instantânea, mas na velocidade atual fica inviável usar de verdade
Queria saber também se você usa MCP ou outras ferramentas para otimização de desempenho, como context-mode ou poda dinâmica de contexto. Já usei bastante modelos locais, mas comecei agora com o opencode e, embora os resultados ainda não estejam bons, espero que pelo menos funcione bem para tarefas simples. Também estou tendo um problema em que o opencode recém-instalado deixa o iTerm em 100% de CPU mesmo ocioso
Se eu fosse fazer todo o trabalho de código com Opus 4.7, minha fatura mensal seria de 10 a 20 vezes maior do que usando Sonnet sempre que possível
Já que eles estão lançando mais modelos proprietários, eu realmente gostaria que fizessem parceria com um dos grandes hyperscalers dos EUA para que esses modelos pudessem ser usados por meio de um provedor sediado nos Estados Unidos
Entendo perfeitamente por que isso pode não ser racional ou não estar alinhado com os interesses deles. E também é verdade que os EUA não fazem automaticamente o mesmo no sentido inverso. Ainda assim, seria bom poder testar isso direito em workloads reais de produção
Os números em si são muito bons. Mas ainda não entendo por que, em posts assim, eles não comparam com os modelos concorrentes mais recentes. Não é como se as pessoas não fossem perceber
OpenAI e Anthropic fazem a mesma coisa também, muitas vezes usando datasets de avaliação diferentes entre si
Mesmo em modelos de linguagem de grande porte, esses posts não simplesmente aparecem do nada. Se você tem um conjunto-alvo de benchmarks para o seu modelo, manter continuamente um conjunto de modelos comparáveis lado a lado já é um trabalho extra de manutenção
Na prática, acho que contam com o fato de que os leitores não vão perceber os detalhes
Os modelos Qwen são excelentes no contexto de pesos abertos, mas os lançamentos anteriores não renderam tão bem no uso real quanto nos benchmarks. Como eles sabem que otimizar para números de benchmark funciona, seguem nessa direção
Se você disser que é comparável ao 4.7, esse acaba virando o modelo de referência na cabeça das pessoas
Queria saber se este também é do tipo que recebe um lançamento no Hugging Face uma semana depois, ou se já se sabe com certeza que vai continuar fechado
Espero que saiam mais lançamentos de pesos abertos do Qwen. Principalmente 122B e 397B
Se eu passar de Qwen 9B, existe o risco de a máquina simplesmente travar
No benchmark não tem Opus 4.7, GPT5.5, Gemini Flash 3.5
Estou usando o pi agent e queria testar modelos Qwen hospedados. Queria saber quais são as boas opções
O provedor oficial não inclui Alibaba, e também queria saber se serviços como o OpenRouter são rápidos o bastante. Para referência, o DeepSeek v4 fica fortemente limitado nesses serviços de proxy
Só comecei agora a brincar com LLMs locais, mas sinceramente estou achando bem impressionante. Tenho um notebook workstation com NVIDIA A1000 (6GB de VRAM) e 96GB de RAM
Quase não usei a GPU, só de vez em quando para design CAD ou machine learning baseado em OpenCV. Rodei llama3:latest e executou bem rápido, então fiquei curioso para saber como o Qwen rodaria no meu sistema
O padrão em que mais confio é adicionar um pequeno artefato de verificação para cada ação externa. Agentes costumam falhar mais rápido por deriva silenciosa de estado do que por falta de profundidade de raciocínio