Qwen3.7-Max: a fronteira dos agentes

(qwen.ai)

5 pontos por GN⁺ 2026-05-21 | 3 comentários | Compartilhar no WhatsApp

Qwen3.7-Max é um modelo proprietário centrado em agentes, voltado para codificação e depuração, automação de escritório e execução autônoma com centenas a milhares de etapas
Em avaliações de codificação, agentes gerais, raciocínio e multilinguismo, compete com modelos rivais, registrando 69,7 pontos no Terminal Bench 2.0-Terminus e 92,4 pontos no GPQA Diamond
Em 35 horas de otimização autônoma de kernel, realizou 1.158 chamadas de ferramentas e 432 avaliações, alcançando melhoria geométrica média de 10,0x de velocidade em relação ao Triton
Separa as instâncias de treinamento em Task·Harness·Verifier para realizar treinamento RL cross-harness e induzir resolução de problemas generalizada, em vez de atalhos específicos de um harness
A API será disponibilizada em breve via Alibaba Cloud Model Studio e poderá ser integrada a frameworks de agentes como Claude Code, OpenClaw e Qwen Code

Avaliação de desempenho

O Qwen3.7-Max foi avaliado junto com vários modelos comparativos nas áreas de agentes de codificação, agentes gerais, STEM e raciocínio, capacidades gerais e multilinguismo
Células vazias (--) significam que a pontuação ainda não foi fornecida
Agentes de codificação
- No Terminal Bench 2.0-Terminus, obteve 69,7 pontos, superando os 67,9 do DS-V4-Pro Max
- No SWE-Verified, marcou 80,4 pontos, em nível semelhante ao Opus-4.6 Max com 80,8 e ao DS-V4-Pro Max com 80,6
- Registrou 60,6 pontos no SWE-Pro, 78,3 no SWE-Multilingual, 53,5 no SciCode e 1608 no QwenSVG
- O NL2repo foi avaliado com Claude Code, com comandos Bash como pip download, pip install e git clone desativados para impedir tentativas de acesso a repositórios específicos
- O QwenWebDev é um benchmark interno de geração de código frontend bilíngue em inglês e chinês, usando 7 categorias, renderização automática, julgamento multimodal e pontuação BT/Elo
Agentes gerais
- No MCP-Mark, marcou 60,8 pontos, acima dos 57,5 do GLM-5.1, e no MCP-Atlas fez 76,4 pontos, superando os 75,8 do Opus-4.6
- No Skillsbench, obteve 59,2 pontos, acima dos 56,2 do K2.6
- No Kernel Bench L3, registrou ganho mediano de velocidade de 1,98x e taxa de vitória de 96%, mostrando capacidade em otimização de kernels GPU
- No BFCL-V4 marcou 75,0, no Qwenclaw 64,3 e no ClawEval 65,2, aproximando-se do Opus-4.6 Max
- No SpreadSheetBench-v1, obteve 87,0 pontos, mostrando forte desempenho também em benchmarks de automação de escritório
- O QwenClawBench foi aberto como benchmark open source de agentes Claw que reflete a distribuição de usuários reais
- O CoWorkBench é um benchmark interno colaborativo para tarefas longas em domínios de produtividade como ciência da computação, finanças, direito e saúde
Raciocínio
- No GPQA Diamond, marcou 92,4 pontos, superando os 91,3 do Opus-4.6
- No HLE, fez 41,4 pontos, acima dos 40,0 do Opus-4.6, e no HMMT 2026 Feb marcou 97,1, superando os 96,2 do Opus-4.6
- No IMOAnswerBench, obteve 90,0 pontos, acima dos 89,8 do DS-V4-Pro, e no Apex fez 44,5, superando os 38,3 do DS-V4-Pro
- Para cenários de raciocínio, recomenda-se um system prompt começando com Reasoning effort is set to xhigh...
Capacidades gerais e multilinguismo
- No IFBench, marcou 79,1 pontos, acima dos 77,0 do DS-V4-Pro, mostrando desempenho preciso em seguir instruções
- No WMT24++ registrou 85,8 pontos e no MAXIFE 89,2, mostrando força também em compreensão multilíngue e qualidade de tradução
- No SuperGPQA fez 73,6 pontos e no QwenWorldBench 57,3
- O WMT24++ é um subconjunto mais difícil do WMT24 e usa a média de pontuação XCOMET-XXL em 55 idiomas
- O MAXIFE mede a precisão em 23 configurações de prompts em inglês e multilíngues
- O MMLU-ProX usa a média de precisão em 29 idiomas

Condições de avaliação e detalhes dos benchmarks

O Terminal-Bench 2.0 foi avaliado com harness Harbor/Terminus-2, limite de 5 horas, 12 CPU/24 GB de RAM, temp=1.0, top_p=0.95, top_k=20, máximo de 80K tokens, contexto de 256K e média de 5 execuções
A família SWE-Bench usa um scaffold interno de agente e ferramentas de Bash e edição de arquivos, com avaliação em temp=1.0, top_p=0.95 e janela de contexto de 200K
O SkillsBench foi avaliado com OpenCode, usando média de 5 execuções em 78 tarefas, excluindo 9 tarefas dependentes de APIs externas
O MCP-Mark usa GitHub MCP v0.30.3 e truncou respostas do Playwright em 32K tokens
O MCP-Atlas usa pontuação do conjunto público e o julgador gemini-2.5-pro
O Kernel Bench L3 reporta, em 50 problemas, a mediana do ganho de velocidade por problema em relação ao PyTorch eager e a proporção de problemas em que foi mais rápido que torch.compile
Cada amostra de teste do Kernel Bench L3 roda em um contêiner Docker isolado com 1 GPU H100 80GB, com acesso à internet limitado à codebase CUTLASS e à documentação oficial do CUDA
O Kernel Bench L3 usa limite de 500 chamadas de ferramentas e parada antecipada após 100 turnos sem melhora, detecta possível comportamento de hacking com GPT-5.4(xhigh) e mede o tempo em nível de kernel com CUPTI
O MRCR-v2 é um subconjunto de contexto 128K com 8 needles e adota o protocolo mrcr_v2 do eval_hub do Google DeepMind

Assistente colaborativo de produtividade

O Qwen3.7-Max mira o papel de colega avançado para produtividade no trabalho real, realizando síntese complexa de informações, análise e modelagem profundas de dados e geração de documentos e visualizações publicáveis
Tem compatibilidade básica com os principais harnesses de agentes e, em tarefas longas, oferece planejamento autônomo e execução contínua por várias horas
Eleva gradualmente a qualidade de saída por meio de milhares de chamadas de ferramentas e dezenas de iterações de refinamento
Afirma conseguir concluir end-to-end, em poucas horas, projetos complexos que normalmente exigiriam 1 a 2 semanas de uma equipe especializada

Treinamento de agentes e generalização

Com base na abordagem de environment scaling introduzida no Qwen3.5, o Qwen3.7 expande a qualidade e a diversidade dos ambientes de treinamento de agentes
Parte da observação de que, assim como modelos de linguagem generalizam a partir de diversos textos de pré-treinamento, as capacidades de agentes também generalizam a partir de ambientes variados de treinamento
Todos os benchmarks de avaliação consistem em ambientes totalmente novos e out-of-domain, não incluídos no treinamento
O environment scaling cria uma trajetória clara e consistente de melhoria, e o Qwen3.7-Max alcançou uma classificação média top 3 próxima ao Claude-4.6-Opus-Max
Os ganhos de desempenho em subconjuntos de benchmarks são consistentes a ponto de prever melhorias relativas nos benchmarks restantes e na média geral, sugerindo generalização de capacidades em vez de melhorias específicas de benchmark
Análises adicionais da dinâmica de scaling e da metodologia serão tratadas em um futuro relatório técnico

Generalização cross-harness

A infraestrutura de rollout separa cada instância de treinamento em três componentes ortogonais: Task, Harness, Verifier
Suporta diversos harnesses e suas versões, usando ambientes baseados no mundo real em vez de proxies sintéticos
O design desacoplado permite scaling combinatório, combinando a mesma tarefa com diferentes tipos e versões de harness e verificadores com custo adicional mínimo
Por meio de treinamento RL cross-harness e cross-verifier, em que a mesma tarefa aparece sob diferentes configurações de harness, o modelo aprende estratégias generalizáveis de resolução de problemas, e não atalhos específicos de um harness
No QwenClawBench e no CoWorkBench, o Qwen3.7-Max mostra desempenho forte e consistente independentemente do harness usado na avaliação

Autoevolução em ambiente real

O Extend Attention é o operador de atenção multi-head de comprimento variável em nível de produção do SGLang
O cenário de teste trata de um kernel sensível à latência e limitado por memória no serving de LLM, calculando pontuações de atenção entre tokens recém-gerados com MTP e um prefix KV-cache de até 32K itens
A implementação de referência é a implementação oficial em Triton do SGLang
Otimização de kernel em uma arquitetura PPU desconhecida
- O Qwen3.7-Max otimizou esse kernel em uma instância ECS equipada com a T-Head ZW-M890 PPU, arquitetura que não havia visto durante o treinamento
- Começou sem dados prévios de profiling, documentação de hardware ou kernels de exemplo para essa arquitetura
- O workspace vazio continha apenas a descrição da tarefa, a implementação existente do SGLang e o script de avaliação
- Ao longo de cerca de 35 horas de execução autônoma contínua, realizou 1.158 chamadas de ferramentas e 432 avaliações de kernel
- Fez por conta própria diagnóstico de falhas de compilação, correção de bugs de corretude, identificação de gargalos com base em profiling de runtime e redesenho da arquitetura do kernel
- O resultado final foi uma melhoria geométrica média de 10,0x em relação ao Triton em vários workloads
- Mesmo após 30 horas, continuou encontrando melhorias significativas, mostrando produtividade em otimização autônoma de longa duração
Trajetória de otimização
- Com paralelização Split-KV, dividiu o prefix KV-cache em vários blocos de threads por consulta e introduziu um kernel de redução para mesclar resultados parciais com online softmax rescaling, melhorando de 0,33x para 2,58x em cerca de 2 horas
- Substituiu cudaMalloc/cudaFree por chamada por tensores torch::empty pré-alocados, removeu cudaMemcpy síncrono e desenrolou o loop interno em 2x, chegando a 5,37x em cerca de 2,5 horas
- Trocou o divisor de split fixo por uma heurística baseada no tamanho do workload e aumentou a ocupação de wave de SM na arquitetura de 36 SM, alcançando 6,85x em cerca de 3 horas
- Combinou remoção de barreiras de memória compartilhada, carregamento de K/V via registradores, persistent static tensor, atualização batched de softmax e pré-scaling de Q, alcançando 8,50x no intervalo entre 3 e 25 horas
- Um kernel especializado para MTP γ=4 processou simultaneamente 4 tokens de consulta por bloco e compartilhou carregamentos de K/V entre consultas, chegando a 10,0x entre 32 e 35 horas
Comparação em mesmas condições
- O GLM 5.1 chegou a 7,3x, o Kimi K2.6 a 5,0x, o DeepSeek V4 Pro a 3,3x e o Qwen3.6-Plus a 1,1x
- Modelos interrompidos cedo concluíram que não podiam avançar mais ao deixar de emitir chamadas de ferramentas em 5 tentativas consecutivas e encerraram voluntariamente a sessão
Geração de kernels para GPUs NVIDIA
- O Qwen3.7-Max gera kernels em nível de produção não apenas para PPU, mas também para diversas GPUs NVIDIA
- No KernelBench L3, o Qwen3.7-Max consegue criar kernels acelerados em 96% dos cenários
- Os números comparativos são 98% para Opus-4.6, 78% para GLM 5.1, 80% para Kimi K2.6, 54% para DeepSeek V4 Pro e 48% para Qwen3.6-Plus
Características de agentes autônomos de longa duração
- Mostra persistência de raciocínio de longo prazo, mantendo a estratégia de otimização ao longo de mais de 1.000 chamadas de ferramentas sem perder contexto nem regredir
- Mostra generalização in-context, criando kernels competitivos com base em feedback de runtime, e não em conhecimento de hardware memorizado, em arquiteturas não vistas no treinamento

Monitoramento de reward hacking

O Qwen3.7-Max foi integrado ao monitoramento RL de tarefas de engenharia de software, formando um framework de auto-monitoramento de reward hacking e autoevolução de regras
Ao longo de experimentos RL de mais de 80 horas, buscou e reproduziu autonomamente trajetórias de treinamento, executando mais de 10.000 chamadas
Identificou de forma sistemática padrões candidatos de hacking, como tentativas de contornar restrições para acessar respostas no GitHub
Realizou verificação de regras, mineração de contraexemplos e otimização iterativa
Após várias rodadas de autoevolução de regras, adicionou 13 novas regras heurísticas e sinalizou corretamente 1.618 casos de hacking
Esse processo ajuda a garantir a estabilidade das recompensas de RL e promove a melhoria contínua do modelo como agente sofisticado de engenharia de software

Planejamento e execução de longo prazo na gestão de startups

No framework Dynamic Cumulative Survival Games, ampliou a complexidade temporal das tarefas de treinamento para fortalecer capacidade de planejamento e execução de longo prazo
Em trajetórias de decisão sequencial com mais de mil etapas, aumentou a consistência de política do agente, permitindo sustentar formulação de hipóteses, ajuste de estratégia com base no feedback do ambiente e acúmulo de experiência e memória de longo prazo
Mantém um ritmo de execução estável mesmo em horizontes longos, resistindo à degradação de contexto e ao desvio de instruções
Resultados do YC-Bench
- O YC-Bench é um benchmark que simula todo o ciclo de vida de um ano de uma startup
- O agente precisa tomar decisões ao longo de centenas de rodadas, como gestão de equipe, revisão de contratos e identificação de clientes maliciosos, mantendo a margem de lucro apesar do aumento dos custos trabalhistas
- O Qwen3.7-Max alcançou receita total de US$ 2,08 milhões, o dobro dos US$ 1,05 milhão do Qwen3.6-Plus e 5,9 vezes o desempenho dos US$ 352 mil do Qwen3.5-Plus
- O número de tarefas concluídas foi 237
- Realizou prospecção de clientes potenciais, identificação e blacklist de armadilhas maliciosas, priorização de fontes de receita estáveis e recuperação autônoma em crises de médio prazo
- Ao final, convergiu para um loop de execução estável e de alta eficiência

Construindo com Qwen3.7

O Qwen3.7-Max será disponibilizado em breve via Alibaba Cloud Model Studio e poderá ser integrado a frameworks de agentes populares e assistentes de codificação
Uso da API
- O Qwen3.7-Max oferece suporte ao recurso preserve_thinking, que preserva no histórico da mensagem o conteúdo de pensamento de todos os turnos anteriores, sendo recomendado para tarefas de agentes
- O Alibaba Cloud Model Studio suporta protocolos padrão da indústria, como APIs de chat completions e responses compatíveis com a especificação OpenAI, além de interface de API compatível com Anthropic
- DASHSCOPE_API_KEY usa a chave de API obtida no console do Model Studio
- DASHSCOPE_BASE_URL é opcional e pode usar https://dashscope-intl.aliyuncs.com/compatible-mode/v1 como URL base da API em modo compatível
- A URL de Pequim é https://dashscope.aliyuncs.com/compatible-mode/v1, a de Singapura é https://dashscope-intl.aliyuncs.com/compatible-mode/v1 e a da Virgínia, EUA, é https://dashscope-us.aliyuncs.com/compatible-mode/v1
- Mais informações podem ser encontradas na documentação da API
Codificação frontend
- O Qwen3.7-Max pode gerar, a partir de um único prompt, aplicações web interativas com cenas 3D em Three.js, animações em Canvas, layout de página inteira e SVG dinâmico
- O prompt de exemplo pede uma implementação em HTML com efeito de rotação 3D que detecta, pela câmera, abrir e fechar da palma da mão para controlar contração e dispersão de um conjunto de partículas, formando os textos hello, world e I’am Qwen com os gestos de dedo 1 e 2, respectivamente
Assistente de escritório
- O Qwen3.7-Max pode atuar como assistente inteligente de escritório por meio de integração com ferramentas
- No exemplo, ele lê as normas de formatação de um artigo universitário e reformata um rascunho bagunçado com chamadas autônomas da ferramenta office-cli
- Ajusta layout de página, estilo de títulos, fonte, margens, sumário e formato das referências
- O artigo de exemplo foi gerado por IA para fins de demonstração
Agente de navegação no mundo físico
- O Qwen3.7-Max pode controlar um cão robô por meio de chamadas de ferramentas
- Executa compreensão física, planejamento, memória e tomada de decisão em ambiente físico
- Usa o harness de agente robótico Qwen-RobotClaw, o modelo baseado em navegação Qwen-RobotNav e várias ferramentas de visão construídas sobre modelos Qwen-plus
- No demo, o painel esquerdo mostra o fluxo de interações de chamadas de ferramentas do agente ao longo de 20 minutos no mundo físico, o centro mostra a visão em primeira pessoa na trajetória do robô quadrúpede e a direita mostra a memória de longo prazo do agente
Integração com assistentes de codificação
- O Qwen3.7-Max é integrado a frameworks populares de agentes e assistentes de codificação
- Claude Code
  - A API da Qwen suporta o protocolo da API Anthropic, podendo ser usada diretamente no Claude Code
  - Defina ANTHROPIC_MODEL e ANTHROPIC_SMALL_FAST_MODEL como qwen3.7-max, e ANTHROPIC_BASE_URL como https://dashscope-intl.aliyuncs.com/apps/anthropic
- OpenClaw
  - O OpenClaw pode ser conectado via Model Studio
  - Depois de definir DASHSCOPE_API_KEY, execute openclaw dashboard e defina modelstudio/qwen3.7-max como modelo padrão em ~/.openclaw/openclaw.json
  - O exemplo de configuração inclui contextWindow 1000000, maxTokens 65536 e reasoning true
- Qwen Code
  - O Qwen Code é profundamente otimizado para a série Qwen
  - Instale com npm install -g @qwen-code/qwen-code@latest e depois execute com o comando qwen

3 comentários

beepp 2026-05-21

Eu fiquei preocupado depois de ver o post dizendo que pessoas-chave tinham saído da empresa da última vez, mas ainda assim eles seguem bem ativos.

emptybynature 2026-05-22

No fim das contas, é um setor em que todo mundo destila o trabalho dos outros e reaproveita, então não faz muita diferença quem vai para onde. Como a situação está caminhando para uma guerra de desgaste, no fim a vencedora será a empresa com mais munição para gastar.

GN⁺ 2026-05-21

Comentários do Hacker News

No AA-omniscience, a taxa de respostas sem alucinação está no topo, melhor que Opus 4.7, Gemini 3.1 Pro e GPT5.5. Parabéns à equipe
- O link de referência é este: https://artificialanalysis.ai/evaluations/omniscience?models...
  Não aparecia por padrão, tive que adicionar manualmente no gráfico, e fiquei curioso se é a menor taxa de alucinação do dataset
- Quando você usa bastante esses modelos chineses de ponta, a maior pergunta é sobre a eficiência de tokens
  Por exemplo, se eu rodar o Step 3.5 Flash localmente, no geral ele é surpreendentemente competente, mas a eficiência de tokens é tão ruim que, em tempo real gasto, acaba ficando atrás da maioria dos outros modelos. Mesmo hackeando suporte a MTP no llama.cpp, no Spark foi algo como sair de 20tk/s para 30tk/s, e apesar de ter sido treinado com três heads, MTP 2 parecia o ponto ideal
  Os modelos DeepSeek e o Qwen 3.5 Plus são parecidos, então, em comparação com Opus, especialmente GPT 5.5, usam muito mais tokens para chegar à mesma resposta
  Espero muito que o Qwen 3.7 tenha melhorado nisso e quero testar logo. Aliás, rodar DeepSeek v4 Flash no Spark foi absurdamente impressionante, e se o antirez visse isso eu gostaria de agradecer
- O fato de a “taxa de respostas sem alucinação” ser perfeita pode não significar muita coisa por si só. Até esse tipo de teste pode conter alucinações criadas por humanos
  No fim das contas, isso só mede o quanto o modelo bate com as crenças do grupo que criou o teste, crenças essas que podem ser verdadeiras ou falsas
- Realmente impressionante, e o avanço é notável. Também tenho curiosidade sobre quanto eles usaram de chips próprios no treinamento
- Fico me perguntando em que ponto acontece uma transição de fase de capacidade. Se é em 5%, 1%
Ontem à noite eu estava perigosamente perto do limite semanal do Claude Code, então pedi ao Claude para configurar o Qwen3.6 com llama.cpp e OpenCode. Sinceramente, é uma excelente alternativa gratuita ao Claude Code e é bom o suficiente para uma boa parte das tarefas menores e menos complexas
Estou animado para testar esta nova versão também. É muito impressionante ver modelos open source chegando tão perto da fronteira
- Fiquei curioso para saber em que máquina e com qual modelo você está rodando
  Na semana passada tentei qwen3.6-27b Q6_k GUFF com llama.cpp e LM Studio num MacBook Pro M2 32GB, e nos dois casos mal passava de 1 token por segundo
  Não faço ideia de que velocidade eu deveria esperar. Lembro que, há uns 2 anos, com llama.cpp eu conseguia alguns tokens por segundo em modelos da linha Llama 3 34b, então não sei se configurei tudo completamente errado ou se minhas expectativas são irreais
  Também fiquei pensando se, por algum motivo, o qwen 3.x é mais lento. Queria saber se ele é uma arquitetura mixture-of-experts (MoE). Não espero resposta instantânea, mas na velocidade atual fica inviável usar de verdade
- Esta nova versão não é algo que dê para rodar localmente. É um modelo em nuvem e, mesmo que publiquem os pesos, provavelmente será grande demais
- Tenho curiosidade sobre qual modelo exatamente você está usando. Também queria saber os parâmetros, a quantização e qual é o hardware
  Queria saber também se você usa MCP ou outras ferramentas para otimização de desempenho, como context-mode ou poda dinâmica de contexto. Já usei bastante modelos locais, mas comecei agora com o opencode e, embora os resultados ainda não estejam bons, espero que pelo menos funcione bem para tarefas simples. Também estou tendo um problema em que o opencode recém-instalado deixa o iTerm em 100% de CPU mesmo ocioso
- É uma pena que o Qwen Max normalmente seja um modelo fechado
- Tenho curiosidade sobre como o Qwen 3.6 se compara ao Sonnet 4.6 na prática, porque esse é o que muita gente realmente usa
  Se eu fosse fazer todo o trabalho de código com Opus 4.7, minha fatura mensal seria de 10 a 20 vezes maior do que usando Sonnet sempre que possível
Já que eles estão lançando mais modelos proprietários, eu realmente gostaria que fizessem parceria com um dos grandes hyperscalers dos EUA para que esses modelos pudessem ser usados por meio de um provedor sediado nos Estados Unidos
Entendo perfeitamente por que isso pode não ser racional ou não estar alinhado com os interesses deles. E também é verdade que os EUA não fazem automaticamente o mesmo no sentido inverso. Ainda assim, seria bom poder testar isso direito em workloads reais de produção
- A menos que os hyperscalers dos EUA façam exatamente o mesmo no sentido contrário, espero que continue como está. Se todo mundo está satisfeito em compartilhar, isso tem que valer nos dois sentidos; caso contrário, os hyperscalers dos EUA podem continuar isolados por conta própria, como têm estado até agora
- Qwen3.6-Plus pode ser usado no Fireworks
- A Alibaba Cloud tem um datacenter no México
- Como a Fireworks hospeda o Qwen 3.6 Plus, parece plausível que também tragam o Qwen 3.7 Plus
- O ChatLLM oferece suporte a QWEN, e eu queria saber se isso seria considerado seguro do ponto de vista dos EUA
Os números em si são muito bons. Mas ainda não entendo por que, em posts assim, eles não comparam com os modelos concorrentes mais recentes. Não é como se as pessoas não fossem perceber
- Ninguém publica números que façam o próprio modelo parecer pior que o da concorrência
  OpenAI e Anthropic fazem a mesma coisa também, muitas vezes usando datasets de avaliação diferentes entre si
- Se o salto for só de versão menor, eu acho perdoável. Aliás, hoje em dia em LLMs, por algum motivo, x.5 acaba funcionando na prática como um salto de versão maior
  Mesmo em modelos de linguagem de grande porte, esses posts não simplesmente aparecem do nada. Se você tem um conjunto-alvo de benchmarks para o seu modelo, manter continuamente um conjunto de modelos comparáveis lado a lado já é um trabalho extra de manutenção
- Imagino que a lógica seja evitar parecer que eles estão N meses atrás do estado da arte mais recente
  Na prática, acho que contam com o fato de que os leitores não vão perceber os detalhes
  Os modelos Qwen são excelentes no contexto de pesos abertos, mas os lançamentos anteriores não renderam tão bem no uso real quanto nos benchmarks. Como eles sabem que otimizar para números de benchmark funciona, seguem nessa direção
- Acho que faz parte de calibrar expectativas. Também pode haver a questão de terem montado um harness de destilação ou avaliação com um modelo específico
  Se você disser que é comparável ao 4.7, esse acaba virando o modelo de referência na cabeça das pessoas
- Sinceramente, as versões iniciais do Opus-4.6 eram muito melhores do que o que hoje é servido como 4.7. Se funcionasse naquele nível, eu toparia migrar completamente
Queria saber se este também é do tipo que recebe um lançamento no Hugging Face uma semana depois, ou se já se sabe com certeza que vai continuar fechado
- Corrijam-me se eu estiver errado, mas pelo que sei os modelos Max normalmente não são divulgados
Espero que saiam mais lançamentos de pesos abertos do Qwen. Principalmente 122B e 397B
- Sim. A faixa de 60~150B é atualmente um ponto muito bom para hardware prosumer, então seria ótimo ver algo como um modelo 120b-a14b
- Pessoalmente, eu estou ainda mais animado com modelos menores e mais quantizados, tipo 9B
- Estou mais ansioso por qwen3.7 9b e 72b. Normalmente têm desempenho muito bom para o tamanho
- Ainda estou esperando o qwem image-edit 2.0 open weights
- Isso dói. Eu só comecei agora a mexer com essas coisas, e meu ambiente é um desktop gamer comum com uma 3060 de 12GB e 32GB de RAM
  Se eu passar de Qwen 9B, existe o risco de a máquina simplesmente travar
No benchmark não tem Opus 4.7, GPT5.5, Gemini Flash 3.5
Estou usando o pi agent e queria testar modelos Qwen hospedados. Queria saber quais são as boas opções
O provedor oficial não inclui Alibaba, e também queria saber se serviços como o OpenRouter são rápidos o bastante. Para referência, o DeepSeek v4 fica fortemente limitado nesses serviços de proxy
- Eu uso bastante qwen3.6-max-preview com pi + openrouter. Até agora não tive problemas de estabilidade nem de desempenho
Só comecei agora a brincar com LLMs locais, mas sinceramente estou achando bem impressionante. Tenho um notebook workstation com NVIDIA A1000 (6GB de VRAM) e 96GB de RAM
Quase não usei a GPU, só de vez em quando para design CAD ou machine learning baseado em OpenCV. Rodei llama3:latest e executou bem rápido, então fiquei curioso para saber como o Qwen rodaria no meu sistema
O padrão em que mais confio é adicionar um pequeno artefato de verificação para cada ação externa. Agentes costumam falhar mais rápido por deriva silenciosa de estado do que por falta de profundidade de raciocínio
- Você poderia explicar melhor esse ponto?

Qwen3.7-Max: a fronteira dos agentes

Avaliação de desempenho

Agentes de codificação

Agentes gerais

Raciocínio

Capacidades gerais e multilinguismo

Condições de avaliação e detalhes dos benchmarks

Assistente colaborativo de produtividade

Treinamento de agentes e generalização

Generalização cross-harness

Autoevolução em ambiente real

Otimização de kernel em uma arquitetura PPU desconhecida

Trajetória de otimização

Comparação em mesmas condições

Geração de kernels para GPUs NVIDIA

Características de agentes autônomos de longa duração

Monitoramento de reward hacking

Planejamento e execução de longo prazo na gestão de startups

Resultados do YC-Bench

Construindo com Qwen3.7

Uso da API

Codificação frontend

Assistente de escritório

Agente de navegação no mundo físico

Integração com assistentes de codificação

Claude Code

OpenClaw

Qwen Code

Leituras relacionadas

3 comentários

Comentários do Hacker News