Lançado o modelo GLM-4.7-Flash

(huggingface.co)

11 pontos por GN⁺ 2026-01-20 | 4 comentários | Compartilhar no WhatsApp

GLM-4.7-Flash é um grande modelo de linguagem com arquitetura MoE 30B-A3B, oferecendo de forma equilibrada desempenho e eficiência como um modelo leve para implantação
Registrou pontuações altas em diversos benchmarks como AIME 25, GPQA e SWE-bench, com resultados competitivos em relação a modelos da mesma classe (Qwen3-30B/GPT-OSS-20B)
Busca desempenho de nível líder entre modelos da faixa de 30B e representa um avanço importante para pesquisa em IA baseada em open source e maior eficiência na implantação

Introdução (Introduction)

GLM-4.7-Flash é um modelo Mixture-of-Experts (MoE) 30B-A3B, com o objetivo de oferecer o desempenho mais forte entre modelos da faixa de 30B
- Oferece uma opção leve de implantação com foco no equilíbrio entre desempenho e eficiência
- Projeto pensado para permitir uso mais eficiente de modelos de grande porte

Desempenho em benchmarks (Performances on Benchmarks)

São apresentados os resultados do GLM-4.7-Flash em diversos benchmarks padrão
- AIME 25: 91.6 (Qwen3-30B-A3B-Thinking-2507: 85.0, GPT-OSS-20B: 91.7)
- GPQA: 75.2 (mais alto que os modelos de comparação)
- LCB v6: 64.0
- HLE: 14.4
- SWE-bench Verified: 59.2 (grande diferença em relação aos outros modelos)
- τ²-Bench: 79.5
- BrowseComp: 42.8
Em vários itens, apresentou resultados superiores aos de Qwen3-30B-A3B-Thinking-2507 e GPT-OSS-20B

Implantação local (Serve GLM-4.7-Flash Locally)

O GLM-4.7-Flash oferece suporte aos frameworks de inferência vLLM e SGLang
- Ambos os frameworks são suportados apenas na branch principal
- Consulte as instruções de implantação no repositório oficial no GitHub (zai-org/GLM-4.5)

4 comentários

kimjoin2 2026-01-20

Se são 30B... quanta VRAM precisa? T_T

crawler 2026-01-21

Como é 30B A3B, não é tão pesado assim.
É preciso garantir espaço para 30B, mas, uma vez que esse espaço esteja disponível, os parâmetros ativos são 3B, então a velocidade é alta.

Por isso, acho que também vi um método de otimização que consiste em carregar na VRAM apenas as camadas mais usadas.

geekygeek 2026-01-20

VRAM de 24 GB...? Ou, se for um Mac, acho que 32 GB de RAM seria o mínimo.

GN⁺ 2026-01-20

Comentários do Hacker News

Tenho feito experimentos recentemente com o OpenCode e estou rodando um modelo 30B-A3B com llama.cpp (4bit) em uma GPU de 32 GB
Tenho VRAM suficiente, então consigo usar contexto de 128k com folga
Até agora, o Qwen3-coder foi o que me deu os melhores resultados. O Nemotron 3 Nano diz ser melhor nos benchmarks, mas no trabalho que faço principalmente, de “escrever código de teste”, não senti grande diferença
Se alguém fizer a quantização em 4bit GGUF, pretendo testar. O Codex tem alta qualidade, mas é lento demais. Espero que os modelos menores continuem melhorando não só em benchmarks simples, mas também na qualidade real
- Recomendo o modelo GLM-4.7-GGUF. Outras boas quantizações também podem ser vistas em 0xSero
- O Codex normalmente entrega qualidade mais alta, mas às vezes produz resultado em nível de AI slop, e aí você acaba esperando um tempão por algo que o Opus resolveria em poucos minutos
Estou usando o GLM-4.7 no plano de programação da z.ai, e a relação custo-benefício é surpreendente
Uso claude-code e opencode juntos, mas ultimamente tenho usado mais o opencode. O claude-code é otimizado para os modelos da Anthropic
Este lançamento é a versão “-Flash”, que pulou da 4.5-Flash direto para cá, sem passar pela 4.6-Flash. Segundo a documentação, é um modelo equivalente ao Haiku e está definido como ANTHROPIC_DEFAULT_HAIKU_MODEL
- Fico curioso sobre como está o desempenho recentemente. Ouvi dizer que alguns usuários quase não conseguem usar porque os limites mudaram
- Também uso esse mesmo plano. Comprei numa promoção por US$ 28 por 12 meses, e ele oferece 5 vezes mais uso que o Claude Pro. No momento estou usando só o claude code
O GLM-4.7 é uma melhoria incremental, mas parece bem sólido. A demo oneshot de UI está muito melhor do que na 4.6
Os modelos abertos ainda estão cerca de 1 ano atrás nos benchmarks, mas no longo prazo continuam interessantes
O GLM tem 355B de parâmetros, dos quais só 31B ficam ativos, então fazer self-host é difícil, mas acho que é um bom candidato para usar pelo endpoint da Cerebras
- Testei ontem o GLM-4.7 na Cerebras, sem ser a versão Flash, com US$ 10 em créditos. Ele chega a 1000 tokens por segundo, então é rápido, mas o rate limit atrapalha o uso real. Tokens em cache também entram no limite, então eu era bloqueado logo no começo de cada minuto e tinha que esperar
  Também cobram pelos tokens em cache, então gastei US$ 4 em uma tarefa simples. Com GPT-5.2-Codex teria saído por menos de US$ 0,5
- Fala-se muito de benchmark, mas isso é diferente de carga de trabalho real. Eu larguei o claude e migrei para o minimax m2.1. Usando com open code, acabei gostando mais. O plano de US$ 10 já basta
- No fim das contas, modelos abertos estão sempre correndo atrás via distillation, então sem inovação sempre vão ficar atrás. Em vez de “alcançar”, é mais como um trailer preso num caminhão
- Julgar a qualidade de um modelo por demo de UI não é adequado. Se a UI estiver fora da distribuição, a maioria vai falhar. Nem o Codex é perfeito
Testei no LMStudio em um MacBook Pro M4 e foi bem pior que o gpt-oss-20b
Nos dois prompts de código, ele gerou código errado e loops infinitos. Pode ser um problema do método de quantização do LMStudio, mas a primeira impressão não foi boa
- Fiquei na dúvida se você está usando o modelo completo em BF16 ou a versão quantizada em mlx4
Queria perguntar para quem já está rodando localmente — qual é hoje a configuração mais simples (ferramentas + formato de quantização)? Se tiverem exemplos de comandos que funcionam, agradeço
- Estou usando o llama-server compilado com o backend CUDA do llama.cpp. Rodo a versão Q4_K_M quant em Lubuntu + RTX 3090
  Links relacionados: llama.cpp releases, GLM-4.7-Flash-GGUF, supported backends
```
llama-server -ngl 999 --ctx-size 32768 -m GLM-4.7-Flash-Q4_K_M.gguf
```
  Depois disso, dá para conversar em http://127.0.0.1:8080 ou acessar pela API compatível com OpenAI
  Só que pode haver bugs logo depois do lançamento de um modelo novo, então é melhor atualizar depois de alguns dias
- Também dá para rodar com o comando ollama run hf.co/ngxson/GLM-4.7-Flash-GGUF:Q4_K_M. A velocidade é boa, mas o template ainda não está pronto e a saída fica bagunçada. Estou esperando o template oficial aparecer no ollama.com
- No LM Studio, basta procurar por “4.7-flash” e instalar a versão da comunidade mlx
- Pessoalmente, recomendo llama.cpp 4bit quant ou algum wrapper dele
Segundo a explicação deste lançamento,
“GLM-4.7-Flash é um modelo leve e de alta eficiência, a versão gratuita do GLM-4.7, oferecendo baixa latência e alta vazão em tarefas de programação, raciocínio e geração.
Também apresenta forte desempenho em tradução, roleplay e geração estética.”
Para mais detalhes, veja as notas oficiais de lançamento
- Duas notas publicadas este ano estão marcadas por engano como 2025. Pode ser uma página editada manualmente
Para quem quer entender por que esse lançamento é importante,
agora já dá para rodar localmente, em um MacBook com 32 GB de RAM, uma IA no nível do GPT-5-mini
Além disso, o custo de LLM-as-a-service fica muito mais barato — algo como 1/10 do preço do Haiku 4.5
A pontuação no SWE-bench Verified é 59,2, o que é bem impressionante para um modelo 30B. É maior que os 55,4 do Qwen3-Coder 480B
- O Devstral 2 Small (24B) é mais alto, com 68,0%. Link oficial
- Mas o SWE-Bench Verified já está difícil de confiar. Os repositórios e linguagens são limitados, e há também o problema de memorização de dados. O SWE-Bench Pro parece mais promissor, mas não é perfeito
Quando preciso de velocidade, uso Gemini ou Cerebras. Veja o blog da Cerebras
O GLM 4.7 é suficiente para uso cotidiano, mas às vezes falta capacidade de entender instruções, o que é frustrante
- Para mim, esse é exatamente o motivo de o Opus 4.5 ser bom: essa capacidade de lidar com instruções. Espero que melhore na próxima versão
Compararem o GLM 4.7 com o GPT-OSS-20B não me passa tanta confiança. Se ele realmente estiver no nível do Sonnet 4/4.5, eu esperaria que a versão Flash atropelasse o GPT-OSS-120B. Também gostaria que tivessem mostrado resultados no Aider
- Esperar que o 30-A3B supere o 117-A5.1B é pedir demais. Ainda assim, em chamadas agentic, ele parece melhor que o GPT-20B
- Usando na prática, os benchmarks parecem exagerados. Para tarefas simples ele serve, mas fica bem longe do Sonnet. Mesmo assim, o custo-benefício é bom
- Em termos de qualidade de código, está mais no nível do Sonnet 3.5. Ainda está longe do Sonnet 4/4.5