- GLM-4.7-Flash é um grande modelo de linguagem com arquitetura MoE 30B-A3B, oferecendo de forma equilibrada desempenho e eficiência como um modelo leve para implantação
- Registrou pontuações altas em diversos benchmarks como AIME 25, GPQA e SWE-bench, com resultados competitivos em relação a modelos da mesma classe (Qwen3-30B/GPT-OSS-20B)
- Busca desempenho de nível líder entre modelos da faixa de 30B e representa um avanço importante para pesquisa em IA baseada em open source e maior eficiência na implantação
Introdução (Introduction)
- GLM-4.7-Flash é um modelo Mixture-of-Experts (MoE) 30B-A3B, com o objetivo de oferecer o desempenho mais forte entre modelos da faixa de 30B
- Oferece uma opção leve de implantação com foco no equilíbrio entre desempenho e eficiência
- Projeto pensado para permitir uso mais eficiente de modelos de grande porte
Desempenho em benchmarks (Performances on Benchmarks)
- São apresentados os resultados do GLM-4.7-Flash em diversos benchmarks padrão
- AIME 25: 91.6 (Qwen3-30B-A3B-Thinking-2507: 85.0, GPT-OSS-20B: 91.7)
- GPQA: 75.2 (mais alto que os modelos de comparação)
- LCB v6: 64.0
- HLE: 14.4
- SWE-bench Verified: 59.2 (grande diferença em relação aos outros modelos)
- τ²-Bench: 79.5
- BrowseComp: 42.8
- Em vários itens, apresentou resultados superiores aos de Qwen3-30B-A3B-Thinking-2507 e GPT-OSS-20B
Implantação local (Serve GLM-4.7-Flash Locally)
- O GLM-4.7-Flash oferece suporte aos frameworks de inferência vLLM e SGLang
4 comentários
Se são 30B... quanta VRAM precisa? T_T
Como é 30B A3B, não é tão pesado assim.
É preciso garantir espaço para 30B, mas, uma vez que esse espaço esteja disponível, os parâmetros ativos são 3B, então a velocidade é alta.
Por isso, acho que também vi um método de otimização que consiste em carregar na VRAM apenas as camadas mais usadas.
VRAM de 24 GB...? Ou, se for um Mac, acho que 32 GB de RAM seria o mínimo.
Comentários do Hacker News
Tenho VRAM suficiente, então consigo usar contexto de 128k com folga
Até agora, o Qwen3-coder foi o que me deu os melhores resultados. O Nemotron 3 Nano diz ser melhor nos benchmarks, mas no trabalho que faço principalmente, de “escrever código de teste”, não senti grande diferença
Se alguém fizer a quantização em 4bit GGUF, pretendo testar. O Codex tem alta qualidade, mas é lento demais. Espero que os modelos menores continuem melhorando não só em benchmarks simples, mas também na qualidade real
Uso claude-code e opencode juntos, mas ultimamente tenho usado mais o opencode. O claude-code é otimizado para os modelos da Anthropic
Este lançamento é a versão “-Flash”, que pulou da 4.5-Flash direto para cá, sem passar pela 4.6-Flash. Segundo a documentação, é um modelo equivalente ao Haiku e está definido como
ANTHROPIC_DEFAULT_HAIKU_MODELOs modelos abertos ainda estão cerca de 1 ano atrás nos benchmarks, mas no longo prazo continuam interessantes
O GLM tem 355B de parâmetros, dos quais só 31B ficam ativos, então fazer self-host é difícil, mas acho que é um bom candidato para usar pelo endpoint da Cerebras
Também cobram pelos tokens em cache, então gastei US$ 4 em uma tarefa simples. Com GPT-5.2-Codex teria saído por menos de US$ 0,5
Nos dois prompts de código, ele gerou código errado e loops infinitos. Pode ser um problema do método de quantização do LMStudio, mas a primeira impressão não foi boa
Links relacionados: llama.cpp releases, GLM-4.7-Flash-GGUF, supported backends Depois disso, dá para conversar em http://127.0.0.1:8080 ou acessar pela API compatível com OpenAI
Só que pode haver bugs logo depois do lançamento de um modelo novo, então é melhor atualizar depois de alguns dias
ollama run hf.co/ngxson/GLM-4.7-Flash-GGUF:Q4_K_M. A velocidade é boa, mas o template ainda não está pronto e a saída fica bagunçada. Estou esperando o template oficial aparecer no ollama.com“GLM-4.7-Flash é um modelo leve e de alta eficiência, a versão gratuita do GLM-4.7, oferecendo baixa latência e alta vazão em tarefas de programação, raciocínio e geração.
Também apresenta forte desempenho em tradução, roleplay e geração estética.”
Para mais detalhes, veja as notas oficiais de lançamento
agora já dá para rodar localmente, em um MacBook com 32 GB de RAM, uma IA no nível do GPT-5-mini
Além disso, o custo de LLM-as-a-service fica muito mais barato — algo como 1/10 do preço do Haiku 4.5
O GLM 4.7 é suficiente para uso cotidiano, mas às vezes falta capacidade de entender instruções, o que é frustrante