11 pontos por GN⁺ 2026-01-20 | 4 comentários | Compartilhar no WhatsApp
  • GLM-4.7-Flash é um grande modelo de linguagem com arquitetura MoE 30B-A3B, oferecendo de forma equilibrada desempenho e eficiência como um modelo leve para implantação
  • Registrou pontuações altas em diversos benchmarks como AIME 25, GPQA e SWE-bench, com resultados competitivos em relação a modelos da mesma classe (Qwen3-30B/GPT-OSS-20B)
  • Busca desempenho de nível líder entre modelos da faixa de 30B e representa um avanço importante para pesquisa em IA baseada em open source e maior eficiência na implantação

Introdução (Introduction)

  • GLM-4.7-Flash é um modelo Mixture-of-Experts (MoE) 30B-A3B, com o objetivo de oferecer o desempenho mais forte entre modelos da faixa de 30B
    • Oferece uma opção leve de implantação com foco no equilíbrio entre desempenho e eficiência
    • Projeto pensado para permitir uso mais eficiente de modelos de grande porte

Desempenho em benchmarks (Performances on Benchmarks)

  • São apresentados os resultados do GLM-4.7-Flash em diversos benchmarks padrão
    • AIME 25: 91.6 (Qwen3-30B-A3B-Thinking-2507: 85.0, GPT-OSS-20B: 91.7)
    • GPQA: 75.2 (mais alto que os modelos de comparação)
    • LCB v6: 64.0
    • HLE: 14.4
    • SWE-bench Verified: 59.2 (grande diferença em relação aos outros modelos)
    • τ²-Bench: 79.5
    • BrowseComp: 42.8
  • Em vários itens, apresentou resultados superiores aos de Qwen3-30B-A3B-Thinking-2507 e GPT-OSS-20B

Implantação local (Serve GLM-4.7-Flash Locally)

4 comentários

 
kimjoin2 2026-01-20

Se são 30B... quanta VRAM precisa? T_T

 
crawler 2026-01-21

Como é 30B A3B, não é tão pesado assim.
É preciso garantir espaço para 30B, mas, uma vez que esse espaço esteja disponível, os parâmetros ativos são 3B, então a velocidade é alta.

Por isso, acho que também vi um método de otimização que consiste em carregar na VRAM apenas as camadas mais usadas.

 
geekygeek 2026-01-20

VRAM de 24 GB...? Ou, se for um Mac, acho que 32 GB de RAM seria o mínimo.

 
GN⁺ 2026-01-20
Comentários do Hacker News
  • Tenho feito experimentos recentemente com o OpenCode e estou rodando um modelo 30B-A3B com llama.cpp (4bit) em uma GPU de 32 GB
    Tenho VRAM suficiente, então consigo usar contexto de 128k com folga
    Até agora, o Qwen3-coder foi o que me deu os melhores resultados. O Nemotron 3 Nano diz ser melhor nos benchmarks, mas no trabalho que faço principalmente, de “escrever código de teste”, não senti grande diferença
    Se alguém fizer a quantização em 4bit GGUF, pretendo testar. O Codex tem alta qualidade, mas é lento demais. Espero que os modelos menores continuem melhorando não só em benchmarks simples, mas também na qualidade real
    • Recomendo o modelo GLM-4.7-GGUF. Outras boas quantizações também podem ser vistas em 0xSero
    • O Codex normalmente entrega qualidade mais alta, mas às vezes produz resultado em nível de AI slop, e aí você acaba esperando um tempão por algo que o Opus resolveria em poucos minutos
  • Estou usando o GLM-4.7 no plano de programação da z.ai, e a relação custo-benefício é surpreendente
    Uso claude-code e opencode juntos, mas ultimamente tenho usado mais o opencode. O claude-code é otimizado para os modelos da Anthropic
    Este lançamento é a versão “-Flash”, que pulou da 4.5-Flash direto para cá, sem passar pela 4.6-Flash. Segundo a documentação, é um modelo equivalente ao Haiku e está definido como ANTHROPIC_DEFAULT_HAIKU_MODEL
    • Fico curioso sobre como está o desempenho recentemente. Ouvi dizer que alguns usuários quase não conseguem usar porque os limites mudaram
    • Também uso esse mesmo plano. Comprei numa promoção por US$ 28 por 12 meses, e ele oferece 5 vezes mais uso que o Claude Pro. No momento estou usando só o claude code
  • O GLM-4.7 é uma melhoria incremental, mas parece bem sólido. A demo oneshot de UI está muito melhor do que na 4.6
    Os modelos abertos ainda estão cerca de 1 ano atrás nos benchmarks, mas no longo prazo continuam interessantes
    O GLM tem 355B de parâmetros, dos quais só 31B ficam ativos, então fazer self-host é difícil, mas acho que é um bom candidato para usar pelo endpoint da Cerebras
    • Testei ontem o GLM-4.7 na Cerebras, sem ser a versão Flash, com US$ 10 em créditos. Ele chega a 1000 tokens por segundo, então é rápido, mas o rate limit atrapalha o uso real. Tokens em cache também entram no limite, então eu era bloqueado logo no começo de cada minuto e tinha que esperar
      Também cobram pelos tokens em cache, então gastei US$ 4 em uma tarefa simples. Com GPT-5.2-Codex teria saído por menos de US$ 0,5
    • Fala-se muito de benchmark, mas isso é diferente de carga de trabalho real. Eu larguei o claude e migrei para o minimax m2.1. Usando com open code, acabei gostando mais. O plano de US$ 10 já basta
    • No fim das contas, modelos abertos estão sempre correndo atrás via distillation, então sem inovação sempre vão ficar atrás. Em vez de “alcançar”, é mais como um trailer preso num caminhão
    • Julgar a qualidade de um modelo por demo de UI não é adequado. Se a UI estiver fora da distribuição, a maioria vai falhar. Nem o Codex é perfeito
  • Testei no LMStudio em um MacBook Pro M4 e foi bem pior que o gpt-oss-20b
    Nos dois prompts de código, ele gerou código errado e loops infinitos. Pode ser um problema do método de quantização do LMStudio, mas a primeira impressão não foi boa
    • Fiquei na dúvida se você está usando o modelo completo em BF16 ou a versão quantizada em mlx4
  • Queria perguntar para quem já está rodando localmente — qual é hoje a configuração mais simples (ferramentas + formato de quantização)? Se tiverem exemplos de comandos que funcionam, agradeço
    • Estou usando o llama-server compilado com o backend CUDA do llama.cpp. Rodo a versão Q4_K_M quant em Lubuntu + RTX 3090
      Links relacionados: llama.cpp releases, GLM-4.7-Flash-GGUF, supported backends
      llama-server -ngl 999 --ctx-size 32768 -m GLM-4.7-Flash-Q4_K_M.gguf
      
      Depois disso, dá para conversar em http://127.0.0.1:8080 ou acessar pela API compatível com OpenAI
      Só que pode haver bugs logo depois do lançamento de um modelo novo, então é melhor atualizar depois de alguns dias
    • Também dá para rodar com o comando ollama run hf.co/ngxson/GLM-4.7-Flash-GGUF:Q4_K_M. A velocidade é boa, mas o template ainda não está pronto e a saída fica bagunçada. Estou esperando o template oficial aparecer no ollama.com
    • No LM Studio, basta procurar por “4.7-flash” e instalar a versão da comunidade mlx
    • Pessoalmente, recomendo llama.cpp 4bit quant ou algum wrapper dele
  • Segundo a explicação deste lançamento,
    “GLM-4.7-Flash é um modelo leve e de alta eficiência, a versão gratuita do GLM-4.7, oferecendo baixa latência e alta vazão em tarefas de programação, raciocínio e geração.
    Também apresenta forte desempenho em tradução, roleplay e geração estética.”
    Para mais detalhes, veja as notas oficiais de lançamento
    • Duas notas publicadas este ano estão marcadas por engano como 2025. Pode ser uma página editada manualmente
  • Para quem quer entender por que esse lançamento é importante,
    agora já dá para rodar localmente, em um MacBook com 32 GB de RAM, uma IA no nível do GPT-5-mini
    Além disso, o custo de LLM-as-a-service fica muito mais barato — algo como 1/10 do preço do Haiku 4.5
  • A pontuação no SWE-bench Verified é 59,2, o que é bem impressionante para um modelo 30B. É maior que os 55,4 do Qwen3-Coder 480B
    • O Devstral 2 Small (24B) é mais alto, com 68,0%. Link oficial
    • Mas o SWE-Bench Verified já está difícil de confiar. Os repositórios e linguagens são limitados, e há também o problema de memorização de dados. O SWE-Bench Pro parece mais promissor, mas não é perfeito
  • Quando preciso de velocidade, uso Gemini ou Cerebras. Veja o blog da Cerebras
    O GLM 4.7 é suficiente para uso cotidiano, mas às vezes falta capacidade de entender instruções, o que é frustrante
    • Para mim, esse é exatamente o motivo de o Opus 4.5 ser bom: essa capacidade de lidar com instruções. Espero que melhore na próxima versão
  • Compararem o GLM 4.7 com o GPT-OSS-20B não me passa tanta confiança. Se ele realmente estiver no nível do Sonnet 4/4.5, eu esperaria que a versão Flash atropelasse o GPT-OSS-120B. Também gostaria que tivessem mostrado resultados no Aider
    • Esperar que o 30-A3B supere o 117-A5.1B é pedir demais. Ainda assim, em chamadas agentic, ele parece melhor que o GPT-20B
    • Usando na prática, os benchmarks parecem exagerados. Para tarefas simples ele serve, mas fica bem longe do Sonnet. Mesmo assim, o custo-benefício é bom
    • Em termos de qualidade de código, está mais no nível do Sonnet 3.5. Ainda está longe do Sonnet 4/4.5