Como executar o GLM-5.2 localmente
(unsloth.ai)- O ponto central do novo modelo aberto GLM-5.2 da Z.ai é servir como um caso de uso de um modelo enorme rodando localmente, com 744B de parâmetros, 40B de parâmetros ativos e janela de contexto de 1M
- A Unsloth oferece um caminho para execução local com Dynamic GGUF, e o quant recomendado de 2 bits
UD-IQ2_Mexige 239GB de disco e um ambiente com pelo menos 245GB de RAM - O Dynamic 1-bit mostra cerca de 76,2% de top-1 accuracy e redução de tamanho de 86%, enquanto o Dynamic 2-bit mostra cerca de 82% de accuracy e redução de 84%, contrariando a interpretação de que “o desempenho piora na mesma proporção em que o modelo encolhe”
- Há dois caminhos de execução: Unsloth Studio e
llama.cpp; o Studio oferece busca, download e execução de modelos em MacOS, Windows e Linux, além de RAM offloading e detecção de multiGPU - Para usar contexto longo na prática, é preciso reduzir memória com KV cache quantization do
llama.cpp;q4_0permite cerca de 3,5x mais contexto eq4_1cerca de 3,2x
Visão geral do modelo GLM-5.2
- GLM-5.2 é o novo modelo aberto da Z.ai e pode ser executado em hardware local via Unsloth Dynamic GGUF
- As especificações do modelo são as seguintes
- Parâmetros totais: 744B
- Parâmetros ativos: 40B
- Janela máxima de contexto: 1.048.576
- Ele é apresentado como oferecendo desempenho SOTA em long-horizon coding, reasoning e agentic tasks
- Segundo a Artificial Analysis e vários benchmarks, ele teria desempenho no nível de Claude 4.8 Opus, GPT-5.5 e Gemini 3.1 Pro
- A Unsloth afirma ter recebido day-zero access da Z.ai
- Os arquivos GGUF do GLM-5.2 podem ser baixados em GLM-5.2-GGUF no Hugging Face
Quant recomendado e requisitos de memória
- Para equilibrar acessibilidade e precisão, é recomendado usar o quant dinâmico de 2 bits
UD-IQ2_M- Uso em disco: 239GB
- Cabe diretamente em um Mac com 256GB de memória unificada
- Com MoE offloading, também funcionaria bem em 1x24GB GPU + 256GB RAM
- O quant de 1 bit cabe em 223GB de RAM, enquanto 8-bit requer 810GB de RAM
- Na tabela de requisitos de hardware para inferência, a memória total significa RAM + VRAM ou memória unificada
- Os valores de memória total exibidos são: 223GB, 245GB, 290–360GB, 372–475GB, 570GB, 810GB
- Para obter o melhor desempenho, a memória disponível somando VRAM e RAM do sistema deve ultrapassar com folga o quantized model file size
Modo Thinking e configurações de sampling
- O GLM-5.2 oferece 3 thinking modes
- non-thinking
- thinking High
- thinking Max
- Para tarefas complexas, é recomendado usar Max Thinking
- No Unsloth Studio, é possível alternar entre High/Max Thinking e non-Thinking pela interface
- As configurações para a maioria dos casos de uso são as seguintes
temperature = 1.0top_p = 0.95- Em outros modos,
top_p = 1.0
- O GLM-5.2 usa reasoning por padrão, e
reasoning_effortpode ser"high","max"ou desativado - Exemplos para desativar thinking
- Shell comum:
--chat-template-kwargs '{"enable_thinking":false}' - Windows PowerShell:
--chat-template-kwargs "{\"enable_thinking\":false}"
- Shell comum:
- No
llama.cpp, também é possível usar--reasoning onou--reasoning off - Exemplos de configuração de reasoning effort
--chat-template-kwargs '{"reasoning_effort":"max"}'--chat-template-kwargs '{"reasoning_effort":"high"}'--chat-template-kwargs '{"enable_thinking":false}'
Precisão do Dynamic GGUF e interpretação de KLD
- A Unsloth usa o benchmark KLD (KL Divergence) para avaliar a precisão da quantização do GLM-5.2-GGUF
- O Dynamic 4-bit
UD-Q4_K_XLe o Dynamic 5-bitUD-Q5_K_XLsão descritos como praticamente lossless na maioria dos casos - Quants menores também funcionam com um esquema de alocação dinâmica de precisão, deixando camadas importantes em maior precisão e camadas menos importantes em poucos bits
- Os números com base em pure top-1% accuracy são os seguintes
- Dynamic 1-bit: cerca de 76,2% de accuracy, redução de tamanho de 86%
- Dynamic 2-bit: cerca de 82% de accuracy, redução de tamanho de 84%
- Comparação de accuracy:
- Dizer que ele é 86% menor não significa que seja 86% pior; no caso do Dynamic 1-bit, isso é interpretado como cerca de 24% menos precisão que o modelo completo de 1,5TB
- “76% accuracy” não quer dizer que em uma pergunta como “The capital of France is” ele escolheria Paris 76% e Sydney 24%
- Nesse exemplo, Paris seria sempre 100% e Sydney 0%
- O número de 76% também inclui mudanças de distribuição em filler words e stop words ao longo de todo o corpus
- Em prompts como “Create a novel”, onde múltiplos começos corretos são possíveis, a distribuição de tokens entre o modelo base e o quantizado pode mudar
- O baseline pode escolher
[I]com 100%, enquanto o modelo quantizado pode dividir a distribuição entre[I]76% e[The]24% - Isso não significa 24% de chance de gerar saída incorreta ou gibberish
- O baseline pode escolher
- O KLD é a distância entre as probabilidades do baseline em BF16 ou Q8_0 e as probabilidades da versão quantizada
- O objetivo da quantização é minimizar a média da KL divergence entre
f(q(W))ef(W) fé o forward do modelo de linguagem,qé a operação de quantização eWsão os parâmetros ou pesos do modelo- Se o KLD for 0, o modelo foi reconstruído perfeitamente
- O objetivo da quantização é minimizar a média da KL divergence entre
- Rodar KLD em todo o corpus de treinamento, com por exemplo 15T tokens, é caro demais, então a Unsloth otimiza com mean KLD e amostragem de subconjuntos representativos menores
- Mesmo 99,9% KLD costuma ser considerado bom, e a partir de 4bit haveria ganho maior, então para massive out-of-distribution tasks o Dynamic 4-bit provavelmente seria o mais adequado
Executando com Unsloth Studio
- O Unsloth Studio é uma web UI open source para IA local e suporta a execução do GLM-5.2
- Os principais recursos são os seguintes
- Executar modelos locais em MacOS, Windows e Linux
- Buscar, baixar e rodar modelos GGUF e safetensor
- RAM offloading e detecção automática de setup multiGPU
- Inferência rápida com CPU + GPU via
llama.cpp
- Os comandos de instalação são os seguintes
- MacOS, Linux, WSL:
curl -fsSL https://unsloth.ai/install.sh | sh - Windows PowerShell:
irm https://unsloth.ai/install.ps1 | iex
- MacOS, Linux, WSL:
- O comando de execução é o seguinte
unsloth studio -H 0.0.0.0 -p 8888- Depois de iniciar, basta abrir
http://127.0.0.1:8888no navegador ou a URL específica do usuário
- Também é oferecida uma forma de executar o Studio com segurança via HTTPS
- Em Windows, Mac e Linux:
unsloth studio --secure - Isso usa um tunnel gratuito do Cloudflare
- Em Windows, Mac e Linux:
- Na primeira execução, é preciso criar uma password para proteger a conta e depois fazer sign in novamente
- Na aba Chat do Studio, procure por
GLM-5.2na barra de busca e baixe o modelo e o quant desejados - Antes de rodar o modelo, é preciso verificar se há compute suficiente disponível
- No Studio, os inference parameters devem ser configurados automaticamente, mas o usuário pode alterar manualmente context length, chat template e outras opções
- Mais informações estão no guia de inferência do Unsloth Studio
Executando com llama.cpp
- O tutorial do llama.cpp cobre a execução do quant
UD-IQ2_Me requer no mínimo 245GB de RAM - Para inferência local rápida, é usado o llama.cpp
- Se você não tiver GPU ou quiser apenas inferência em CPU, troque
-DGGML_CUDA=ONpor-DGGML_CUDA=OFF - Em Apple Mac / dispositivos com Metal, siga com
-DGGML_CUDA=OFF, pois o suporte a Metal já vem ativado por padrão - O fluxo de build é o seguinte
apt-get updateapt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -ygit clone https://github.com/ggml-org/llama.cppcmake ... -DGGML_CUDA=ONcmake --build ... --target llama-cli llama-mtmd-cli llama-server llama-gguf-splitcp llama.cpp/build/bin/llama-* llama.cpp
- O
llama.cpptambém pode ser usado para carregar e baixar o modelo diretamente, de forma parecida comollama run - Como exemplo de tipo de quantização desejado, é usado
UD-IQ2_M, e é possível forçar o local de armazenamento comexport LLAMA_CACHE="unsloth/GLM-5.2-GGUF" - O processo de download direto do
llama.cpppode ser muito lento, então é recomendado fazer o download manualmente
Download manual e exemplos de execução
- Para um download manual mais rápido, é usado o huggingface_hub
pip install huggingface_hubhf download unsloth/GLM-5.2-GGUF --local-dir unsloth/GLM-5.2-GGUF --include "*UD-IQ2_M*"
- Para near full precision, pode-se usar
--include "*UD-Q8_K_XL*" - Se o download travar, a orientação é consultar Hugging Face Hub, XET debugging
- O comando de download do Dynamic 1-bit é o seguinte
hf download unsloth/GLM-5.2-GGUF --local-dir unsloth/GLM-5.2-GGUF --include "*UD-IQ1_S*"
- Os caminhos do modelo no modo conversation são os seguintes
- 2-bit:
unsloth/GLM-5.2-GGUF/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf - 1-bit:
unsloth/GLM-5.2-GGUF/UD-IQ1_S/GLM-5.2-UD-IQ1_S-00001-of-00006.gguf
- 2-bit:
- O exemplo de execução com
llama-cliusa o primeiro shard do GGUF de 2 bits em--modelcom os seguintes parâmetros--temp 1.0--top-p 0.95--min-p 0.01
- Nos exemplos de execução direta, também aparece
-hf unsloth/GLM-5.2-GGUF:UD-IQ2_M
Funcionamento observado no exemplo de geração
- A documentação inclui exemplos em que o GLM-5.2 de 2 bits realiza tool-calling e geração de SVG
- Após rodar o
llama-cli, o texto segue com um pedido para gerar um “short Flappy Bird game” - O jogo gerado em um único HTML/JavaScript usa o nome
Sunset Flier- Inclui
canvas, tela inicial, tela de game over, HUD de pontuação,NEW BEST!e botãoRETRY - Sem assets externos, ele gera efeitos sonoros de
flap,score,hitediecom Web Audio API - O estado do jogo é gerenciado em quatro etapas:
READY,PLAYING,DYING,OVER - A melhor pontuação é salva com
localStorage.getItem('sunsetFlierBest')elocalStorage.setItem()
- Inclui
- A lógica do jogo inclui gravidade, impulso de flap, canos aleatórios, colisão, partículas, tremor de tela e sistema de medalhas
GRAVITY = 0.42MAX_FALL = 9PIPE_W = 68PIPE_GAP = 180PIPE_SPEED = 2.6PIPE_SPACING = 220
- A entrada suporta mouse, toque e teclado com
Space,ArrowUpeEnter - Esse exemplo de jogo é apresentado no contexto de que também funcionou bem com quantização de 1 bit, inclusive com som funcionando normalmente
Contexto longo e KV cache quantization
- Para aproveitar contexto longo no
llama.cpp, é preciso reduzir o uso de memória com KV cache quantization - O
llama.cppadicionou recentemente técnicas para maior precisão na quantização do KV cache; o PR relacionado éhttps://github.com/ggml-org/llama.cpp/pull/21038 - Os tipos de dado suportados para KV cache são os seguintes
f32f16bf16q8_0q4_0q4_1iq4_nlq5_0q5_1
- O padrão é
f16 - Como
q4_0usa cerca de 4,5 bits por weight, ele permite multiplicar o comprimento de contexto por16 / 4.5, ou seja, cerca de 3,5x- Por exemplo, um modelo que antes suportava 10K pode passar a entrar na faixa de 35K
- O
q4_1adiciona um shifting parameter, o que pode torná-lo melhor, e com 5 bits por weight oferece cerca de 3,2x mais contexto - O exemplo de execução com KV cache quantization especifica o modelo GLM-5.2 GGUF e os parâmetros de sampling
- Caminho do modelo:
unsloth/GLM-5.2-GGUF/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf --temp 1.0--top-p 0.95--min-p 0.01--cache-type-k q4_1--cache-type-v q4_1
- Caminho do modelo:
Números visíveis na tabela de benchmarks
- A documentação segue com uma tabela de benchmarks do GLM-5.2, mas no conteúdo fornecido faltam os cabeçalhos de coluna, então não dá para confirmar a que modelo ou configuração cada número corresponde
- Os benchmarks de reasoning incluem as seguintes linhas e valores
HLE: 40.5, 49.8*, 41.4*, 45, 31, 41.4, 37, 37.7AIME 2026: 99.2, 95.7, 98.3, 98.2, 95.3, 97, -, 94.6GPQA-Diamond: 91.2, 93.6, 93.6, 94.3, 86.2, 90, 93, 90.1
- Os benchmarks de coding incluem as seguintes linhas e valores
SWE-bench Pro: 62.1, 69.2, 58.6, 54.2, 58.4, 60.6, 59, 55.4NL2Repo: 48.9, 69.7, 50.7, 33.4, 42.7, 47.2, 42.1, 35.5Terminal Bench 2.1 (Terminus-2): 81.0, 85, 84, 74, 63.5, 75, 65, 64
- Os benchmarks agentic incluem as seguintes linhas e valores
MCP-Atlas (Public Set): 76.8, 77.8, 75.3, 69.2, 71.8, 76.4, 74.2, 73.6Tool-Decathlon: 48.2, 59.9, 55.6, 48.8, 40.7, -, -, 52.8
1 comentários
Comentários do Hacker News
Estou rodando Q4_K_XL. Para chegar a cerca de 6 tk/s, basta ter 512 GB de RAM e 2 RTX 3090 com
llama.cpp -cmoeNo momento estou limitado por uma DDR4 ruim de 2400 MHz, mas com 3200 MHz provavelmente subiria para algo em torno de 9 tk/s. A CPU também é um EPYC de 32 núcleos, então já é decente, mas com um modelo melhor de 64 núcleos parece plausível chegar a 11 tk/s
Montei tudo com foco em orçamento antes que o preço do hardware ficasse insano, e me arrependo todos os dias, mas mesmo assim é incrível poder rodar esse modelo em casa. É ótimo para planejamento ou para juntar todo o contexto necessário e mandar em um prompt de uma vez só
O custo total do hardware foi de 2.400 dólares na época da montagem, e com alguma pesquisa dá para encontrar um jeito de rodar modelos assim em casa. Muita gente pergunta por que fazer isso, ou quanto se economizaria usando uma API em nuvem, mas acho que o caso da Fable mostrou o valor de operar de forma independente
Obrigado ao time da unsloth, e o Q4_K_XL é sólido. Se você for baixar um modelo quantizado, vale pegar a variante K_XL se ela couber
Os pesquisadores que tentam enfiar modelos open source em escovas de dente elétricas ou em um Tamagotchi também são incríveis
A menos que privacidade ou a satisfação de possuir tudo diretamente sejam realmente essenciais, pagar um hyperscaler sai mais barato, é mais prático e entrega muito mais tokens por segundo
Ainda assim, gosto da direção e estou curioso para ver que hardware de self-hosting teremos daqui a 2 anos
Estou usando com bastante satisfação e quero muito testar esse modelo também
Além de rodar modelos locais, uso essa máquina como minha principal plataforma de desenvolvimento remoto. Agora rodo todas as sessões do Claude Code lá dentro com
tmuxÉ ótimo não precisar mais ficar mexendo em um notebook sempre quente. Meus dedos agradecem. Também ajuda o fato de o Claude Code devorar bateria
[0] https://medium.com/@rathko/i-built-an-epyc-64-core-512gb-ram...
Só a RAM custa quase 5.000 dólares, e cada GPU sai por algo em torno de 2.000 dólares, então pelos preços atuais é um hardware bem caro
llama.cppainda não tem suporte para atenção esparsa DSA, então está bem incompletaPor isso, o modelo acaba rodando com outros mecanismos que não foram usados no treinamento, e houve resultados mostrando piora de qualidade e desempenho
De qualquer forma, acho que o GLM 5.2 não é tão interessante quanto a linha DeepSeek V4 em vários aspectos. O DeepSeek V4 usa um mecanismo de atenção mais avançado, que pode economizar bastante memória de cache KV, especialmente em contexto longo
Como resultado, ele permite lotes maiores até em plataformas de consumo. O GLM não tem isso e, em termos de arquitetura base de desempenho, parece em grande parte semelhante ao Kimi 2.6. Ambos são um pouco pesados demais para rodar com qualidade total em hardware comum de forma razoável
Quase deu. Minha máquina tem 192 GB de RAM + RTX 3090 de 24 GB e eu quase consegui rodar isso
Dizem que para offloading de MoE são necessários 24 GB de VRAM e 256 GB de RAM
https://unsloth.ai/docs/models/glm-5.2#usage-guide
Em um tópico anterior, alguém disse que o hardware custaria 500 mil dólares
https://news.ycombinator.com/item?id=48629970
Com NVFP4, dá para conseguir velocidade razoável, algo como 120 tok/s, com concorrência por algo entre 80 mil e 90 mil dólares nos preços atuais, talvez até menos
Com esse valor, dá para comprar 6 RTX 6000 PRO Blackwell, uma CPU decente, placa-mãe e fonte. Isso dá 576 GB de VRAM
Se 40 tok/s na decodificação e cerca de 1200 tok/s no prefill já estiver bom, dá para ficar abaixo de 50 mil dólares
Tenho a sensação de que um dos motivos para o hardware ter ficado relativamente estagnado nos últimos 20 anos é que faltavam casos de uso que justificassem as empresas trocarem suas máquinas
Nos últimos 15 anos, a maior parte do dinheiro e da energia foi para o mobile
Inferência local barata pode acabar sendo a fonte de receita que fabricantes de servidores, desktops e notebooks precisam para voltar a acelerar
Estou um pouco tentado a comprar uma GPU com 24 GB de RAM
Quando dizem que “cabe”, querem dizer que cabe em 256 GB de RAM, mas em um estado fortemente quantizado e ainda assim vai rodar muito devagar
O número da manchete não é a velocidade de geração de tokens, e sim a velocidade de processamento do prompt
Se der 10 tok/s e a API der 20~30 tok/s, superficialmente talvez não pareça tão ruim, mas em um Mac Studio ou em máquinas que não coloquem tudo na GPU, o processamento de prompt é de 20 a 50 vezes mais lento do que em uma configuração puramente com GPU
No fim, é isso que torna o uso inviável na prática a menos que você gaste US$ 50 mil em GPU. E, mesmo assim, você ainda acaba usando um modelo fortemente quantizado
Também existe uma versão de porta dupla para esse tipo de equipamento: https://www.nvidia.com/content/dam/en-zz/Solutions/networkin...
Ou seja, são portas de 2 x 100 GB/s, e talvez até 2 x 200 GB/s. Quando eu tiver isso em mãos, talvez descubra mais
Esse tipo de equipamento também pode ser colocado em cluster. Com 2 ou 3 máquinas, usando 2 sub-redes IP, isso parece bem direto. Com 4 ou mais, talvez seja preciso um switch, dependendo de quanto a latência de rede impactar
A Apple parece ter esquecido da linha M com muita RAM. Não consigo achar na Apple Store configurações com mais de 96 GB de RAM unificada, e mesmo isso custa um rim
Estão avançando em várias frentes ao mesmo tempo: o novo desktop de IA com GB10 é relativamente barato e, com clustering, dá para montar 1 TB de VRAM
Nvidia, AMD, Intel, Cerebras e outras estão empurrando hardware novo, e modelos open source como o GLM 5.2 estão ficando absurdamente bons
Modelos flash como o DeepSeek V4 Flash também estão melhorando muito, e a quantização continua avançando
Também está ficando viável ter um harness que use modelos diferentes, como modelos grandes para tarefas difíceis e modelos pequenos para tarefas mais simples
Então, quem quer sair das APIs espera em breve poder hospedar em casa um cluster de desktops de IA com preço razoável e usar desempenho de nível Opus
É barato em comparação com um H200 equivalente, mas ainda está fora do alcance de homelabs sem financiamento vindo de RSUs da OpenAI ou da Anthropic
Parece que a lacuna está diminuindo até o ponto de já dar para rodar localmente modelos bons o bastante, inclusive para programação, e imagino que algumas empresas devam estar ficando um pouco nervosas. Estou errado?
Mas, no momento, pouquíssimas pessoas conseguem bancar o hardware necessário para rodar esse tipo de modelo com eficiência. Não parece que isso vá mudar muito nos próximos anos
Se a Z.ai lançar uma versão focada em código, como uma GLM-5.2 Flash especializada em programação, na faixa de 80B de parâmetros, os laboratórios de ponta dos EUA teriam mais motivos para se preocupar
No geral, as empresas chinesas de IA estão mostrando como fazer a mesma coisa com menos recursos, às vezes com muito menos recursos, e se essa tendência continuar, isso vai preocupar os laboratórios de fronteira
Dito isso, as empresas chinesas de IA também vão tentar proteger seu fosso ao não divulgar modelos muito menores, mas ainda poderosos, do que seus modelos principais atuais
A Alibaba Qwen parece estar nessa posição agora. Ficou relativamente quieta ultimamente, e seu modelo mais recente, de 395B, é grande demais para a maioria das pessoas rodar em casa. Também não há sinais de que vá lançar um modelo menor desta vez
Se a equipe de desenvolvimento tiver umas 10 pessoas, um investimento único de US$ 50 mil em um servidor de LLM pode ser uma opção bem atraente
Você ganha tokens ilimitados, desempenho aceitável, opções de upgrade e possibilidade de integração ao produto
Em geral, para empresas que querem colocar LLMs em seus produtos, a abordagem com LLM local parece ainda mais atraente. Mesmo modelos meio burrinhos são bons o suficiente para muitos dos usos que as pessoas integram em produtos
Mas as opções são ou um build de CPU absurdamente lento com US$ 10 mil em RAM, ou US$ 90 mil em GPU, ou então um modelo fortemente quantizado cuja qualidade é difícil de comparar
Dá para montar algo por diversão, mas isso por si só não muda a viabilidade econômica. Ainda assim, é interessante que seja possível
OpenAI e Anthropic provavelmente não gostaram do timing do lançamento do GLM 5.2
Isso mostra bem que não havia um fosso mágico, e sim apenas uma vantagem de largada
Dá para usar um Mac Studio com 192 GB de RAM, mas isso ainda fica abaixo da RAM mínima declarada
Especialmente por ser MoE, será que daria para fazer funcionar de algum jeito com swap em disco rápido?
E o desempenho também seria desastroso, na faixa de 0,1 tok/s
Tenho muito respeito pelo trabalho que a unsloth fez para ajudar milhões de pessoas a começar com IA local, mas esse post parece um pouco caça-cliques de download
Fazer offload de camadas demais para a CPU simplesmente não funciona bem. Já tentei várias vezes e, no fim, tive que dar
rm -rfem pastas pesadas de cache do Hugging FaceTambém duvido que rodar uma quantização de 1 bit ou 2 bits do GLM 5.2 majoritariamente fora da VRAM seja mais útil, na prática, do que um Qwen3.6-27B Q8_0 totalmente carregado na VRAM
Independentemente do que o post diga, acho que quem tentar rodar isso em uma máquina com 256 GB de RAM não vai ter uma experiência boa
Um mínimo muito mais realista é 512 GB
Felizmente, tenho no home office duas workstations dual Xeon com 512 GB de RAM, compradas barato antes da alta de preços, então talvez eu consiga experimentar um pouco