- Modelo de linguagem de grande porte com eficiência aprimorada e capacidade de executar tarefas de longo prazo com IA
- Expandido em relação à versão anterior para 744 bilhões de parâmetros (40 bilhões ativos), com 28,5 trilhões de tokens de pré-treinamento
- Integração do DeepSeek Sparse Attention (DSA) para manter a capacidade de lidar com contexto longo enquanto reduz o custo de implantação
- Nova infraestrutura assíncrona de aprendizado por reforço,
slime, aumenta a eficiência do treinamento e registra desempenho de ponta em diversos benchmarks
- Disponibilizado como open source, com acesso via Hugging Face, ModelScope e plataforma Z.ai, além de compatibilidade com Claude Code e OpenClaw
Visão geral do GLM-5
- O GLM-5 é um modelo projetado para executar engenharia de sistemas complexos e tarefas de agente de longo prazo
- Em comparação com o GLM-4.5, os parâmetros aumentaram de 355 bilhões (32 bilhões ativos) para 744 bilhões (40 bilhões ativos)
- Os dados de pré-treinamento foram ampliados de 23 trilhões para 28,5 trilhões de tokens
- Integra o DeepSeek Sparse Attention (DSA) para manter a capacidade de processamento de contexto longo enquanto reduz significativamente o custo de implantação
- Introduz a infraestrutura assíncrona de aprendizado por reforço chamada slime, melhorando o throughput e a eficiência do treinamento e permitindo iterações mais detalhadas de pós-treinamento
Melhorias de desempenho e resultados de benchmarks
- O GLM-5 mostra melhoria geral de desempenho em relação ao GLM-4.7 e se aproxima do nível do Claude Opus 4.5
- No conjunto de avaliação interno CC-Bench-V2, apresentou excelentes resultados em frontend, backend e tarefas de longa duração
- No Vending Bench 2, ficou em 1º lugar entre os modelos open source e alcançou saldo final de US$ 4.432 em uma simulação de negócio de máquinas de venda automática ao longo de 1 ano
- Possui desempenho open source de nível mundial em raciocínio, coding e tarefas de agente
- Ex.: SWE-bench Verified 77.8, BrowseComp 62.0, τ²-Bench 89.7
- Reduz a diferença em relação a modelos de ponta como GPT-5.2 e Gemini 3.0 Pro
Disponibilização open source e formas de acesso
- O GLM-5 foi lançado sob licença MIT, com pesos do modelo disponíveis para download no Hugging Face e no ModelScope
- Também pode ser usado via API em Z.ai, BigModel.cn e api.z.ai
- É compatível com Claude Code e OpenClaw, permitindo integração em diversos ambientes de desenvolvimento
- A plataforma Z.ai oferece teste gratuito
Recursos de escritório e geração de documentos
- O GLM-5 busca a transição de “chat para trabalho”, atuando como ferramenta de escritório para profissionais do conhecimento e engenheiros
- Converte diretamente texto ou materiais-fonte em formatos .docx, .pdf e .xlsx, gerando documentos completos como PRDs, provas, relatórios financeiros e cardápios
- O aplicativo Z.ai oferece um modo Agent com suporte à criação de PDF/Word/Excel, permitindo colaboração em múltiplas rodadas
Suporte para desenvolvedores e implantação
- Assinantes do GLM Coding Plan passam a ter acesso gradual ao GLM-5
- Usuários do plano Max podem ativá-lo imediatamente com o nome de modelo
"GLM-5"
- As solicitações ao GLM-5 consomem mais cota do que o GLM-4.7
- Para usuários que preferem ambiente GUI, é fornecido o ambiente de desenvolvimento de agentes Z Code
- Por meio do framework OpenClaw, o GLM-5 pode ser usado como agente assistente pessoal que opera em apps e dispositivos
Implantação local e compatibilidade de hardware
- O GLM-5 oferece suporte a frameworks de inferência como vLLM e SGLang, com instruções de implantação disponíveis no GitHub oficial
- Também pode rodar em chipsets além da NVIDIA (Huawei Ascend, Moore Threads, Cambricon, Kunlun, MetaX, Enflame, Hygon etc.)
- A otimização de kernel e a quantização do modelo garantem throughput razoável
4 comentários
Comentários do Hacker News
Vi os resultados gerados pelo Pelican via OpenRouter
O pássaro em si parece uma ave robusta, mas como quadro de bicicleta não é grande coisa
Link relacionado
O contexto do teste da bicicleta com pelicano pode ser visto aqui
SVG já está em todo lugar, então precisamos de um cenário novo e mais realista
Me preocupa se esses resultados não estão contaminando os dados de treinamento
É interessante que a IA diga por conta própria que ‘precisa de pés palmados’, mas isso não apareça na imagem real
Me preocupa a postura de tratar 90% de acurácia, como em MMLU ou AIME, como ‘problema resolvido’
Se fosse AGI de verdade, teria que alcançar 100% de acurácia, mas estamos nos satisfazendo fácil demais
Vejo como inevitável uma clonagem rápida baseada em distillation no mercado cinza daqui para frente
Antes eu achava que modelos N-1 e N-2 não teriam apelo, mas agora até a preferência dos usuários parece saturada, então isso também deve bastar
Opus 4.5 foi claramente um salto, mas 4.6 não mudou meu fluxo de trabalho
No fim, depois do ‘maior roubo da humanidade’, parece que virá a ‘maior retribuição causal’
Os usuários não vão se importar nem um pouco com o fato de que IA chinesa roubou das big techs americanas
Dá para argumentar: “eu só aprendi como um humano, por que isso seria ilegal?”
Bastaria criar milhares de sites de conteúdo gerado por IA e divulgar em cada post o prompt e as informações do modelo
A estrutura seria deixar os outros rastrearem isso ‘por acaso’ e usarem no treinamento
Parece que vai pelo menos duas vezes mais longe do que antes, então não quero voltar atrás
Os benchmarks recentes são impressionantes, mas a comparação é com modelos da geração anterior (Opus 4.5, GPT-5.2)
Hoje em dia, modelos abertos têm pontuação alta em benchmark, mas a experiência real de uso fica abaixo do esperado
benchmaxxing claramente existe
Rodar 20 benchmarks também não é algo simples, e a nova geração de modelos saiu há só 5 dias
Muitos desenvolvedores estão presos ao culto aos modelos fechados e não sabem que o mesmo prompt não funciona em outras famílias de modelos
Uso GLM-4.7 com frequência, ele está no nível do Sonnet 4.5, e o GLM-5 provavelmente deve estar no nível do Opus 4.5
Em teste cego, são parecidos a ponto de você não conseguir distinguir
Mesmo comparando respostas do Claude e do ChatGPT, é quase tudo igual
No fim, para a maioria dos usos, um modelo nível Toyota já basta
Inovação algorítmica é possível, mas o custo de gerar dados humanos é alto demais para escalar
Modelos open source ainda têm muitos erros de sintaxe, enquanto os modelos de fronteira quase resolveram isso
mas os laboratórios chineses são centrados em benchmark, e daí surge a diferença
Self-hosting e melhoria contínua são difíceis de conciliar
Graças ao open source chinês, parece que vamos poder ter inteligência auto-hospedada
Em termos de custo isso é ineficiente, mas gosto do fato de poder operar de forma independente, sem conexão com a internet
No fim, o macOS é a única opção de consumo para rodar modelos grandes localmente
Em termos de privacidade e disponibilidade, self-hosting também tem valor
Principalmente para se preparar caso a regulação digital nos EUA fique mais pesada
Ainda assim, a vantagem é que dá para corrigir viés com fine-tuning
Recomendo GPT-OSS 120GB, Qwen Coder Next 80B, Step 3.5 Flash e outros
Espero que em 1 ou 2 anos seja possível rodar modelos na faixa de 512GB até em hardware de consumo
É o retorno da rede doméstica
O essencial é a liberdade de trocar de provedor a qualquer momento
Usei o GLM-4.7 por algumas semanas e ele está num nível parecido com o Sonnet
Só que precisa de instruções mais claras
Para trabalhos grandes ainda uso a linha da Anthropic, mas para tarefas pequenas e bem definidas o GLM tem o melhor custo-benefício
O GLM-4.7, se deixado sozinho, tem uma tendência a querer construir um mundo desnecessariamente
Mas em tarefas pequenas ele é parecido com o Sonnet, e por ser muito barato é útil como modelo auxiliar
Se os modelos abertos evoluírem só mais uns 6 meses, estou disposto a migrar
O MiniMax M2.5 também pode ser usado a partir de hoje na Chat UI
O GLM é melhor para programação, mas uso o MiniMax com frequência em tarefas do dia a dia por causa da velocidade e da capacidade de chamar ferramentas
O novo modelo foi lançado no OpenRouter
Nos meus benchmarks pessoais, a capacidade de seguir instruções foi muito fraca
É um teste que segue o formato chat.md + mcps, e ele não conseguiu executar corretamente
Fico curioso sobre que resultados você teve com outros modelos de fronteira
Eu também estava criando um editor de texto baseado em keybindings do vim, e essa abordagem pode servir como inspiração de UI
Estou pensando em adicionar uma função para recolher texto desnecessário
Às vezes o desempenho é ruim
Se possível, é melhor usar diretamente o provedor original
O GLM-4.7-Flash parece ser o primeiro modelo inteligente bom o bastante para programação local
Está em um nível parecido com o Claude 4.5 Haiku, e o processo de raciocínio é transparente, então dá para entender por que ele tomou certas decisões
É muito melhor do que Devstral 2 Small ou Qwen-Coder-Next
Estou usando o GLM 4.7 no opencode
Não é o melhor, mas por causa do limite de uso generoso dá para usar o dia inteiro
O novo modelo ainda tem acesso restrito, mas estou animado
Testei o novo modelo rapidamente no opencode e fiquei bastante impressionado
Não é uma inovação revolucionária, mas com certeza melhorou em relação ao 4.7
A memória e a estabilidade em tarefas longas melhoraram de forma perceptível
O preço da assinatura aumentou.
O desconto de 50% que davam no cadastro inicial acabou..
No plano Max, a promoção inicial anual era de $360, mas agora foi para $672...