GLM-5 é lançado: modelo voltado para engenharia de sistemas complexos e tarefas de agente de longo prazo

(z.ai)

6 pontos por GN⁺ 2026-02-12 | 4 comentários | Compartilhar no WhatsApp

Modelo de linguagem de grande porte com eficiência aprimorada e capacidade de executar tarefas de longo prazo com IA
Expandido em relação à versão anterior para 744 bilhões de parâmetros (40 bilhões ativos), com 28,5 trilhões de tokens de pré-treinamento
Integração do DeepSeek Sparse Attention (DSA) para manter a capacidade de lidar com contexto longo enquanto reduz o custo de implantação
Nova infraestrutura assíncrona de aprendizado por reforço, slime, aumenta a eficiência do treinamento e registra desempenho de ponta em diversos benchmarks
Disponibilizado como open source, com acesso via Hugging Face, ModelScope e plataforma Z.ai, além de compatibilidade com Claude Code e OpenClaw

Visão geral do GLM-5

O GLM-5 é um modelo projetado para executar engenharia de sistemas complexos e tarefas de agente de longo prazo
- Em comparação com o GLM-4.5, os parâmetros aumentaram de 355 bilhões (32 bilhões ativos) para 744 bilhões (40 bilhões ativos)
- Os dados de pré-treinamento foram ampliados de 23 trilhões para 28,5 trilhões de tokens
Integra o DeepSeek Sparse Attention (DSA) para manter a capacidade de processamento de contexto longo enquanto reduz significativamente o custo de implantação
Introduz a infraestrutura assíncrona de aprendizado por reforço chamada slime, melhorando o throughput e a eficiência do treinamento e permitindo iterações mais detalhadas de pós-treinamento

Melhorias de desempenho e resultados de benchmarks

O GLM-5 mostra melhoria geral de desempenho em relação ao GLM-4.7 e se aproxima do nível do Claude Opus 4.5
No conjunto de avaliação interno CC-Bench-V2, apresentou excelentes resultados em frontend, backend e tarefas de longa duração
No Vending Bench 2, ficou em 1º lugar entre os modelos open source e alcançou saldo final de US$ 4.432 em uma simulação de negócio de máquinas de venda automática ao longo de 1 ano
Possui desempenho open source de nível mundial em raciocínio, coding e tarefas de agente
- Ex.: SWE-bench Verified 77.8, BrowseComp 62.0, τ²-Bench 89.7
Reduz a diferença em relação a modelos de ponta como GPT-5.2 e Gemini 3.0 Pro

Disponibilização open source e formas de acesso

O GLM-5 foi lançado sob licença MIT, com pesos do modelo disponíveis para download no Hugging Face e no ModelScope
Também pode ser usado via API em Z.ai, BigModel.cn e api.z.ai
É compatível com Claude Code e OpenClaw, permitindo integração em diversos ambientes de desenvolvimento
A plataforma Z.ai oferece teste gratuito

Recursos de escritório e geração de documentos

O GLM-5 busca a transição de “chat para trabalho”, atuando como ferramenta de escritório para profissionais do conhecimento e engenheiros
Converte diretamente texto ou materiais-fonte em formatos .docx, .pdf e .xlsx, gerando documentos completos como PRDs, provas, relatórios financeiros e cardápios
O aplicativo Z.ai oferece um modo Agent com suporte à criação de PDF/Word/Excel, permitindo colaboração em múltiplas rodadas

Suporte para desenvolvedores e implantação

Assinantes do GLM Coding Plan passam a ter acesso gradual ao GLM-5
- Usuários do plano Max podem ativá-lo imediatamente com o nome de modelo "GLM-5"
- As solicitações ao GLM-5 consomem mais cota do que o GLM-4.7
Para usuários que preferem ambiente GUI, é fornecido o ambiente de desenvolvimento de agentes Z Code
Por meio do framework OpenClaw, o GLM-5 pode ser usado como agente assistente pessoal que opera em apps e dispositivos

Implantação local e compatibilidade de hardware

O GLM-5 oferece suporte a frameworks de inferência como vLLM e SGLang, com instruções de implantação disponíveis no GitHub oficial
Também pode rodar em chipsets além da NVIDIA (Huawei Ascend, Moore Threads, Cambricon, Kunlun, MetaX, Enflame, Hygon etc.)
- A otimização de kernel e a quantização do modelo garantem throughput razoável

4 comentários

GN⁺ 2026-02-12

Comentários do Hacker News

Vi os resultados gerados pelo Pelican via OpenRouter
O pássaro em si parece uma ave robusta, mas como quadro de bicicleta não é grande coisa
Link relacionado
- Agradeço ao Simon por manter o único sistema de benchmark realmente significativo
  O contexto do teste da bicicleta com pelicano pode ser visto aqui
- Acho que esse é um teste realmente importante, um brinde ao Simon
- Agora sinto que o benchmark do Pelican ficou ultrapassado
  SVG já está em todo lugar, então precisamos de um cenário novo e mais realista
- Fico curioso sobre quantos SVGs de pelicano andando de bicicleta existiam antes desse teste surgir
  Me preocupa se esses resultados não estão contaminando os dados de treinamento
- Acho que chamar um pássaro sem asas de ‘pássaro robusto’ é um caso simbólico da lacuna de expectativa da IA
  É interessante que a IA diga por conta própria que ‘precisa de pés palmados’, mas isso não apareça na imagem real
  Me preocupa a postura de tratar 90% de acurácia, como em MMLU ou AIME, como ‘problema resolvido’
  Se fosse AGI de verdade, teria que alcançar 100% de acurácia, mas estamos nos satisfazendo fácil demais
Vejo como inevitável uma clonagem rápida baseada em distillation no mercado cinza daqui para frente
Antes eu achava que modelos N-1 e N-2 não teriam apelo, mas agora até a preferência dos usuários parece saturada, então isso também deve bastar
Opus 4.5 foi claramente um salto, mas 4.6 não mudou meu fluxo de trabalho
No fim, depois do ‘maior roubo da humanidade’, parece que virá a ‘maior retribuição causal’
Os usuários não vão se importar nem um pouco com o fato de que IA chinesa roubou das big techs americanas
- Se empresas de LLM justificam o uso de dados de treinamento, então um distiller treinar em saídas de LLM também deveria ser legal pela mesma lógica
  Dá para argumentar: “eu só aprendi como um humano, por que isso seria ilegal?”
- Impedir distillation deveria ser ilegal, na verdade
  Bastaria criar milhares de sites de conteúdo gerado por IA e divulgar em cada post o prompt e as informações do modelo
  A estrutura seria deixar os outros rastrearem isso ‘por acaso’ e usarem no treinamento
- O destaque do Opus 4.6 é a persistência em tarefas longas
  Parece que vai pelo menos duas vezes mais longe do que antes, então não quero voltar atrás
- Mas o consumo de tokens é tão alto que sinto que houve retrocesso em eficiência
Os benchmarks recentes são impressionantes, mas a comparação é com modelos da geração anterior (Opus 4.5, GPT-5.2)
Hoje em dia, modelos abertos têm pontuação alta em benchmark, mas a experiência real de uso fica abaixo do esperado
benchmaxxing claramente existe
- As críticas aos modelos open-weight parecem agressivas demais
  Rodar 20 benchmarks também não é algo simples, e a nova geração de modelos saiu há só 5 dias
  Muitos desenvolvedores estão presos ao culto aos modelos fechados e não sabem que o mesmo prompt não funciona em outras famílias de modelos
  Uso GLM-4.7 com frequência, ele está no nível do Sonnet 4.5, e o GLM-5 provavelmente deve estar no nível do Opus 4.5
- Se o GLM-4.7 estiver mesmo no nível do 4.5 ou do 5.2, isso por si só já é um salto enorme
- Sinto que os modelos de hoje no fim são só geradores de tokens
  Em teste cego, são parecidos a ponto de você não conseguir distinguir
  Mesmo comparando respostas do Claude e do ChatGPT, é quase tudo igual
  No fim, para a maioria dos usos, um modelo nível Toyota já basta
- O problema é o limite do RLHF (aprendizado por reforço com feedback humano)
  Inovação algorítmica é possível, mas o custo de gerar dados humanos é alto demais para escalar
  Modelos open source ainda têm muitos erros de sintaxe, enquanto os modelos de fronteira quase resolveram isso
- Anthropic, OpenAI e Google melhoram seus modelos com dados reais de usuários,
  mas os laboratórios chineses são centrados em benchmark, e daí surge a diferença
  Self-hosting e melhoria contínua são difíceis de conciliar
Graças ao open source chinês, parece que vamos poder ter inteligência auto-hospedada
Em termos de custo isso é ineficiente, mas gosto do fato de poder operar de forma independente, sem conexão com a internet
No fim, o macOS é a única opção de consumo para rodar modelos grandes localmente
- Eu frequentemente ultrapasso o limite da assinatura Claude Max, então vou me virando com 2x RTX3090 e modelos quantizados do Qwen3
  Em termos de privacidade e disponibilidade, self-hosting também tem valor
  Principalmente para se preparar caso a regulação digital nos EUA fique mais pesada
- Mesmo sendo um modelo open-weight, os dados de treinamento e os critérios de censura continuam fechados
  Ainda assim, a vantagem é que dá para corrigir viés com fine-tuning
- Uma máquina Strix Halo com 128GB de VRAM custa na faixa de 3 mil dólares, e dá para rodar modelos bem decentes localmente
  Recomendo GPT-OSS 120GB, Qwen Coder Next 80B, Step 3.5 Flash e outros
  Espero que em 1 ou 2 anos seja possível rodar modelos na faixa de 512GB até em hardware de consumo
- Em vez de macOS, também é uma boa ideia ter em casa uma caixa de inferência headless Linux
  É o retorno da rede doméstica
- Acho que mais importante do que hospedar por conta própria é a comoditização da hospedagem
  O essencial é a liberdade de trocar de provedor a qualquer momento
Usei o GLM-4.7 por algumas semanas e ele está num nível parecido com o Sonnet
Só que precisa de instruções mais claras
Para trabalhos grandes ainda uso a linha da Anthropic, mas para tarefas pequenas e bem definidas o GLM tem o melhor custo-benefício
- Tive uma experiência parecida
  O GLM-4.7, se deixado sozinho, tem uma tendência a querer construir um mundo desnecessariamente
  Mas em tarefas pequenas ele é parecido com o Sonnet, e por ser muito barato é útil como modelo auxiliar
- Nos últimos 6 a 8 meses eu só venho usando Sonnet, mas o Opus frequentemente apresenta um bug de compulsão por tokens
  Se os modelos abertos evoluírem só mais uns 6 meses, estou disposto a migrar
O MiniMax M2.5 também pode ser usado a partir de hoje na Chat UI
O GLM é melhor para programação, mas uso o MiniMax com frequência em tarefas do dia a dia por causa da velocidade e da capacidade de chamar ferramentas
O novo modelo foi lançado no OpenRouter
Nos meus benchmarks pessoais, a capacidade de seguir instruções foi muito fraca
É um teste que segue o formato chat.md + mcps, e ele não conseguiu executar corretamente
- Tenho a sensação de que formatos customizados de chamada de ferramentas são treinados de forma diferente em cada modelo, então é difícil obter consistência
  Fico curioso sobre que resultados você teve com outros modelos de fronteira
- Gostei da ideia do chat.md
  Eu também estava criando um editor de texto baseado em keybindings do vim, e essa abordagem pode servir como inspiração de UI
  Estou pensando em adicionar uma função para recolher texto desnecessário
- O problema pode ser a qualidade do provedor no OpenRouter
  Às vezes o desempenho é ruim
- O OpenRouter frequentemente hospeda modelos quantizados, então a qualidade cai
  Se possível, é melhor usar diretamente o provedor original
O GLM-4.7-Flash parece ser o primeiro modelo inteligente bom o bastante para programação local
Está em um nível parecido com o Claude 4.5 Haiku, e o processo de raciocínio é transparente, então dá para entender por que ele tomou certas decisões
É muito melhor do que Devstral 2 Small ou Qwen-Coder-Next
- minimax-m.2 também chega bem perto desse nível
Estou usando o GLM 4.7 no opencode
Não é o melhor, mas por causa do limite de uso generoso dá para usar o dia inteiro
O novo modelo ainda tem acesso restrito, mas estou animado
Testei o novo modelo rapidamente no opencode e fiquei bastante impressionado
Não é uma inovação revolucionária, mas com certeza melhorou em relação ao 4.7
A memória e a estabilidade em tarefas longas melhoraram de forma perceptível

jinifor 2026-02-12

O preço da assinatura aumentou.

princox 2026-02-13

O desconto de 50% que davam no cadastro inicial acabou..

fanotify 2026-02-12

No plano Max, a promoção inicial anual era de $360, mas agora foi para $672...