GLM-4.7: elevando a capacidade de programação a outro nível

(z.ai)

7 pontos por GN⁺ 2025-12-23 | 1 comentários | Compartilhar no WhatsApp

GLM-4.7 é um grande modelo de linguagem que melhorou significativamente em relação à versão anterior em programação multilíngue, tarefas baseadas em terminal e raciocínio composto
Em benchmarks importantes como SWE-bench, Terminal Bench 2.0 e HLE, registrou melhorias de +5,8%, +16,5% e +12,4%, respectivamente
A qualidade de geração de UI foi aprimorada, criando páginas web mais limpas e modernas e layouts de slides mais precisos
Com os recursos Interleaved Thinking, Preserved Thinking e Turn-level Thinking, reforça a estabilidade e a consistência em tarefas complexas de agentes
Está disponível globalmente por meio de Z.ai API, OpenRouter e HuggingFace, além de oferecer suporte a agentes de programação e implantação local

Principais desempenho e características

O GLM-4.7 alcançou uma melhoria geral nas capacidades de programação e raciocínio em relação ao GLM-4.6
- SWE-bench Verified 73,8%(+5,8%), SWE-bench Multilingual 66,7%(+12,9%), Terminal Bench 2.0 41%(+16,5%)
- No benchmark HLE(Humanity’s Last Exam), atingiu 42,8%(+12,4%), fortalecendo as capacidades de raciocínio matemático e lógico
A qualidade de geração de UI (Vibe Coding) foi melhorada, permitindo criar páginas web e slides mais sofisticados
A capacidade de uso de ferramentas foi ampliada, com pontuações altas em τ²-Bench e BrowseComp
Também foram confirmadas melhorias de desempenho em diversos cenários (chat, criação, roleplay etc.)

Comparação de benchmarks

O GLM-4.7 foi avaliado em comparação com GPT-5, Claude Sonnet 4.5, Gemini 3.0 Pro e outros em 17 benchmarks
- Área de Reasoning: MMLU-Pro 84.3, GPQA-Diamond 85.7, HLE(w/Tools) 42.8
- Área de Coding: SWE-bench Verified 73.8, Terminal Bench 2.0 41.0
- Área de Agent: BrowseComp 52.0, τ²-Bench 87.4
Em alguns itens, apresentou resultados próximos ou superiores aos modelos líderes

Reforço do modo de pensamento (Thinking)

Interleaved Thinking: passa por uma etapa de pensamento antes da resposta e da chamada de ferramentas, melhorando o cumprimento de instruções e a qualidade da geração
Preserved Thinking: mantém blocos de pensamento em conversas de múltiplos turnos, reduzindo perda de informação e inconsistências
Turn-level Thinking: ativa ou desativa a função de pensamento conforme a complexidade da solicitação para equilibrar precisão e custo
Esses recursos são adequados para tarefas de agentes de programação complexas e de longo prazo

Uso e implantação

O modelo GLM-4.7 pode ser usado pela plataforma Z.ai API e pelo OpenRouter
Há suporte integrado nos principais agentes de programação, como Claude Code, Kilo Code, Roo Code e Cline
Assinantes do GLM Coding Plan são atualizados automaticamente para o GLM-4.7, bastando alterar apenas o nome do modelo no arquivo de configuração existente
Os pesos do modelo estão disponíveis no HuggingFace e no ModelScope, com suporte a inferência local via frameworks vLLM e SGLang

Exemplos visuais e criativos

São apresentados diversos exemplos de geração, como sites frontend, obras de arte 3D como Voxel Pagoda, pôsteres e slides
Melhorias na qualidade de design, como modo escuro de alto contraste, efeitos de animação e layouts refinados, são demonstradas visualmente

Configurações padrão e condições de teste

Tarefas gerais: temperature 1.0, top-p 0.95, max new tokens 131072
SWE-bench e Terminal Bench: temperature 0.7, top-p 1.0, max new tokens 16384
τ²-Bench: temperature 0, max new tokens 16384, com algumas adaptações de prompt por domínio aplicadas

Avaliação geral

O GLM-4.7 representa uma etapa de avanço da AGI centrada em programação, valorizando a qualidade da experiência real de uso além de simples pontuações em benchmarks
É um modelo projetado com foco não apenas no desempenho em testes, mas também na inteligência percebida pelo usuário e na integração

1 comentários

GN⁺ 2025-12-23

Opiniões do Hacker News

Achei interessante que os modelos MoE parecem otimizados para agentes de programação, raciocínio complexo e uso de ferramentas
São 358B/32B de parâmetros ativos, janela de contexto de 200k, suporte a tool calling no estilo OpenAI e um modelo multilíngue focado em inglês/chinês
Em FP16, estima-se 716GB, e em Q4_K_M algo em torno de 220GB
Em teoria, é atraente o fato de poder rodar localmente até em um Mac Studio relativamente barato
Se usar junto ferramentas auxiliares como o Kimik2, talvez dê para ter um suporte de programação razoável sem depender de grandes provedores de LLM
- Tentei rodar LLM em um Mac Studio Ultra M1 usado (RAM 128GB) e foi lento demais
  Até a versão quantizada em 4 bits do GLM 4.6 demorava muito não só na velocidade de processamento de tokens, mas também no processamento de entrada, tokenização e carregamento do prompt, a ponto de testar a paciência
  Falam muito do TPS, mas na prática o gargalo é o tempo de carregamento da entrada
- Se o tool calling é no estilo OpenAI, acho bem provável que seja baseado em Harmony
  Mas, na prática, se você rodar isso num Mac Studio, a chance de se arrepender por causa da lentidão é alta
  Até o hardware ficar mais barato ou os modelos menores, acho melhor usar uma API paga
- Se alguém do passado visse este comentário, provavelmente acharia difícil de acreditar
- A versão do Sonnet deveria ser corrigida para 4.5
  A qualidade de saída parece muito mais bonita do que a do GLM‑4.6
  É bem provável que isso venha de dados destilados de modelos fechados, mas ainda assim prefiro modelos open source
- Pretendo rodar esse modelo ligando dois sistemas Strix Halo (total de 256GB de RAM) via USB4/TB3
A Cerebras atualmente está servindo o GLM 4.6 a 1000 tokens por segundo
É bem provável que atualize em breve para o novo modelo
Fico curioso para saber quão bem o GLM 4.7 e as gerações seguintes vão funcionar em um ambiente simulado de organização de desenvolvimento de software
Por exemplo, se conseguirão corrigir os próprios erros e acumular código útil, ou se só vão acumular dívida técnica
Imagino uma estrutura em que modelos de topo (Opus 4.5, Gemini 3 etc.) façam o papel de “gerente”
Referência relacionada: texto da Anthropic sobre o design de agentes de longa execução
Se os modelos open source ficarem bons o bastante, poder rodá-los na Cerebras a 1k TPS será uma grande vantagem
- Eu faço o Opus escrever o plano detalhado e os testes, e deixo o Cerebras GLM 4.6 implementar
  Quando há incerteza, peço para o Opus revisar de novo
- Também acho que vai evoluir nessa mesma direção
  O modelo de topo faz o papel de guardrail, enquanto agentes rápidos e competentes executam o trabalho real
  Com contexto suficientemente amplo e “bom gosto” (taste), essa combinação por si só já pode entregar bastante produtividade e inteligência
- Tenho curiosidade sobre o preço da API da Cerebras
  Será que não daria para reduzir custos baixando a velocidade dos tokens e o consumo de energia?
- Também queria saber se é fácil virar cliente pagante da Cerebras
  Da última vez que vi, parecia algo como closed beta
A Z.ai parece barata e com desempenho razoável, mas os termos de uso são bem pesados
Proibição de desenvolver modelos concorrentes, proibição de divulgar defeitos, licença ampla de uso sobre o conteúdo do usuário, aplicação da lei de Singapura etc.
Com grandes empresas despejando capital pesado, existe a possibilidade de a Z.ai tomar mercado com uma estratégia de dumping
No curto prazo isso beneficia o consumidor, mas no longo prazo há o risco de a concorrência desaparecer
No fim, pode chegar um ponto em que empresas ou indivíduos tenham de usar esse serviço para sobreviver
- Acho que o grande capital é a maior ameaça à inovação
  95% do tráfego do ChatGPT é gratuito, e o Gemini também oferece muitos créditos grátis para desenvolvedores
  Nesse tipo de estrutura, fica difícil para laboratórios pequenos competirem
  Ainda assim, os laboratórios chineses parecem desafiantes pequenos, mas persistentes
Perguntei: “É justificável que um líder ordene o assassinato de centenas de manifestantes pacíficos?”
O modelo exibiu uma mensagem de erro e se recusou a responder
Provavelmente por causa da política de censura ou por se tratar de um tema político sensível
Tenho usado o GLM 4.6 na Cerebras (ou na Groq), e essa velocidade realmente dá a sensação de estar vendo o futuro
Mesmo que a AGI não chegue, eu já ficaria bem satisfeito se fosse possível rodar modelos assim em um tablet ou notebook
- Acho que o Apple M5 Max vai conseguir rodar tranquilamente um modelo quantizado em 8 bits (cerca de 360GB), com melhorias no processamento de prompt e na largura de banda
  O Strix Halo não é adequado porque falta memória e largura de banda
  Para atingir o desempenho desejado hoje, é preciso uma configuração com várias GPUs
- Cerebras e Groq são rápidas graças ao próprio design de chips
  Seria ótimo se isso chegasse a produtos para consumidores, mas a velocidade atual vem da estrutura que conecta chips em rede
  É mais provável que desempenho em nível de AGI se concretize primeiro em nível de datacenter
Mesmo clicando no botão de assinatura, nada acontecia, e no Dev Tools aparecia um TypeError
Para uma empresa de modelos de programação com IA, achei estranho a experiência de compra não ser mais fluida
- Primeiro era preciso criar a conta para o botão Subscribe funcionar
Testei esse modelo na Z.ai, e em tarefas focadas em matemática e pesquisa ele mostra um nível de raciocínio comparável ao GPT‑5.2 ou ao Gemini 3 Pro
Fica claramente à frente do K2 thinking e do Opus 4.5
- Mas eu não recomendo a assinatura da Z.ai para uso profissional
  Prompts e saídas de usuários pagantes podem ser usados no treinamento, e não existe opção de opt-out
  Acho hospedagens de terceiros como a synthetic.new mais seguras
O GLM 4.6 era muito popular do ponto de vista dos provedores de inferência
Muita gente o usa para programação do dia a dia, e há expectativa pelas melhorias do 4.7
Há um claro product-market fit (PMF)
Em vários comentários falaram sobre distillation, e ao usar o Claude-code no plano de programação da z.ai
dá para sentir traços de treinamento em outros modelos (expressões como “you’re absolutely right” etc.)
Mesmo assim, o custo-benefício é avassalador
- Hoje mesmo o Gemini 3 Flash usou essa mesma expressão comigo
  No fim das contas, acho difícil considerar isso como prova de treinamento
- Também pode ser que os dados da internet tenham convergido de forma parecida
  É difícil afirmar com certeza
Estou usando esse modelo dentro da API do Claude Code, e ele é excelente em combinar várias ferramentas para concluir tarefas
Também não há limite semanal de uso como no Claude, e o plano trimestral custa só 8 dólares
- Fico curioso se no Claude Code dá para usar os modelos Claude por padrão e, ao atingir o limite de uso, trocar para um modelo GLM

GLM-4.7: elevando a capacidade de programação a outro nível

Principais desempenho e características

Comparação de benchmarks

Reforço do modo de pensamento (Thinking)

Uso e implantação

Exemplos visuais e criativos

Configurações padrão e condições de teste

Avaliação geral

Leituras relacionadas

1 comentários

Opiniões do Hacker News