- GLM-4.7 é um grande modelo de linguagem que melhorou significativamente em relação à versão anterior em programação multilíngue, tarefas baseadas em terminal e raciocínio composto
- Em benchmarks importantes como SWE-bench, Terminal Bench 2.0 e HLE, registrou melhorias de +5,8%, +16,5% e +12,4%, respectivamente
- A qualidade de geração de UI foi aprimorada, criando páginas web mais limpas e modernas e layouts de slides mais precisos
- Com os recursos Interleaved Thinking, Preserved Thinking e Turn-level Thinking, reforça a estabilidade e a consistência em tarefas complexas de agentes
- Está disponível globalmente por meio de Z.ai API, OpenRouter e HuggingFace, além de oferecer suporte a agentes de programação e implantação local
Principais desempenho e características
- O GLM-4.7 alcançou uma melhoria geral nas capacidades de programação e raciocínio em relação ao GLM-4.6
- SWE-bench Verified 73,8%(+5,8%), SWE-bench Multilingual 66,7%(+12,9%), Terminal Bench 2.0 41%(+16,5%)
- No benchmark HLE(Humanity’s Last Exam), atingiu 42,8%(+12,4%), fortalecendo as capacidades de raciocínio matemático e lógico
- A qualidade de geração de UI (Vibe Coding) foi melhorada, permitindo criar páginas web e slides mais sofisticados
- A capacidade de uso de ferramentas foi ampliada, com pontuações altas em τ²-Bench e BrowseComp
- Também foram confirmadas melhorias de desempenho em diversos cenários (chat, criação, roleplay etc.)
Comparação de benchmarks
- O GLM-4.7 foi avaliado em comparação com GPT-5, Claude Sonnet 4.5, Gemini 3.0 Pro e outros em 17 benchmarks
- Área de Reasoning: MMLU-Pro 84.3, GPQA-Diamond 85.7, HLE(w/Tools) 42.8
- Área de Coding: SWE-bench Verified 73.8, Terminal Bench 2.0 41.0
- Área de Agent: BrowseComp 52.0, τ²-Bench 87.4
- Em alguns itens, apresentou resultados próximos ou superiores aos modelos líderes
Reforço do modo de pensamento (Thinking)
- Interleaved Thinking: passa por uma etapa de pensamento antes da resposta e da chamada de ferramentas, melhorando o cumprimento de instruções e a qualidade da geração
- Preserved Thinking: mantém blocos de pensamento em conversas de múltiplos turnos, reduzindo perda de informação e inconsistências
- Turn-level Thinking: ativa ou desativa a função de pensamento conforme a complexidade da solicitação para equilibrar precisão e custo
- Esses recursos são adequados para tarefas de agentes de programação complexas e de longo prazo
Uso e implantação
- O modelo GLM-4.7 pode ser usado pela plataforma Z.ai API e pelo OpenRouter
- Há suporte integrado nos principais agentes de programação, como Claude Code, Kilo Code, Roo Code e Cline
- Assinantes do GLM Coding Plan são atualizados automaticamente para o GLM-4.7, bastando alterar apenas o nome do modelo no arquivo de configuração existente
- Os pesos do modelo estão disponíveis no HuggingFace e no ModelScope, com suporte a inferência local via frameworks vLLM e SGLang
Exemplos visuais e criativos
- São apresentados diversos exemplos de geração, como sites frontend, obras de arte 3D como Voxel Pagoda, pôsteres e slides
- Melhorias na qualidade de design, como modo escuro de alto contraste, efeitos de animação e layouts refinados, são demonstradas visualmente
Configurações padrão e condições de teste
- Tarefas gerais: temperature 1.0, top-p 0.95, max new tokens 131072
- SWE-bench e Terminal Bench: temperature 0.7, top-p 1.0, max new tokens 16384
- τ²-Bench: temperature 0, max new tokens 16384, com algumas adaptações de prompt por domínio aplicadas
Avaliação geral
- O GLM-4.7 representa uma etapa de avanço da AGI centrada em programação, valorizando a qualidade da experiência real de uso além de simples pontuações em benchmarks
- É um modelo projetado com foco não apenas no desempenho em testes, mas também na inteligência percebida pelo usuário e na integração
1 comentários
Opiniões do Hacker News
Achei interessante que os modelos MoE parecem otimizados para agentes de programação, raciocínio complexo e uso de ferramentas
São 358B/32B de parâmetros ativos, janela de contexto de 200k, suporte a tool calling no estilo OpenAI e um modelo multilíngue focado em inglês/chinês
Em FP16, estima-se 716GB, e em Q4_K_M algo em torno de 220GB
Em teoria, é atraente o fato de poder rodar localmente até em um Mac Studio relativamente barato
Se usar junto ferramentas auxiliares como o Kimik2, talvez dê para ter um suporte de programação razoável sem depender de grandes provedores de LLM
Até a versão quantizada em 4 bits do GLM 4.6 demorava muito não só na velocidade de processamento de tokens, mas também no processamento de entrada, tokenização e carregamento do prompt, a ponto de testar a paciência
Falam muito do TPS, mas na prática o gargalo é o tempo de carregamento da entrada
Mas, na prática, se você rodar isso num Mac Studio, a chance de se arrepender por causa da lentidão é alta
Até o hardware ficar mais barato ou os modelos menores, acho melhor usar uma API paga
A qualidade de saída parece muito mais bonita do que a do GLM‑4.6
É bem provável que isso venha de dados destilados de modelos fechados, mas ainda assim prefiro modelos open source
A Cerebras atualmente está servindo o GLM 4.6 a 1000 tokens por segundo
É bem provável que atualize em breve para o novo modelo
Fico curioso para saber quão bem o GLM 4.7 e as gerações seguintes vão funcionar em um ambiente simulado de organização de desenvolvimento de software
Por exemplo, se conseguirão corrigir os próprios erros e acumular código útil, ou se só vão acumular dívida técnica
Imagino uma estrutura em que modelos de topo (Opus 4.5, Gemini 3 etc.) façam o papel de “gerente”
Referência relacionada: texto da Anthropic sobre o design de agentes de longa execução
Se os modelos open source ficarem bons o bastante, poder rodá-los na Cerebras a 1k TPS será uma grande vantagem
Quando há incerteza, peço para o Opus revisar de novo
O modelo de topo faz o papel de guardrail, enquanto agentes rápidos e competentes executam o trabalho real
Com contexto suficientemente amplo e “bom gosto” (
taste), essa combinação por si só já pode entregar bastante produtividade e inteligênciaSerá que não daria para reduzir custos baixando a velocidade dos tokens e o consumo de energia?
Da última vez que vi, parecia algo como closed beta
A Z.ai parece barata e com desempenho razoável, mas os termos de uso são bem pesados
Proibição de desenvolver modelos concorrentes, proibição de divulgar defeitos, licença ampla de uso sobre o conteúdo do usuário, aplicação da lei de Singapura etc.
Com grandes empresas despejando capital pesado, existe a possibilidade de a Z.ai tomar mercado com uma estratégia de dumping
No curto prazo isso beneficia o consumidor, mas no longo prazo há o risco de a concorrência desaparecer
No fim, pode chegar um ponto em que empresas ou indivíduos tenham de usar esse serviço para sobreviver
95% do tráfego do ChatGPT é gratuito, e o Gemini também oferece muitos créditos grátis para desenvolvedores
Nesse tipo de estrutura, fica difícil para laboratórios pequenos competirem
Ainda assim, os laboratórios chineses parecem desafiantes pequenos, mas persistentes
Perguntei: “É justificável que um líder ordene o assassinato de centenas de manifestantes pacíficos?”
O modelo exibiu uma mensagem de erro e se recusou a responder
Provavelmente por causa da política de censura ou por se tratar de um tema político sensível
Tenho usado o GLM 4.6 na Cerebras (ou na Groq), e essa velocidade realmente dá a sensação de estar vendo o futuro
Mesmo que a AGI não chegue, eu já ficaria bem satisfeito se fosse possível rodar modelos assim em um tablet ou notebook
O Strix Halo não é adequado porque falta memória e largura de banda
Para atingir o desempenho desejado hoje, é preciso uma configuração com várias GPUs
Seria ótimo se isso chegasse a produtos para consumidores, mas a velocidade atual vem da estrutura que conecta chips em rede
É mais provável que desempenho em nível de AGI se concretize primeiro em nível de datacenter
Mesmo clicando no botão de assinatura, nada acontecia, e no Dev Tools aparecia um TypeError
Para uma empresa de modelos de programação com IA, achei estranho a experiência de compra não ser mais fluida
Testei esse modelo na Z.ai, e em tarefas focadas em matemática e pesquisa ele mostra um nível de raciocínio comparável ao GPT‑5.2 ou ao Gemini 3 Pro
Fica claramente à frente do K2 thinking e do Opus 4.5
Prompts e saídas de usuários pagantes podem ser usados no treinamento, e não existe opção de opt-out
Acho hospedagens de terceiros como a synthetic.new mais seguras
O GLM 4.6 era muito popular do ponto de vista dos provedores de inferência
Muita gente o usa para programação do dia a dia, e há expectativa pelas melhorias do 4.7
Há um claro product-market fit (PMF)
Em vários comentários falaram sobre distillation, e ao usar o Claude-code no plano de programação da z.ai
dá para sentir traços de treinamento em outros modelos (expressões como “you’re absolutely right” etc.)
Mesmo assim, o custo-benefício é avassalador
No fim das contas, acho difícil considerar isso como prova de treinamento
É difícil afirmar com certeza
Estou usando esse modelo dentro da API do Claude Code, e ele é excelente em combinar várias ferramentas para concluir tarefas
Também não há limite semanal de uso como no Claude, e o plano trimestral custa só 8 dólares