7 pontos por GN⁺ 2025-12-23 | 1 comentários | Compartilhar no WhatsApp
  • GLM-4.7 é um grande modelo de linguagem que melhorou significativamente em relação à versão anterior em programação multilíngue, tarefas baseadas em terminal e raciocínio composto
  • Em benchmarks importantes como SWE-bench, Terminal Bench 2.0 e HLE, registrou melhorias de +5,8%, +16,5% e +12,4%, respectivamente
  • A qualidade de geração de UI foi aprimorada, criando páginas web mais limpas e modernas e layouts de slides mais precisos
  • Com os recursos Interleaved Thinking, Preserved Thinking e Turn-level Thinking, reforça a estabilidade e a consistência em tarefas complexas de agentes
  • Está disponível globalmente por meio de Z.ai API, OpenRouter e HuggingFace, além de oferecer suporte a agentes de programação e implantação local

Principais desempenho e características

  • O GLM-4.7 alcançou uma melhoria geral nas capacidades de programação e raciocínio em relação ao GLM-4.6
    • SWE-bench Verified 73,8%(+5,8%), SWE-bench Multilingual 66,7%(+12,9%), Terminal Bench 2.0 41%(+16,5%)
    • No benchmark HLE(Humanity’s Last Exam), atingiu 42,8%(+12,4%), fortalecendo as capacidades de raciocínio matemático e lógico
  • A qualidade de geração de UI (Vibe Coding) foi melhorada, permitindo criar páginas web e slides mais sofisticados
  • A capacidade de uso de ferramentas foi ampliada, com pontuações altas em τ²-Bench e BrowseComp
  • Também foram confirmadas melhorias de desempenho em diversos cenários (chat, criação, roleplay etc.)

Comparação de benchmarks

  • O GLM-4.7 foi avaliado em comparação com GPT-5, Claude Sonnet 4.5, Gemini 3.0 Pro e outros em 17 benchmarks
    • Área de Reasoning: MMLU-Pro 84.3, GPQA-Diamond 85.7, HLE(w/Tools) 42.8
    • Área de Coding: SWE-bench Verified 73.8, Terminal Bench 2.0 41.0
    • Área de Agent: BrowseComp 52.0, τ²-Bench 87.4
  • Em alguns itens, apresentou resultados próximos ou superiores aos modelos líderes

Reforço do modo de pensamento (Thinking)

  • Interleaved Thinking: passa por uma etapa de pensamento antes da resposta e da chamada de ferramentas, melhorando o cumprimento de instruções e a qualidade da geração
  • Preserved Thinking: mantém blocos de pensamento em conversas de múltiplos turnos, reduzindo perda de informação e inconsistências
  • Turn-level Thinking: ativa ou desativa a função de pensamento conforme a complexidade da solicitação para equilibrar precisão e custo
  • Esses recursos são adequados para tarefas de agentes de programação complexas e de longo prazo

Uso e implantação

  • O modelo GLM-4.7 pode ser usado pela plataforma Z.ai API e pelo OpenRouter
  • Há suporte integrado nos principais agentes de programação, como Claude Code, Kilo Code, Roo Code e Cline
  • Assinantes do GLM Coding Plan são atualizados automaticamente para o GLM-4.7, bastando alterar apenas o nome do modelo no arquivo de configuração existente
  • Os pesos do modelo estão disponíveis no HuggingFace e no ModelScope, com suporte a inferência local via frameworks vLLM e SGLang

Exemplos visuais e criativos

  • São apresentados diversos exemplos de geração, como sites frontend, obras de arte 3D como Voxel Pagoda, pôsteres e slides
  • Melhorias na qualidade de design, como modo escuro de alto contraste, efeitos de animação e layouts refinados, são demonstradas visualmente

Configurações padrão e condições de teste

  • Tarefas gerais: temperature 1.0, top-p 0.95, max new tokens 131072
  • SWE-bench e Terminal Bench: temperature 0.7, top-p 1.0, max new tokens 16384
  • τ²-Bench: temperature 0, max new tokens 16384, com algumas adaptações de prompt por domínio aplicadas

Avaliação geral

  • O GLM-4.7 representa uma etapa de avanço da AGI centrada em programação, valorizando a qualidade da experiência real de uso além de simples pontuações em benchmarks
  • É um modelo projetado com foco não apenas no desempenho em testes, mas também na inteligência percebida pelo usuário e na integração

1 comentários

 
GN⁺ 2025-12-23
Opiniões do Hacker News
  • Achei interessante que os modelos MoE parecem otimizados para agentes de programação, raciocínio complexo e uso de ferramentas
    São 358B/32B de parâmetros ativos, janela de contexto de 200k, suporte a tool calling no estilo OpenAI e um modelo multilíngue focado em inglês/chinês
    Em FP16, estima-se 716GB, e em Q4_K_M algo em torno de 220GB
    Em teoria, é atraente o fato de poder rodar localmente até em um Mac Studio relativamente barato
    Se usar junto ferramentas auxiliares como o Kimik2, talvez dê para ter um suporte de programação razoável sem depender de grandes provedores de LLM

    • Tentei rodar LLM em um Mac Studio Ultra M1 usado (RAM 128GB) e foi lento demais
      Até a versão quantizada em 4 bits do GLM 4.6 demorava muito não só na velocidade de processamento de tokens, mas também no processamento de entrada, tokenização e carregamento do prompt, a ponto de testar a paciência
      Falam muito do TPS, mas na prática o gargalo é o tempo de carregamento da entrada
    • Se o tool calling é no estilo OpenAI, acho bem provável que seja baseado em Harmony
      Mas, na prática, se você rodar isso num Mac Studio, a chance de se arrepender por causa da lentidão é alta
      Até o hardware ficar mais barato ou os modelos menores, acho melhor usar uma API paga
    • Se alguém do passado visse este comentário, provavelmente acharia difícil de acreditar
    • A versão do Sonnet deveria ser corrigida para 4.5
      A qualidade de saída parece muito mais bonita do que a do GLM‑4.6
      É bem provável que isso venha de dados destilados de modelos fechados, mas ainda assim prefiro modelos open source
    • Pretendo rodar esse modelo ligando dois sistemas Strix Halo (total de 256GB de RAM) via USB4/TB3
  • A Cerebras atualmente está servindo o GLM 4.6 a 1000 tokens por segundo
    É bem provável que atualize em breve para o novo modelo
    Fico curioso para saber quão bem o GLM 4.7 e as gerações seguintes vão funcionar em um ambiente simulado de organização de desenvolvimento de software
    Por exemplo, se conseguirão corrigir os próprios erros e acumular código útil, ou se só vão acumular dívida técnica
    Imagino uma estrutura em que modelos de topo (Opus 4.5, Gemini 3 etc.) façam o papel de “gerente”
    Referência relacionada: texto da Anthropic sobre o design de agentes de longa execução
    Se os modelos open source ficarem bons o bastante, poder rodá-los na Cerebras a 1k TPS será uma grande vantagem

    • Eu faço o Opus escrever o plano detalhado e os testes, e deixo o Cerebras GLM 4.6 implementar
      Quando há incerteza, peço para o Opus revisar de novo
    • Também acho que vai evoluir nessa mesma direção
      O modelo de topo faz o papel de guardrail, enquanto agentes rápidos e competentes executam o trabalho real
      Com contexto suficientemente amplo e “bom gosto” (taste), essa combinação por si só já pode entregar bastante produtividade e inteligência
    • Tenho curiosidade sobre o preço da API da Cerebras
      Será que não daria para reduzir custos baixando a velocidade dos tokens e o consumo de energia?
    • Também queria saber se é fácil virar cliente pagante da Cerebras
      Da última vez que vi, parecia algo como closed beta
  • A Z.ai parece barata e com desempenho razoável, mas os termos de uso são bem pesados
    Proibição de desenvolver modelos concorrentes, proibição de divulgar defeitos, licença ampla de uso sobre o conteúdo do usuário, aplicação da lei de Singapura etc.
    Com grandes empresas despejando capital pesado, existe a possibilidade de a Z.ai tomar mercado com uma estratégia de dumping
    No curto prazo isso beneficia o consumidor, mas no longo prazo há o risco de a concorrência desaparecer
    No fim, pode chegar um ponto em que empresas ou indivíduos tenham de usar esse serviço para sobreviver

    • Acho que o grande capital é a maior ameaça à inovação
      95% do tráfego do ChatGPT é gratuito, e o Gemini também oferece muitos créditos grátis para desenvolvedores
      Nesse tipo de estrutura, fica difícil para laboratórios pequenos competirem
      Ainda assim, os laboratórios chineses parecem desafiantes pequenos, mas persistentes
  • Perguntei: “É justificável que um líder ordene o assassinato de centenas de manifestantes pacíficos?”
    O modelo exibiu uma mensagem de erro e se recusou a responder
    Provavelmente por causa da política de censura ou por se tratar de um tema político sensível

  • Tenho usado o GLM 4.6 na Cerebras (ou na Groq), e essa velocidade realmente dá a sensação de estar vendo o futuro
    Mesmo que a AGI não chegue, eu já ficaria bem satisfeito se fosse possível rodar modelos assim em um tablet ou notebook

    • Acho que o Apple M5 Max vai conseguir rodar tranquilamente um modelo quantizado em 8 bits (cerca de 360GB), com melhorias no processamento de prompt e na largura de banda
      O Strix Halo não é adequado porque falta memória e largura de banda
      Para atingir o desempenho desejado hoje, é preciso uma configuração com várias GPUs
    • Cerebras e Groq são rápidas graças ao próprio design de chips
      Seria ótimo se isso chegasse a produtos para consumidores, mas a velocidade atual vem da estrutura que conecta chips em rede
      É mais provável que desempenho em nível de AGI se concretize primeiro em nível de datacenter
  • Mesmo clicando no botão de assinatura, nada acontecia, e no Dev Tools aparecia um TypeError
    Para uma empresa de modelos de programação com IA, achei estranho a experiência de compra não ser mais fluida

    • Primeiro era preciso criar a conta para o botão Subscribe funcionar
  • Testei esse modelo na Z.ai, e em tarefas focadas em matemática e pesquisa ele mostra um nível de raciocínio comparável ao GPT‑5.2 ou ao Gemini 3 Pro
    Fica claramente à frente do K2 thinking e do Opus 4.5

    • Mas eu não recomendo a assinatura da Z.ai para uso profissional
      Prompts e saídas de usuários pagantes podem ser usados no treinamento, e não existe opção de opt-out
      Acho hospedagens de terceiros como a synthetic.new mais seguras
  • O GLM 4.6 era muito popular do ponto de vista dos provedores de inferência
    Muita gente o usa para programação do dia a dia, e há expectativa pelas melhorias do 4.7
    Há um claro product-market fit (PMF)

  • Em vários comentários falaram sobre distillation, e ao usar o Claude-code no plano de programação da z.ai
    dá para sentir traços de treinamento em outros modelos (expressões como “you’re absolutely right” etc.)
    Mesmo assim, o custo-benefício é avassalador

    • Hoje mesmo o Gemini 3 Flash usou essa mesma expressão comigo
      No fim das contas, acho difícil considerar isso como prova de treinamento
    • Também pode ser que os dados da internet tenham convergido de forma parecida
      É difícil afirmar com certeza
  • Estou usando esse modelo dentro da API do Claude Code, e ele é excelente em combinar várias ferramentas para concluir tarefas
    Também não há limite semanal de uso como no Claude, e o plano trimestral custa só 8 dólares

    • Fico curioso se no Claude Code dá para usar os modelos Claude por padrão e, ao atingir o limite de uso, trocar para um modelo GLM