GLM-5.2 assume a liderança entre os modelos open weights no Artificial Analysis
(artificialanalysis.ai)- O GLM-5.2 da Z ai marcou 51 pontos no Artificial Analysis Intelligence Index v4.1, assumindo a liderança entre os modelos open weights e ficando também na fronteira de Pareto em custo-benefício
- O tamanho do modelo é o mesmo do GLM-5.1, com 744B de parâmetros totais / 40B de parâmetros ativos, mas a pontuação é 11 pontos maior, superando MiniMax-M3, DeepSeek V4 Pro(max) e Kimi K2.6
- O avanço apareceu na maioria das avaliações, com destaque para os ganhos em raciocínio científico, especialmente em CritPt e HLE
- No GDPval-AA v2, alcançou 1524 pontos, à frente de MiniMax-M3 e DeepSeek V4 Pro(max), ficando em nível semelhante ao GPT-5.5(xhigh reasoning)
- Embora use 43k tokens de saída por tarefa, o que indica menor eficiência de tokens, está entre os modelos de menor custo por tarefa na mesma faixa de inteligência
Liderança open weights no Intelligence Index v4.1
- O GLM-5.2 marcou 51 pontos no Artificial Analysis Intelligence Index v4.1, ficando em 1º lugar entre os modelos open weights
- As pontuações dos principais modelos open weights são as seguintes
- MiniMax-M3: 44
- DeepSeek V4 Pro(max): 44
- Kimi K2.6: 43
- O GLM-5.2 tem a mesma escala do GLM-5.1, com 744B de parâmetros totais / 40B de parâmetros ativos, mas sua pontuação no Intelligence Index v4.1 é 11 pontos maior
Melhoria de desempenho por avaliação
- O GLM-5.2 melhorou sua pontuação na maioria das avaliações em comparação com o GLM-5.1
- O avanço foi especialmente grande nas avaliações relacionadas a raciocínio científico
- CritPt: +16 pontos, 21%
- HLE: +12 pontos, 40%
- GPQA Diamond: +3 pontos, 89%
- Também houve melhorias consistentes em outras avaliações
- AA-LCR: +9 pontos, 71%
- tau3 banking: +15 pontos, 27%
- SciCode: +7 pontos, 50%
- TerminalBench v2.1: +16 pontos, 78%
GDPval-AA v2 e desempenho como agente
- O GLM-5.2 registrou 1524 pontos no GDPval-AA v2, um indicador de desempenho de agentes no mundo real
- Entre os modelos open weights, é a maior pontuação
- GLM-5.2: 1524
- MiniMax-M3: 1418
- DeepSeek V4 Pro(max): 1328
- Esse resultado é, na prática, de nível semelhante aos 1514 pontos do GPT-5.5(xhigh reasoning)
- O GDPval-AA v2 mudou a forma de avaliação em relação ao GDPval-AA anterior
- A linha de base Elo foi definida como desempenho humano 1000
- Foi introduzido um painel rotativo de frontier-model judge
- O limite de turnos foi elevado de 100 para 250 para lidar com trajetórias de agentes mais longas
Custo, preço e uso de tokens
- O GLM-5.2 está na fronteira de Pareto no gráfico de Intelligence vs Cost per Task e figura entre os modelos de menor custo por tarefa na mesma faixa de inteligência
- O custo por tarefa é maior do que no GLM-5.1, mas, considerando a pontuação mais alta em Intelligence, sua posição em custo-benefício é favorável
- GLM-5.2: cerca de $0.46
- GLM-5.1: $0.25
- Kimi K2.6: $0.31
- MiniMax-M3: $0.18
- DeepSeek V4 Pro(max): $0.05
- O preço da API first-party é o mesmo do GLM-5.1
- $1.4 por 1M de tokens de entrada
- $4.4 por 1M de tokens de saída
- $0.26 por 1M de cache hit tokens
- Ele usa 43k tokens de saída por tarefa no Intelligence Index, dos quais 37k são reasoning tokens
- O uso de tokens de saída é mais alto do que o dos principais modelos open weights
- GLM-5.1: 26k
- MiniMax-M3: 24k
- Kimi K2.6: 35k
- DeepSeek V4 Pro(max): 37k
- Entre os modelos open weights com nível semelhante de inteligência, a eficiência de tokens é relativamente baixa, e ele não entra no quadrante mais atraente no gráfico de Intelligence vs Output Tokens
Detalhes do modelo e acessibilidade
- A licença do GLM-5.2 é MIT
- A janela de contexto é de 1M tokens, acima dos 200K do GLM-5.1
- Pode ser usado na API first-party da Z ai e em vários provedores third-party
-
DeepInfra
-
Novita
-
Nebius
-
Parasail
-
Siliconflow
-
GMI Cloud
-
Baseten
- Fireworks
- O GLM-5.2 marcou 4 pontos no AA-Omniscience Index, acima dos 2 pontos do GLM-5.1
- A acurácia é de 25.1%, acima dos 24.2% do GLM-5.1
- A hallucination rate é de 28.1%, abaixo dos 29.4% do GLM-5.1
- A attempt rate é de 47%, igual à do GLM-5.1
- A comparação entre modelos pode ser vista na página do GLM-5.2 no Artificial Analysis
-
1 comentários
Comentários no Hacker News
É um salto de nível bem significativo e parece ter chegado perto da fronteira, mas agora eu gostaria que o foco fosse mais em eficiência de raciocínio
Eu uso um teste em que peço para o modelo escrever em Nim uma biblioteca simples de avaliação de expressões matemáticas para avaliar LLMs, e o GLM 5.2 xhigh ficou raciocinando por mais de 15 minutos antes de escrever o primeiro arquivo, usando cerca de 45k tokens
Segundo https://artificialanalysis.ai/#output-tokens, o GPT 5.5 xhigh usa em média 16k tokens no total, o high usa 10k, o Fable 5 usa 33k, o Opus 4.8 usa 41k e o GLM 5.2 usa 42k, então a eficiência de raciocínio do GPT 5.5 é esmagadoramente melhor
Convertendo isso em custo real por requisição, o GLM 5.2 provavelmente sai mais barato que o GPT 5.5/Opus 4.8, mas para muita gente a velocidade também importa
Se você quer um uso de tokens mais razoável, precisa rodar o GLM 5.2 em High; na maioria das tarefas, cair de Max para High quase não reduz a qualidade, mas corta o uso de tokens em 2 a 2,5 vezes
No fim, o GLM 5.2 é como um irmão mais novo bem mais barato do Opus 4.8, e até surgiu a piada de que é muito difícil acreditar que o modelo Opus não entrou nem um pouco no treinamento
Para o meu uso pessoal, a combinação GLM + OpenCode é muito melhor do que Claude Code + Opus, que sou obrigado a usar no trabalho, com muito menos erros de iniciante estilo StackOverflow e seguindo instruções bem melhor
A experiência com o harness também é muito superior, porque não ignora configurações, não muda coisas por conta própria nem reporta errado, e parece que o fosso da Anthropic está desaparecendo rapidamente
No fim eu interrompo e digo “primeiro escreva o código e vá resolvendo enquanto avança”; parece que bloqueio criativo de escritor também existe em LLM
Segundo a Artificial Analysis, o K2.7 Code tem inteligência parecida com a do K2.6, mas usa só metade dos tokens de saída para chegar ao mesmo nível
Estou usando diariamente um script que classifica modelos com base no codingindex da Artificial Analysis
Ele busca o JSON da página principal da tabela e faz parsing só dos campos de codificação que me interessam; antes também havia uma lista de e-mails, mas como não havia muito interesse, eu desliguei
Em alguns resultados atuais, Claude Fable 5, GPT-5.5 xhigh/high, Claude Opus 4.8, Gemini 3.1 Pro Preview, GLM-5.2 max e Qwen3.7 Max aparecem entre os primeiros, e dá para executar com
$ curl day50.dev/art-analysis.sh | bashO repositório é https://github.com/day50-dev/aa-eval-email e, no momento, os modelos abertos parecem estar cerca de 4 a 7 meses atrás dependendo da forma de medir; se essa tendência continuar, antes do Ano-Novo um modelo de pesos abertos pode acabar fazendo tarefas no nível do Claude Fable 5
Ele coloca o Gemma 4 31B acima do DeepSeek V4 Flash, mas, tendo usado os dois em várias tarefas de programação, eu escolheria DeepSeek toda vez
Não sei por que mais gente não está falando disso
Na prática, está entregando qualidade de Opus 4.7 por um preço absurdo de tão baixo, e há lugares oferecendo tokens ilimitados por 50 dólares por mês, além de alguns cobrando uma API 3 vezes mais barata que a API oficial da ZAI
A própria API oficial da ZAI já é cerca de 10 vezes mais barata que Opus, então isso é um grande golpe para Anthropic/OpenAI/Google e uma grande vitória para o resto do mundo, e em modelos abertos não é só preço e velocidade da API oficial que importam
O GLM 5.2 pode até estar perto do Opus 4.7, mas se toda vez que eu conferir continuar sendo só otimização para benchmark e ainda não estiver no nível do GPT ou Opus, vou acabar reagindo no estilo “o lobo vem aí”
Muitas vezes configuram o modelo errado ou fazem quantização escondida, e por um tempo houve uma diferença de 20% a 40% entre o Kimi da API oficial e a maioria dos provedores terceirizados
Eu estava curioso sobre onde ficava essa API 3 vezes mais barata e confirmei que as tarifas de 8 bits da Croft são $0.50/$0.08/$2.20
https://openrouter.ai/z-ai/glm-5.2
https://ai.nahcrof.com/pricing
Também é difícil descobrir como rodar esses modelos, não há instalador, e a menos que você esteja naquele 1% realmente interessado, vai procurar guias e descobrir que eles também já estão desatualizados
Em comparação com “instalar Claude Code e pagar 100 dólares por mês”, a curva de aprendizado é íngreme demais, e economizar 50 dólares por mês significa pouco perto desse esforço
Puramente porque ele foi ajustado para atender pessoas não engenheiras dentro do ambiente enterprise
No benchmark de programação da Artificial Analysis, o GLM 5.1 high fica bem perto do GPT 5.5 xhigh em custo de execução, e o GPT 5.5 medium é muito mais barato
Comparado ao GPT 5.5 medium, o GLM 5.1 xhigh custa o dobro e tem só metade da inteligência, então mesmo sem o GLM 5.2 ainda há uma lacuna grande a ser preenchida
https://artificialanalysis.ai/agents/coding-agents?coding-agents-performance-chart=deep-swe&coding-agents-harness-comparison-chart=harness-deep-swe#coding-agents-performance-chart-tabs
O DeepSWE também bate bem com a minha experiência pessoal, então fico em dúvida sobre o quanto desse alvoroço na internet em torno de modelos abertos é justificado
Se você quer um modelo próximo da fronteira, hoje parece mais honesto falar de Opus, Fable e GPT5.5
https://z.ai/blog/glm-5.2
As assinaturas da OpenAI, Google e Anthropic não têm essa opção de privacidade, e também é interessante ver no link que o GPT 5.5 fica em 7º no Cursor CLI, mas sobe para 3º no Codex CLI
Como não testaram modelos abertos no Codex, é difícil cravar que seja um benchmark puro do modelo, e pode ser que modelos abertos sejam fracos no harness de agente SWE, mas isso não parece ser a explicação mais simples
Por essa métrica, o GPT-5.5 ainda é rei em eficiência de tokens, velocidade e inteligência por dólar
https://deepswe.datacurve.ai/
O Fable 5 também é bom, mas ainda não vi o GPT-5.6
Ele é facilmente 4 vezes mais caro que o DeepSeek V4, mas não senti que o resultado fosse tão melhor assim, e quando fui revisar depois com o GPT 5.5 no Codex ainda havia bastante coisa bagunçada
Em custo-benefício, o MiniMax M3 foi melhor
Foi surpreendente que o GLM 5.1/5.2 não seja um modelo de visão
Hoje em dia isso é bem raro, e os modelos da OpenAI/Anthropic/Gemini todos já recebem imagens, assim como as principais famílias abertas como Gemma 4, Qwen 3.6 e Kimi 2.x também suportam entrada de imagem
O GLM tem pontuação alta em tarefas como web design, então com entrada de imagem seria útil para receber screenshots e gerar HTML+CSS, e isso claramente é uma lacuna
Não é obrigatório ter “um único modelo que faz tudo”
O Gemma 31B lida bem com tarefas de visão, e 1500 requisições por dia é, na prática, quase ilimitado
Há usos como trabalhos de UX/UI, mas fora isso não faz tanta falta, e mesmo os modelos de fronteira não conseguem reproduzir imagens reais; pela minha experiência, só conseguem aproximações
Se fosse um modelo de visão, parece que seria mais útil
Usei bastante esse modelo nas últimas 24 horas e confirmei que ele é bem competente
Só que é um pouco verboso, e vi casos em que ele reavaliava 3 ou 4 vezes antes de decidir um caminho no registro de raciocínio, além de não lidar tão bem quanto o GPT5.5 com exigências complexas e abstratas
Mesmo assim, eu já me sentiria à vontade para recomendar à maioria das pessoas a combinação de assinatura Z.AI + assinatura OpenAI de US$ 20 por mês, e o fluxo em que o GLM escreve e o GPT revisa/depura fica só um pouquinho abaixo de usar só GPT num plano de US$ 200 por mês, mas parece quase ilimitado
Isso provavelmente explica por que ele é tão verboso
Se você sabe programar, acho que já chegamos ao ponto em que consegue dar informações suficientes para o modelo fazer o que precisa
Já a escrita tem nuances demais e ainda é bem difícil para eles, embora de fato estejam melhorando aos poucos
Uma vez por dia, copio o código para o Claude Sonnet gratuito para deixá-lo realmente legível
O Opus 4.8 realmente é um agente de programação mais forte, que acerta onde o DeepSeek 4.0 ou o Kimi 2.7 vacilam e falham, mas o ornamento retórico no tom de conversa está ficando cada vez mais irritante, e às vezes dá a sensação de que ele fala de forma deliberadamente ambígua ou segura a verdade até você pressionar, o que me faz repensar a assinatura
O GLM 5.2 é o primeiro modelo que testamos que é claramente do mesmo nível ou melhor que o Opus 4.6
Ainda assim, no nosso caso avaliamos o GLM 5.2 e a maioria dos modelos chineses um pouco abaixo do que outros benchmarks que usam metodologias de teste frágeis
Os dados estão em https://gertlabs.com/rankings
Não sei muito bem como rodar esse tipo de modelo, mas fico curioso sobre quão perto estamos do momento em que empresas médias e grandes vão começar a comprar hardware para manter modelos localmente
É caro e não tão capaz quanto os modelos de ponta, mas as vantagens em termos de privacidade e controle são bem grandes
Isso se intensificou de verdade na época do Kimi K2, mas comprar e hospedar esse tipo de hardware leva tempo
Nem toda empresa quer enviar segredos comerciais para OpenAI ou Anthropic, e em alguns casos nem pode fazer isso legalmente
Na época em que surgiam bons modelos de visão como o AlexNet, especialmente em OCR, as empresas também tinham que escolher entre nuvem e hospedagem própria com GPU
No fim, a questão é o padrão de uso: o consumo se concentra em determinados horários do expediente e, no resto do tempo, a GPU fica ociosa
Para tarefas sensíveis à latência, esse é um trade-off de décadas, não algo específico de LLMs
Parece coisa para uma empresa média realmente muito determinada
Para vasculhar grandes volumes de texto em discovery, não é necessário um modelo de topo, mas é preciso confidencialidade total
No r/localllama há vários advogados exibindo builds com múltiplas GPUs e, por acaso, eles também têm o orçamento necessário
Dizem que “o GLM-5.2 está na fronteira de Pareto de custo por tarefa em relação à inteligência e tem o menor custo por tarefa entre os modelos do mesmo nível de inteligência”, mas ao mesmo tempo o GLM-5.2 aparece com cerca de US$ 0,46 por tarefa, enquanto o GLM-5.1 está em US$ 0,25, o Kimi K2.6 em US$ 0,31, o MiniMax-M3 em US$ 0,18 e o DeepSeek V4 Pro max em US$ 0,05; então fico pensando se deixei passar alguma coisa
Em vez de escolher outros modelos próximos ao 5.2 na métrica de inteligência, parece que selecionaram alguns modelos abertos de nível inferior
O custo de inferência é melhor medido pelo total de parâmetros e pelos parâmetros ativos
Vi o Mythos e adicionei o GLM 5.2 ao benchmark baseado em bugs; ele é melhor que o GLM 5.1, mas ainda fica atrás de vários outros modelos, e a comparação mais direta seria com o Qwen 3.7 Max
Modelos abertos menores, que também podem ser auto-hospedados, como Gemma 4 e Qwen 3.6, também encontraram o mesmo número de bugs, 3 de 9, e o GLM 5.2 acertou a localização de um bug, mas interpretou parcialmente errado o próprio bug, recebendo só pontuação parcial
O Kimi K2.7-code, adicionado na mesma rodada, teve desempenho consistentemente ruim em relação ao 2.6, e neste benchmark específico há modelos melhores e mais baratos
https://swelljoe.com/post/will-it-mythos/
Esse benchmark pequeno não prova nada, mas é útil para avaliar rapidamente se o modelo consegue raciocinar sobre problemas relativamente complexos dentro de código