GLM-5.2 assume a liderança entre os modelos open weights no Artificial Analysis

(artificialanalysis.ai)

1 pontos por GN⁺ 4 시간 전 | 1 comentários | Compartilhar no WhatsApp

O GLM-5.2 da Z ai marcou 51 pontos no Artificial Analysis Intelligence Index v4.1, assumindo a liderança entre os modelos open weights e ficando também na fronteira de Pareto em custo-benefício
O tamanho do modelo é o mesmo do GLM-5.1, com 744B de parâmetros totais / 40B de parâmetros ativos, mas a pontuação é 11 pontos maior, superando MiniMax-M3, DeepSeek V4 Pro(max) e Kimi K2.6
O avanço apareceu na maioria das avaliações, com destaque para os ganhos em raciocínio científico, especialmente em CritPt e HLE
No GDPval-AA v2, alcançou 1524 pontos, à frente de MiniMax-M3 e DeepSeek V4 Pro(max), ficando em nível semelhante ao GPT-5.5(xhigh reasoning)
Embora use 43k tokens de saída por tarefa, o que indica menor eficiência de tokens, está entre os modelos de menor custo por tarefa na mesma faixa de inteligência

Liderança open weights no Intelligence Index v4.1

O GLM-5.2 marcou 51 pontos no Artificial Analysis Intelligence Index v4.1, ficando em 1º lugar entre os modelos open weights
As pontuações dos principais modelos open weights são as seguintes
- MiniMax-M3: 44
- DeepSeek V4 Pro(max): 44
- Kimi K2.6: 43
O GLM-5.2 tem a mesma escala do GLM-5.1, com 744B de parâmetros totais / 40B de parâmetros ativos, mas sua pontuação no Intelligence Index v4.1 é 11 pontos maior

Melhoria de desempenho por avaliação

O GLM-5.2 melhorou sua pontuação na maioria das avaliações em comparação com o GLM-5.1
O avanço foi especialmente grande nas avaliações relacionadas a raciocínio científico
- CritPt: +16 pontos, 21%
- HLE: +12 pontos, 40%
- GPQA Diamond: +3 pontos, 89%
Também houve melhorias consistentes em outras avaliações
- AA-LCR: +9 pontos, 71%
- tau3 banking: +15 pontos, 27%
- SciCode: +7 pontos, 50%
- TerminalBench v2.1: +16 pontos, 78%

GDPval-AA v2 e desempenho como agente

O GLM-5.2 registrou 1524 pontos no GDPval-AA v2, um indicador de desempenho de agentes no mundo real
Entre os modelos open weights, é a maior pontuação
- GLM-5.2: 1524
- MiniMax-M3: 1418
- DeepSeek V4 Pro(max): 1328
Esse resultado é, na prática, de nível semelhante aos 1514 pontos do GPT-5.5(xhigh reasoning)
O GDPval-AA v2 mudou a forma de avaliação em relação ao GDPval-AA anterior
- A linha de base Elo foi definida como desempenho humano 1000
- Foi introduzido um painel rotativo de frontier-model judge
- O limite de turnos foi elevado de 100 para 250 para lidar com trajetórias de agentes mais longas

Custo, preço e uso de tokens

O GLM-5.2 está na fronteira de Pareto no gráfico de Intelligence vs Cost per Task e figura entre os modelos de menor custo por tarefa na mesma faixa de inteligência
O custo por tarefa é maior do que no GLM-5.1, mas, considerando a pontuação mais alta em Intelligence, sua posição em custo-benefício é favorável
- GLM-5.2: cerca de $0.46
- GLM-5.1: $0.25
- Kimi K2.6: $0.31
- MiniMax-M3: $0.18
- DeepSeek V4 Pro(max): $0.05
O preço da API first-party é o mesmo do GLM-5.1
- $1.4 por 1M de tokens de entrada
- $4.4 por 1M de tokens de saída
- $0.26 por 1M de cache hit tokens
Ele usa 43k tokens de saída por tarefa no Intelligence Index, dos quais 37k são reasoning tokens
O uso de tokens de saída é mais alto do que o dos principais modelos open weights
- GLM-5.1: 26k
- MiniMax-M3: 24k
- Kimi K2.6: 35k
- DeepSeek V4 Pro(max): 37k
Entre os modelos open weights com nível semelhante de inteligência, a eficiência de tokens é relativamente baixa, e ele não entra no quadrante mais atraente no gráfico de Intelligence vs Output Tokens

Detalhes do modelo e acessibilidade

A licença do GLM-5.2 é MIT
A janela de contexto é de 1M tokens, acima dos 200K do GLM-5.1
Pode ser usado na API first-party da Z ai e em vários provedores third-party
- DeepInfra
- Novita
- Nebius
- Parasail
- Siliconflow
- GMI Cloud
- Baseten
  - Fireworks
  - O GLM-5.2 marcou 4 pontos no AA-Omniscience Index, acima dos 2 pontos do GLM-5.1
  - A acurácia é de 25.1%, acima dos 24.2% do GLM-5.1
  - A hallucination rate é de 28.1%, abaixo dos 29.4% do GLM-5.1
  - A attempt rate é de 47%, igual à do GLM-5.1
  - A comparação entre modelos pode ser vista na página do GLM-5.2 no Artificial Analysis

1 comentários

GN⁺ 4 시간 전

Comentários no Hacker News

É um salto de nível bem significativo e parece ter chegado perto da fronteira, mas agora eu gostaria que o foco fosse mais em eficiência de raciocínio
Eu uso um teste em que peço para o modelo escrever em Nim uma biblioteca simples de avaliação de expressões matemáticas para avaliar LLMs, e o GLM 5.2 xhigh ficou raciocinando por mais de 15 minutos antes de escrever o primeiro arquivo, usando cerca de 45k tokens
Segundo https://artificialanalysis.ai/#output-tokens, o GPT 5.5 xhigh usa em média 16k tokens no total, o high usa 10k, o Fable 5 usa 33k, o Opus 4.8 usa 41k e o GLM 5.2 usa 42k, então a eficiência de raciocínio do GPT 5.5 é esmagadoramente melhor
Convertendo isso em custo real por requisição, o GLM 5.2 provavelmente sai mais barato que o GPT 5.5/Opus 4.8, mas para muita gente a velocidade também importa
- O GLM 5.2 Max parece ter o mesmo jeito de pensar do Opus 4.8 Max, e a cadeia de raciocínio e o uso de tokens de saída também são muito parecidos
  Se você quer um uso de tokens mais razoável, precisa rodar o GLM 5.2 em High; na maioria das tarefas, cair de Max para High quase não reduz a qualidade, mas corta o uso de tokens em 2 a 2,5 vezes
  No fim, o GLM 5.2 é como um irmão mais novo bem mais barato do Opus 4.8, e até surgiu a piada de que é muito difícil acreditar que o modelo Opus não entrou nem um pouco no treinamento
- Em vez de “chegou perto da fronteira”, eu diria que já ultrapassou
  Para o meu uso pessoal, a combinação GLM + OpenCode é muito melhor do que Claude Code + Opus, que sou obrigado a usar no trabalho, com muito menos erros de iniciante estilo StackOverflow e seguindo instruções bem melhor
  A experiência com o harness também é muito superior, porque não ignora configurações, não muda coisas por conta própria nem reporta errado, e parece que o fosso da Anthropic está desaparecendo rapidamente
- No Opus também existe um problema parecido de pensar por tempo demais e ficar repetindo “espera, e se...”
  No fim eu interrompo e digo “primeiro escreva o código e vá resolvendo enquanto avança”; parece que bloqueio criativo de escritor também existe em LLM
- Isso me lembra https://en.wikipedia.org/wiki/Portia_(spider)
- Espero que o trabalho recente que a Moonshot fez com o Kimi K2.7 Code se espalhe para outros laboratórios de modelos abertos
  Segundo a Artificial Analysis, o K2.7 Code tem inteligência parecida com a do K2.6, mas usa só metade dos tokens de saída para chegar ao mesmo nível
Estou usando diariamente um script que classifica modelos com base no codingindex da Artificial Analysis
Ele busca o JSON da página principal da tabela e faz parsing só dos campos de codificação que me interessam; antes também havia uma lista de e-mails, mas como não havia muito interesse, eu desliguei
Em alguns resultados atuais, Claude Fable 5, GPT-5.5 xhigh/high, Claude Opus 4.8, Gemini 3.1 Pro Preview, GLM-5.2 max e Qwen3.7 Max aparecem entre os primeiros, e dá para executar com $ curl day50.dev/art-analysis.sh | bash
O repositório é https://github.com/day50-dev/aa-eval-email e, no momento, os modelos abertos parecem estar cerca de 4 a 7 meses atrás dependendo da forma de medir; se essa tendência continuar, antes do Ano-Novo um modelo de pesos abertos pode acabar fazendo tarefas no nível do Claude Fable 5
- O índice de coding da Artificial Analysis é composto só pelos benchmarks Terminal-Bench Hard e SciCode, então eu fico em dúvida se isso é mesmo um bom índice de programação
  Ele coloca o Gemma 4 31B acima do DeepSeek V4 Flash, mas, tendo usado os dois em várias tarefas de programação, eu escolheria DeepSeek toda vez
- Projeto legal, mas pedir para as pessoas simplesmente executarem um Bash de origem desconhecida é uma prática bem ruim
Não sei por que mais gente não está falando disso
Na prática, está entregando qualidade de Opus 4.7 por um preço absurdo de tão baixo, e há lugares oferecendo tokens ilimitados por 50 dólares por mês, além de alguns cobrando uma API 3 vezes mais barata que a API oficial da ZAI
A própria API oficial da ZAI já é cerca de 10 vezes mais barata que Opus, então isso é um grande golpe para Anthropic/OpenAI/Google e uma grande vitória para o resto do mundo, e em modelos abertos não é só preço e velocidade da API oficial que importam
- Já usei alguns modelos abertos chineses e, embora sejam bons, não chegaram ao nível dos benchmarks que alegavam
  O GLM 5.2 pode até estar perto do Opus 4.7, mas se toda vez que eu conferir continuar sendo só otimização para benchmark e ainda não estiver no nível do GPT ou Opus, vou acabar reagindo no estilo “o lobo vem aí”
- É preciso ter cuidado com provedores não oficiais
  Muitas vezes configuram o modelo errado ou fazem quantização escondida, e por um tempo houve uma diferença de 20% a 40% entre o Kimi da API oficial e a maioria dos provedores terceirizados
- No OpenRouter, alguns dos produtos mais baratos são modelos quantizados, e não está claro o quanto a quantização reduz a inteligência
  Eu estava curioso sobre onde ficava essa API 3 vezes mais barata e confirmei que as tarifas de 8 bits da Croft são $0.50/$0.08/$2.20
  https://openrouter.ai/z-ai/glm-5.2
  https://ai.nahcrof.com/pricing
- Existem opções demais, e para um humano acompanhar tudo isso já é caro em termos computacionais
  Também é difícil descobrir como rodar esses modelos, não há instalador, e a menos que você esteja naquele 1% realmente interessado, vai procurar guias e descobrir que eles também já estão desatualizados
  Em comparação com “instalar Claude Code e pagar 100 dólares por mês”, a curva de aprendizado é íngreme demais, e economizar 50 dólares por mês significa pouco perto desse esforço
- Na nossa organização, todo mundo está fixado demais no Claude, como se fosse o único LLM que existe
  Puramente porque ele foi ajustado para atender pessoas não engenheiras dentro do ambiente enterprise
No benchmark de programação da Artificial Analysis, o GLM 5.1 high fica bem perto do GPT 5.5 xhigh em custo de execução, e o GPT 5.5 medium é muito mais barato
Comparado ao GPT 5.5 medium, o GLM 5.1 xhigh custa o dobro e tem só metade da inteligência, então mesmo sem o GLM 5.2 ainda há uma lacuna grande a ser preenchida
https://artificialanalysis.ai/agents/coding-agents?coding-agents-performance-chart=deep-swe&coding-agents-harness-comparison-chart=harness-deep-swe#coding-agents-performance-chart-tabs
O DeepSWE também bate bem com a minha experiência pessoal, então fico em dúvida sobre o quanto desse alvoroço na internet em torno de modelos abertos é justificado
Se você quer um modelo próximo da fronteira, hoje parece mais honesto falar de Opus, Fable e GPT5.5
- Em execução própria da Z.ai, o GLM 5.2 tirou 46,2 pontos no DeepSWE, ficando entre o Opus 4.7 xhigh e o Opus 4.8 medium
  https://z.ai/blog/glm-5.2
- Com modelos abertos, dá para ter uma assinatura com privacidade pelo mesmo custo do Codex
  As assinaturas da OpenAI, Google e Anthropic não têm essa opção de privacidade, e também é interessante ver no link que o GPT 5.5 fica em 7º no Cursor CLI, mas sobe para 3º no Codex CLI
  Como não testaram modelos abertos no Codex, é difícil cravar que seja um benchmark puro do modelo, e pode ser que modelos abertos sejam fracos no harness de agente SWE, mas isso não parece ser a explicação mais simples
- O DeepSWE parece um benchmark mais “certo” do que o índice da Artificial Analysis ou outros benchmarks de programação
  Por essa métrica, o GPT-5.5 ainda é rei em eficiência de tokens, velocidade e inteligência por dólar
  https://deepswe.datacurve.ai/
  O Fable 5 também é bom, mas ainda não vi o GPT-5.6
- Ontem usei o GLM 5.2 no OpenRouter e, no geral, achei bom, mas em uma tarefa relativamente lenta de 30 minutos o custo em tokens chegou a US$ 5
  Ele é facilmente 4 vezes mais caro que o DeepSeek V4, mas não senti que o resultado fosse tão melhor assim, e quando fui revisar depois com o GPT 5.5 no Codex ainda havia bastante coisa bagunçada
  Em custo-benefício, o MiniMax M3 foi melhor
Foi surpreendente que o GLM 5.1/5.2 não seja um modelo de visão
Hoje em dia isso é bem raro, e os modelos da OpenAI/Anthropic/Gemini todos já recebem imagens, assim como as principais famílias abertas como Gemma 4, Qwen 3.6 e Kimi 2.x também suportam entrada de imagem
O GLM tem pontuação alta em tarefas como web design, então com entrada de imagem seria útil para receber screenshots e gerar HTML+CSS, e isso claramente é uma lacuna
- Dá para configurar subagentes no harness de programação e, nessas tarefas, abrir uma nova subsessão com qualquer modelo de visão, depois passar o resultado de volta para o modelo principal
  Não é obrigatório ter “um único modelo que faz tudo”
- Estou usando o Google AI Studio como ponte de visão gratuita
  O Gemma 31B lida bem com tarefas de visão, e 1500 requisições por dia é, na prática, quase ilimitado
- Não parece uma lacuna tão grande assim
  Há usos como trabalhos de UX/UI, mas fora isso não faz tanta falta, e mesmo os modelos de fronteira não conseguem reproduzir imagens reais; pela minha experiência, só conseguem aproximações
- Tive a mesma reação com o DeepSeek V4
  Se fosse um modelo de visão, parece que seria mais útil
Usei bastante esse modelo nas últimas 24 horas e confirmei que ele é bem competente
Só que é um pouco verboso, e vi casos em que ele reavaliava 3 ou 4 vezes antes de decidir um caminho no registro de raciocínio, além de não lidar tão bem quanto o GPT5.5 com exigências complexas e abstratas
Mesmo assim, eu já me sentiria à vontade para recomendar à maioria das pessoas a combinação de assinatura Z.AI + assinatura OpenAI de US$ 20 por mês, e o fluxo em que o GLM escreve e o GPT revisa/depura fica só um pouquinho abaixo de usar só GPT num plano de US$ 200 por mês, mas parece quase ilimitado
- Descobri hoje que a intensidade de raciocínio padrão está em max
  Isso provavelmente explica por que ele é tão verboso
- O que mais considero importante agora é o quanto o modelo escreve bem
  Se você sabe programar, acho que já chegamos ao ponto em que consegue dar informações suficientes para o modelo fazer o que precisa
  Já a escrita tem nuances demais e ainda é bem difícil para eles, embora de fato estejam melhorando aos poucos
- Meu fluxo de trabalho também é assim
  Uma vez por dia, copio o código para o Claude Sonnet gratuito para deixá-lo realmente legível
- Depois de experimentar o Fable 5, até o Opus 4.8 já não parece suficiente
  O Opus 4.8 realmente é um agente de programação mais forte, que acerta onde o DeepSeek 4.0 ou o Kimi 2.7 vacilam e falham, mas o ornamento retórico no tom de conversa está ficando cada vez mais irritante, e às vezes dá a sensação de que ele fala de forma deliberadamente ambígua ou segura a verdade até você pressionar, o que me faz repensar a assinatura
O GLM 5.2 é o primeiro modelo que testamos que é claramente do mesmo nível ou melhor que o Opus 4.6
Ainda assim, no nosso caso avaliamos o GLM 5.2 e a maioria dos modelos chineses um pouco abaixo do que outros benchmarks que usam metodologias de teste frágeis
Os dados estão em https://gertlabs.com/rankings
Não sei muito bem como rodar esse tipo de modelo, mas fico curioso sobre quão perto estamos do momento em que empresas médias e grandes vão começar a comprar hardware para manter modelos localmente
É caro e não tão capaz quanto os modelos de ponta, mas as vantagens em termos de privacidade e controle são bem grandes
- Várias empresas na Europa já fazem isso há algum tempo com modelos de 70B e estão atualizando o hardware para rodar os novos modelos na faixa de 700B~1T
  Isso se intensificou de verdade na época do Kimi K2, mas comprar e hospedar esse tipo de hardware leva tempo
  Nem toda empresa quer enviar segredos comerciais para OpenAI ou Anthropic, e em alguns casos nem pode fazer isso legalmente
- Não é uma situação nova
  Na época em que surgiam bons modelos de visão como o AlexNet, especialmente em OCR, as empresas também tinham que escolher entre nuvem e hospedagem própria com GPU
  No fim, a questão é o padrão de uso: o consumo se concentra em determinados horários do expediente e, no resto do tempo, a GPU fica ociosa
  Para tarefas sensíveis à latência, esse é um trade-off de décadas, não algo específico de LLMs
- Como é um modelo de cerca de 750B, exige uma quantidade enorme de VRAM
  Parece coisa para uma empresa média realmente muito determinada
- Até agora, o principal caso de uso que exige privacidade total parece ser o trabalho jurídico
  Para vasculhar grandes volumes de texto em discovery, não é necessário um modelo de topo, mas é preciso confidencialidade total
  No r/localllama há vários advogados exibindo builds com múltiplas GPUs e, por acaso, eles também têm o orçamento necessário
- A menos que haja uma preocupação real de segurança nacional, parece melhor negociar contratos comerciais com proteção de privacidade com alguns fornecedores já existentes
Dizem que “o GLM-5.2 está na fronteira de Pareto de custo por tarefa em relação à inteligência e tem o menor custo por tarefa entre os modelos do mesmo nível de inteligência”, mas ao mesmo tempo o GLM-5.2 aparece com cerca de US$ 0,46 por tarefa, enquanto o GLM-5.1 está em US$ 0,25, o Kimi K2.6 em US$ 0,31, o MiniMax-M3 em US$ 0,18 e o DeepSeek V4 Pro max em US$ 0,05; então fico pensando se deixei passar alguma coisa
- Parece que escolheram mal os modelos de comparação
  Em vez de escolher outros modelos próximos ao 5.2 na métrica de inteligência, parece que selecionaram alguns modelos abertos de nível inferior
- Fronteira de Pareto não significa ser o mais barato
- Alguns modelos recebem bastante subsídio
  O custo de inferência é melhor medido pelo total de parâmetros e pelos parâmetros ativos
Vi o Mythos e adicionei o GLM 5.2 ao benchmark baseado em bugs; ele é melhor que o GLM 5.1, mas ainda fica atrás de vários outros modelos, e a comparação mais direta seria com o Qwen 3.7 Max
Modelos abertos menores, que também podem ser auto-hospedados, como Gemma 4 e Qwen 3.6, também encontraram o mesmo número de bugs, 3 de 9, e o GLM 5.2 acertou a localização de um bug, mas interpretou parcialmente errado o próprio bug, recebendo só pontuação parcial
O Kimi K2.7-code, adicionado na mesma rodada, teve desempenho consistentemente ruim em relação ao 2.6, e neste benchmark específico há modelos melhores e mais baratos
https://swelljoe.com/post/will-it-mythos/
Esse benchmark pequeno não prova nada, mas é útil para avaliar rapidamente se o modelo consegue raciocinar sobre problemas relativamente complexos dentro de código

GLM-5.2 assume a liderança entre os modelos open weights no Artificial Analysis

Liderança open weights no Intelligence Index v4.1

Melhoria de desempenho por avaliação

GDPval-AA v2 e desempenho como agente

Custo, preço e uso de tokens

Detalhes do modelo e acessibilidade

DeepInfra

Novita

Nebius

Parasail

Siliconflow

GMI Cloud

Baseten

Leituras relacionadas

1 comentários

Comentários no Hacker News