1 pontos por GN⁺ 4 시간 전 | 1 comentários | Compartilhar no WhatsApp
  • O GLM-5.2 da Z ai marcou 51 pontos no Artificial Analysis Intelligence Index v4.1, assumindo a liderança entre os modelos open weights e ficando também na fronteira de Pareto em custo-benefício
  • O tamanho do modelo é o mesmo do GLM-5.1, com 744B de parâmetros totais / 40B de parâmetros ativos, mas a pontuação é 11 pontos maior, superando MiniMax-M3, DeepSeek V4 Pro(max) e Kimi K2.6
  • O avanço apareceu na maioria das avaliações, com destaque para os ganhos em raciocínio científico, especialmente em CritPt e HLE
  • No GDPval-AA v2, alcançou 1524 pontos, à frente de MiniMax-M3 e DeepSeek V4 Pro(max), ficando em nível semelhante ao GPT-5.5(xhigh reasoning)
  • Embora use 43k tokens de saída por tarefa, o que indica menor eficiência de tokens, está entre os modelos de menor custo por tarefa na mesma faixa de inteligência

Liderança open weights no Intelligence Index v4.1

  • O GLM-5.2 marcou 51 pontos no Artificial Analysis Intelligence Index v4.1, ficando em 1º lugar entre os modelos open weights
  • As pontuações dos principais modelos open weights são as seguintes
    • MiniMax-M3: 44
    • DeepSeek V4 Pro(max): 44
    • Kimi K2.6: 43
  • O GLM-5.2 tem a mesma escala do GLM-5.1, com 744B de parâmetros totais / 40B de parâmetros ativos, mas sua pontuação no Intelligence Index v4.1 é 11 pontos maior

Melhoria de desempenho por avaliação

  • O GLM-5.2 melhorou sua pontuação na maioria das avaliações em comparação com o GLM-5.1
  • O avanço foi especialmente grande nas avaliações relacionadas a raciocínio científico
    • CritPt: +16 pontos, 21%
    • HLE: +12 pontos, 40%
    • GPQA Diamond: +3 pontos, 89%
  • Também houve melhorias consistentes em outras avaliações
    • AA-LCR: +9 pontos, 71%
    • tau3 banking: +15 pontos, 27%
    • SciCode: +7 pontos, 50%
    • TerminalBench v2.1: +16 pontos, 78%

GDPval-AA v2 e desempenho como agente

  • O GLM-5.2 registrou 1524 pontos no GDPval-AA v2, um indicador de desempenho de agentes no mundo real
  • Entre os modelos open weights, é a maior pontuação
    • GLM-5.2: 1524
    • MiniMax-M3: 1418
    • DeepSeek V4 Pro(max): 1328
  • Esse resultado é, na prática, de nível semelhante aos 1514 pontos do GPT-5.5(xhigh reasoning)
  • O GDPval-AA v2 mudou a forma de avaliação em relação ao GDPval-AA anterior
    • A linha de base Elo foi definida como desempenho humano 1000
    • Foi introduzido um painel rotativo de frontier-model judge
    • O limite de turnos foi elevado de 100 para 250 para lidar com trajetórias de agentes mais longas

Custo, preço e uso de tokens

  • O GLM-5.2 está na fronteira de Pareto no gráfico de Intelligence vs Cost per Task e figura entre os modelos de menor custo por tarefa na mesma faixa de inteligência
  • O custo por tarefa é maior do que no GLM-5.1, mas, considerando a pontuação mais alta em Intelligence, sua posição em custo-benefício é favorável
    • GLM-5.2: cerca de $0.46
    • GLM-5.1: $0.25
    • Kimi K2.6: $0.31
    • MiniMax-M3: $0.18
    • DeepSeek V4 Pro(max): $0.05
  • O preço da API first-party é o mesmo do GLM-5.1
    • $1.4 por 1M de tokens de entrada
    • $4.4 por 1M de tokens de saída
    • $0.26 por 1M de cache hit tokens
  • Ele usa 43k tokens de saída por tarefa no Intelligence Index, dos quais 37k são reasoning tokens
  • O uso de tokens de saída é mais alto do que o dos principais modelos open weights
    • GLM-5.1: 26k
    • MiniMax-M3: 24k
    • Kimi K2.6: 35k
    • DeepSeek V4 Pro(max): 37k
  • Entre os modelos open weights com nível semelhante de inteligência, a eficiência de tokens é relativamente baixa, e ele não entra no quadrante mais atraente no gráfico de Intelligence vs Output Tokens

Detalhes do modelo e acessibilidade

  • A licença do GLM-5.2 é MIT
  • A janela de contexto é de 1M tokens, acima dos 200K do GLM-5.1
  • Pode ser usado na API first-party da Z ai e em vários provedores third-party
    • DeepInfra

    • Novita

    • Nebius

    • Parasail

    • Siliconflow

    • GMI Cloud

    • Baseten

      • Fireworks
      • O GLM-5.2 marcou 4 pontos no AA-Omniscience Index, acima dos 2 pontos do GLM-5.1
      • A acurácia é de 25.1%, acima dos 24.2% do GLM-5.1
      • A hallucination rate é de 28.1%, abaixo dos 29.4% do GLM-5.1
      • A attempt rate é de 47%, igual à do GLM-5.1
      • A comparação entre modelos pode ser vista na página do GLM-5.2 no Artificial Analysis

1 comentários

 
GN⁺ 4 시간 전
Comentários no Hacker News
  • É um salto de nível bem significativo e parece ter chegado perto da fronteira, mas agora eu gostaria que o foco fosse mais em eficiência de raciocínio
    Eu uso um teste em que peço para o modelo escrever em Nim uma biblioteca simples de avaliação de expressões matemáticas para avaliar LLMs, e o GLM 5.2 xhigh ficou raciocinando por mais de 15 minutos antes de escrever o primeiro arquivo, usando cerca de 45k tokens
    Segundo https://artificialanalysis.ai/#output-tokens, o GPT 5.5 xhigh usa em média 16k tokens no total, o high usa 10k, o Fable 5 usa 33k, o Opus 4.8 usa 41k e o GLM 5.2 usa 42k, então a eficiência de raciocínio do GPT 5.5 é esmagadoramente melhor
    Convertendo isso em custo real por requisição, o GLM 5.2 provavelmente sai mais barato que o GPT 5.5/Opus 4.8, mas para muita gente a velocidade também importa

    • O GLM 5.2 Max parece ter o mesmo jeito de pensar do Opus 4.8 Max, e a cadeia de raciocínio e o uso de tokens de saída também são muito parecidos
      Se você quer um uso de tokens mais razoável, precisa rodar o GLM 5.2 em High; na maioria das tarefas, cair de Max para High quase não reduz a qualidade, mas corta o uso de tokens em 2 a 2,5 vezes
      No fim, o GLM 5.2 é como um irmão mais novo bem mais barato do Opus 4.8, e até surgiu a piada de que é muito difícil acreditar que o modelo Opus não entrou nem um pouco no treinamento
    • Em vez de “chegou perto da fronteira”, eu diria que já ultrapassou
      Para o meu uso pessoal, a combinação GLM + OpenCode é muito melhor do que Claude Code + Opus, que sou obrigado a usar no trabalho, com muito menos erros de iniciante estilo StackOverflow e seguindo instruções bem melhor
      A experiência com o harness também é muito superior, porque não ignora configurações, não muda coisas por conta própria nem reporta errado, e parece que o fosso da Anthropic está desaparecendo rapidamente
    • No Opus também existe um problema parecido de pensar por tempo demais e ficar repetindo “espera, e se...”
      No fim eu interrompo e digo “primeiro escreva o código e vá resolvendo enquanto avança”; parece que bloqueio criativo de escritor também existe em LLM
    • Isso me lembra https://en.wikipedia.org/wiki/Portia_(spider)
    • Espero que o trabalho recente que a Moonshot fez com o Kimi K2.7 Code se espalhe para outros laboratórios de modelos abertos
      Segundo a Artificial Analysis, o K2.7 Code tem inteligência parecida com a do K2.6, mas usa só metade dos tokens de saída para chegar ao mesmo nível
  • Estou usando diariamente um script que classifica modelos com base no codingindex da Artificial Analysis
    Ele busca o JSON da página principal da tabela e faz parsing só dos campos de codificação que me interessam; antes também havia uma lista de e-mails, mas como não havia muito interesse, eu desliguei
    Em alguns resultados atuais, Claude Fable 5, GPT-5.5 xhigh/high, Claude Opus 4.8, Gemini 3.1 Pro Preview, GLM-5.2 max e Qwen3.7 Max aparecem entre os primeiros, e dá para executar com $ curl day50.dev/art-analysis.sh | bash
    O repositório é https://github.com/day50-dev/aa-eval-email e, no momento, os modelos abertos parecem estar cerca de 4 a 7 meses atrás dependendo da forma de medir; se essa tendência continuar, antes do Ano-Novo um modelo de pesos abertos pode acabar fazendo tarefas no nível do Claude Fable 5

    • O índice de coding da Artificial Analysis é composto só pelos benchmarks Terminal-Bench Hard e SciCode, então eu fico em dúvida se isso é mesmo um bom índice de programação
      Ele coloca o Gemma 4 31B acima do DeepSeek V4 Flash, mas, tendo usado os dois em várias tarefas de programação, eu escolheria DeepSeek toda vez
    • Projeto legal, mas pedir para as pessoas simplesmente executarem um Bash de origem desconhecida é uma prática bem ruim
  • Não sei por que mais gente não está falando disso
    Na prática, está entregando qualidade de Opus 4.7 por um preço absurdo de tão baixo, e há lugares oferecendo tokens ilimitados por 50 dólares por mês, além de alguns cobrando uma API 3 vezes mais barata que a API oficial da ZAI
    A própria API oficial da ZAI já é cerca de 10 vezes mais barata que Opus, então isso é um grande golpe para Anthropic/OpenAI/Google e uma grande vitória para o resto do mundo, e em modelos abertos não é só preço e velocidade da API oficial que importam

    • Já usei alguns modelos abertos chineses e, embora sejam bons, não chegaram ao nível dos benchmarks que alegavam
      O GLM 5.2 pode até estar perto do Opus 4.7, mas se toda vez que eu conferir continuar sendo só otimização para benchmark e ainda não estiver no nível do GPT ou Opus, vou acabar reagindo no estilo “o lobo vem aí”
    • É preciso ter cuidado com provedores não oficiais
      Muitas vezes configuram o modelo errado ou fazem quantização escondida, e por um tempo houve uma diferença de 20% a 40% entre o Kimi da API oficial e a maioria dos provedores terceirizados
    • No OpenRouter, alguns dos produtos mais baratos são modelos quantizados, e não está claro o quanto a quantização reduz a inteligência
      Eu estava curioso sobre onde ficava essa API 3 vezes mais barata e confirmei que as tarifas de 8 bits da Croft são $0.50/$0.08/$2.20
      https://openrouter.ai/z-ai/glm-5.2
      https://ai.nahcrof.com/pricing
    • Existem opções demais, e para um humano acompanhar tudo isso já é caro em termos computacionais
      Também é difícil descobrir como rodar esses modelos, não há instalador, e a menos que você esteja naquele 1% realmente interessado, vai procurar guias e descobrir que eles também já estão desatualizados
      Em comparação com “instalar Claude Code e pagar 100 dólares por mês”, a curva de aprendizado é íngreme demais, e economizar 50 dólares por mês significa pouco perto desse esforço
    • Na nossa organização, todo mundo está fixado demais no Claude, como se fosse o único LLM que existe
      Puramente porque ele foi ajustado para atender pessoas não engenheiras dentro do ambiente enterprise
  • No benchmark de programação da Artificial Analysis, o GLM 5.1 high fica bem perto do GPT 5.5 xhigh em custo de execução, e o GPT 5.5 medium é muito mais barato
    Comparado ao GPT 5.5 medium, o GLM 5.1 xhigh custa o dobro e tem só metade da inteligência, então mesmo sem o GLM 5.2 ainda há uma lacuna grande a ser preenchida
    https://artificialanalysis.ai/agents/coding-agents?coding-agents-performance-chart=deep-swe&coding-agents-harness-comparison-chart=harness-deep-swe#coding-agents-performance-chart-tabs
    O DeepSWE também bate bem com a minha experiência pessoal, então fico em dúvida sobre o quanto desse alvoroço na internet em torno de modelos abertos é justificado
    Se você quer um modelo próximo da fronteira, hoje parece mais honesto falar de Opus, Fable e GPT5.5

    • Em execução própria da Z.ai, o GLM 5.2 tirou 46,2 pontos no DeepSWE, ficando entre o Opus 4.7 xhigh e o Opus 4.8 medium
      https://z.ai/blog/glm-5.2
    • Com modelos abertos, dá para ter uma assinatura com privacidade pelo mesmo custo do Codex
      As assinaturas da OpenAI, Google e Anthropic não têm essa opção de privacidade, e também é interessante ver no link que o GPT 5.5 fica em 7º no Cursor CLI, mas sobe para 3º no Codex CLI
      Como não testaram modelos abertos no Codex, é difícil cravar que seja um benchmark puro do modelo, e pode ser que modelos abertos sejam fracos no harness de agente SWE, mas isso não parece ser a explicação mais simples
    • O DeepSWE parece um benchmark mais “certo” do que o índice da Artificial Analysis ou outros benchmarks de programação
      Por essa métrica, o GPT-5.5 ainda é rei em eficiência de tokens, velocidade e inteligência por dólar
      https://deepswe.datacurve.ai/
      O Fable 5 também é bom, mas ainda não vi o GPT-5.6
    • Ontem usei o GLM 5.2 no OpenRouter e, no geral, achei bom, mas em uma tarefa relativamente lenta de 30 minutos o custo em tokens chegou a US$ 5
      Ele é facilmente 4 vezes mais caro que o DeepSeek V4, mas não senti que o resultado fosse tão melhor assim, e quando fui revisar depois com o GPT 5.5 no Codex ainda havia bastante coisa bagunçada
      Em custo-benefício, o MiniMax M3 foi melhor
  • Foi surpreendente que o GLM 5.1/5.2 não seja um modelo de visão
    Hoje em dia isso é bem raro, e os modelos da OpenAI/Anthropic/Gemini todos já recebem imagens, assim como as principais famílias abertas como Gemma 4, Qwen 3.6 e Kimi 2.x também suportam entrada de imagem
    O GLM tem pontuação alta em tarefas como web design, então com entrada de imagem seria útil para receber screenshots e gerar HTML+CSS, e isso claramente é uma lacuna

    • Dá para configurar subagentes no harness de programação e, nessas tarefas, abrir uma nova subsessão com qualquer modelo de visão, depois passar o resultado de volta para o modelo principal
      Não é obrigatório ter “um único modelo que faz tudo”
    • Estou usando o Google AI Studio como ponte de visão gratuita
      O Gemma 31B lida bem com tarefas de visão, e 1500 requisições por dia é, na prática, quase ilimitado
    • Não parece uma lacuna tão grande assim
      Há usos como trabalhos de UX/UI, mas fora isso não faz tanta falta, e mesmo os modelos de fronteira não conseguem reproduzir imagens reais; pela minha experiência, só conseguem aproximações
    • Tive a mesma reação com o DeepSeek V4
      Se fosse um modelo de visão, parece que seria mais útil
  • Usei bastante esse modelo nas últimas 24 horas e confirmei que ele é bem competente
    Só que é um pouco verboso, e vi casos em que ele reavaliava 3 ou 4 vezes antes de decidir um caminho no registro de raciocínio, além de não lidar tão bem quanto o GPT5.5 com exigências complexas e abstratas
    Mesmo assim, eu já me sentiria à vontade para recomendar à maioria das pessoas a combinação de assinatura Z.AI + assinatura OpenAI de US$ 20 por mês, e o fluxo em que o GLM escreve e o GPT revisa/depura fica só um pouquinho abaixo de usar só GPT num plano de US$ 200 por mês, mas parece quase ilimitado

    • Descobri hoje que a intensidade de raciocínio padrão está em max
      Isso provavelmente explica por que ele é tão verboso
    • O que mais considero importante agora é o quanto o modelo escreve bem
      Se você sabe programar, acho que já chegamos ao ponto em que consegue dar informações suficientes para o modelo fazer o que precisa
      Já a escrita tem nuances demais e ainda é bem difícil para eles, embora de fato estejam melhorando aos poucos
    • Meu fluxo de trabalho também é assim
      Uma vez por dia, copio o código para o Claude Sonnet gratuito para deixá-lo realmente legível
    • Depois de experimentar o Fable 5, até o Opus 4.8 já não parece suficiente
      O Opus 4.8 realmente é um agente de programação mais forte, que acerta onde o DeepSeek 4.0 ou o Kimi 2.7 vacilam e falham, mas o ornamento retórico no tom de conversa está ficando cada vez mais irritante, e às vezes dá a sensação de que ele fala de forma deliberadamente ambígua ou segura a verdade até você pressionar, o que me faz repensar a assinatura
  • O GLM 5.2 é o primeiro modelo que testamos que é claramente do mesmo nível ou melhor que o Opus 4.6
    Ainda assim, no nosso caso avaliamos o GLM 5.2 e a maioria dos modelos chineses um pouco abaixo do que outros benchmarks que usam metodologias de teste frágeis
    Os dados estão em https://gertlabs.com/rankings

  • Não sei muito bem como rodar esse tipo de modelo, mas fico curioso sobre quão perto estamos do momento em que empresas médias e grandes vão começar a comprar hardware para manter modelos localmente
    É caro e não tão capaz quanto os modelos de ponta, mas as vantagens em termos de privacidade e controle são bem grandes

    • Várias empresas na Europa já fazem isso há algum tempo com modelos de 70B e estão atualizando o hardware para rodar os novos modelos na faixa de 700B~1T
      Isso se intensificou de verdade na época do Kimi K2, mas comprar e hospedar esse tipo de hardware leva tempo
      Nem toda empresa quer enviar segredos comerciais para OpenAI ou Anthropic, e em alguns casos nem pode fazer isso legalmente
    • Não é uma situação nova
      Na época em que surgiam bons modelos de visão como o AlexNet, especialmente em OCR, as empresas também tinham que escolher entre nuvem e hospedagem própria com GPU
      No fim, a questão é o padrão de uso: o consumo se concentra em determinados horários do expediente e, no resto do tempo, a GPU fica ociosa
      Para tarefas sensíveis à latência, esse é um trade-off de décadas, não algo específico de LLMs
    • Como é um modelo de cerca de 750B, exige uma quantidade enorme de VRAM
      Parece coisa para uma empresa média realmente muito determinada
    • Até agora, o principal caso de uso que exige privacidade total parece ser o trabalho jurídico
      Para vasculhar grandes volumes de texto em discovery, não é necessário um modelo de topo, mas é preciso confidencialidade total
      No r/localllama há vários advogados exibindo builds com múltiplas GPUs e, por acaso, eles também têm o orçamento necessário
    • A menos que haja uma preocupação real de segurança nacional, parece melhor negociar contratos comerciais com proteção de privacidade com alguns fornecedores já existentes
  • Dizem que “o GLM-5.2 está na fronteira de Pareto de custo por tarefa em relação à inteligência e tem o menor custo por tarefa entre os modelos do mesmo nível de inteligência”, mas ao mesmo tempo o GLM-5.2 aparece com cerca de US$ 0,46 por tarefa, enquanto o GLM-5.1 está em US$ 0,25, o Kimi K2.6 em US$ 0,31, o MiniMax-M3 em US$ 0,18 e o DeepSeek V4 Pro max em US$ 0,05; então fico pensando se deixei passar alguma coisa

    • Parece que escolheram mal os modelos de comparação
      Em vez de escolher outros modelos próximos ao 5.2 na métrica de inteligência, parece que selecionaram alguns modelos abertos de nível inferior
    • Fronteira de Pareto não significa ser o mais barato
    • Alguns modelos recebem bastante subsídio
      O custo de inferência é melhor medido pelo total de parâmetros e pelos parâmetros ativos
  • Vi o Mythos e adicionei o GLM 5.2 ao benchmark baseado em bugs; ele é melhor que o GLM 5.1, mas ainda fica atrás de vários outros modelos, e a comparação mais direta seria com o Qwen 3.7 Max
    Modelos abertos menores, que também podem ser auto-hospedados, como Gemma 4 e Qwen 3.6, também encontraram o mesmo número de bugs, 3 de 9, e o GLM 5.2 acertou a localização de um bug, mas interpretou parcialmente errado o próprio bug, recebendo só pontuação parcial
    O Kimi K2.7-code, adicionado na mesma rodada, teve desempenho consistentemente ruim em relação ao 2.6, e neste benchmark específico há modelos melhores e mais baratos
    https://swelljoe.com/post/will-it-mythos/
    Esse benchmark pequeno não prova nada, mas é útil para avaliar rapidamente se o modelo consegue raciocinar sobre problemas relativamente complexos dentro de código