Modelo ZAI GLM 4.6: panorama de desempenho, custo e uso prático
Em algumas comunidades, como o Reddit, há opiniões levantando preocupações sobre privacidade. No entanto, os resultados de testes reais indicam que o desempenho de programação em si parece ser excelente. Em comparação com o Claude, ele não fica atrás em desempenho e, com a promoção atual de 50% de desconto, é possível assinar o plano GLM Coding Lite por $36 ao ano. (com indicação, cerca de $33)
Resumo principal: o modelo GLM 4.6 da ZAI apresenta desempenho semelhante ao Claude Sonnet 4, mas com custo de tokens de apenas 1/8. Ele oferece suporte a uma janela de contexto longa e, especialmente em benchmarks relacionados a código, mostra desempenho forte, chamando atenção como uma alternativa com excelente custo-benefício.
1. Introduction and the Current AI Landscape
Em um momento recente de ausência de novos modelos open-weight, a chegada do modelo GLM 4.6, desenvolvido pela ZAI, está trazendo novo fôlego ao mercado. O mercado existente de modelos de IA vinha sendo liderado por Frontier Labs com enorme capital, mas havia a barreira dos altos custos. Por outro lado, labs focados em pesquisa, como a Deepseek, tinham a limitação de oferecer interfaces pouco amigáveis por falta de capacidade em desenvolvimento de software. A ZAI complementa esses pontos fracos ao oferecer uma abordagem amigável ao usuário por meio de serviços de API e assinatura. Em especial, o GLM 4.6 entrega desempenho equivalente ao Claude Sonnet 4 por um custo muito menor, mostrando potencial para ampliar a acessibilidade aos modelos de IA e incentivar o uso da tecnologia em diversas áreas.
2. ZAI's GLM 4.6 and its Advantages
A ZAI não apenas desenvolve modelos que alcançam pontuações altas em diversos benchmarks, como também oferece serviços centrados no usuário com base em uma compreensão profunda de produtos reais. Diferentemente de outros laboratórios de pesquisa, a ZAI fornece APIs e serviços de assinatura que os usuários podem acessar e utilizar com facilidade, contribuindo para a redução de custos de código em nuvem. O modelo GLM 4.6 registrou taxa de vitória de 48,6% contra o Claude Sonnet 4 no benchmark Kilo code e oferece desempenho semelhante por menos de 1/5 do preço. Em especial, o custo de tokens de saída é de cerca de 1/8, sendo muito barato e avaliado como uma alternativa racional aos modelos em nuvem.
4. GLM 4.6: Advanced Features and Improvements
O GLM 4.6 inclui várias melhorias importantes em relação à versão anterior.
- Janela de contexto longa: suporta até 200k tokens, permitindo processar mais informações de uma só vez e melhorando a capacidade de executar tarefas complexas.
- Melhoria de desempenho: obteve pontuações mais altas em benchmarks de código e também apresenta melhor desempenho em aplicações reais.
- Compatibilidade: oferece endpoints semelhantes ao Claude Code, facilitando a integração ao workflow já existente dos usuários.
- Capacidade de raciocínio reforçada: a capacidade de raciocínio foi aprimorada, há suporte ao uso de ferramentas durante o processo de raciocínio, o que permite operação mais eficaz em frameworks de agentes, e a capacidade de escrita também foi melhorada.
5. Performance Benchmarks and Comparisons
O GLM 4.6 mostra desempenho impressionante em diversos benchmarks. No benchmark AIME, superou o Sonic 4.5, e no GPQA, ficou à frente do Sonic 4. Apresentou excelente desempenho no Live code bench e no benchmark HL e, quando comparado aos modelos da Anthropic, registrou resultados equivalentes ou melhores na maioria dos benchmarks, com exceção do SWE bench. Em especial, mostra força em benchmarks relacionados a código e alcançou melhorias significativas em relação à versão anterior.
6. Practical Performance and Token Usage
Mais importante do que a pontuação em benchmarks é o desempenho em ambiente real de uso. O GLM 4.6 mantém consistência mesmo em tarefas complexas envolvendo vários arquivos, sem perder contexto nem apresentar problemas de alucinação. A ZAI garante transparência ao publicar todas as perguntas de teste e trajetórias de agentes no Hugging Face.
Com um plano de programação barato de $3 por mês, é possível usar GPT-4 para tarefas complexas, como desenho de arquitetura, e o GLM 4.6 para a implementação real, reduzindo em 50 a 100 vezes o custo das tarefas cotidianas de programação. Mesmo que ele cuide de apenas 80% da carga total de trabalho, o retorno sobre o investimento é muito alto.
7. Testing GLM 4.6 with Kilo Code and Open Code
Em testes reais usando Kilo code e Open Code, o GLM 4.6 mostrou desempenho impressionante.
- Kilo code: no processo de criação de uma nova demo da Activity API, demonstrou capacidade de encontrar as informações necessárias por meio de busca na web e gerar código preciso.
- Open Code: durante a execução de uma demo de estúdio de imagem, foi além de outros modelos e implementou por conta própria recursos adicionais, como função de zoom. Também mostrou excelente capacidade de resolução de problemas, lidando com exceções do lado do cliente e corrigindo erros no arquivo de configuração.
A velocidade de execução tende a ser um pouco lenta, mas, às vezes, chegou a entregar resultados melhores do que modelos em nuvem em termos de qualidade de UI.
2 comentários
A capacidade tecnológica da China está avançando a cada dia..
Modelo de nuvem, caramba.