- Pangu Pro MoE adota uma arquitetura Mixture of Grouped Experts (MoGE) otimizada para o ambiente Huawei Ascend NPU, resolvendo de forma eficaz o problema de desequilíbrio de carga entre especialistas em ambientes distribuídos
- O modelo foi projetado com 72 bilhões de parâmetros no total, ativando apenas 16 bilhões de parâmetros por token, o que aumenta significativamente a eficiência computacional e a escalabilidade
- A arquitetura MoGE aplica regras de distribuição e seleção equilibradas entre diferentes grupos de especialistas, alcançando balanceamento de carga perfeito em todos os dispositivos e melhorando a velocidade de inferência e treinamento
- Nos resultados de avaliação de desempenho, o Pangu Pro MoE superou modelos open source importantes como GLM-Z1-32B e Qwen3-32B, apresentando eficiência de inferência de nível máximo e excelente custo-benefício nas plataformas Ascend 300I Duo/800I A2
- Por meio de pré-treinamento, fine-tuning e aprendizado por reforço, o modelo garantiu forte capacidade de raciocínio e generalização em diversos domínios com base em datasets de alta qualidade
Visão geral
- Recentemente, o uso de Mixture of Experts (MoE) em grandes modelos de linguagem (LLMs) vem ganhando força como uma tendência para aumentar os parâmetros do modelo e a capacidade de treinamento sem elevar o custo computacional
- A estrutura MoE reduz o processamento ao ativar apenas parte dos especialistas (Experts) para cada token de entrada, mas na prática existe o fenômeno de desequilíbrio de carga entre especialistas, em que apenas alguns deles são selecionados repetidamente
- Esse problema reduz a eficiência geral do sistema quando o modelo está distribuído por vários dispositivos
- As técnicas heurísticas existentes de balanceamento de carga trazem apenas melhorias parciais e não representam uma solução fundamental completa
Introdução à arquitetura Mixture of Grouped Experts (MoGE)
- O MoGE implementa uma estratégia de roteamento com balanceamento por grupo, em que os especialistas (Experts) são divididos em grupos do mesmo tamanho, e para cada token um número definido de especialistas de cada grupo é obrigatoriamente ativado
- Isso distribui o trabalho de forma uniforme entre todos os dispositivos e atinge, por projeto, balanceamento de carga perfeito com Imbalance Score (IS) igual a 0
- Para cada token, as pontuações iniciais de todos os especialistas são calculadas por um roteador global Softmax; em seguida, apenas os especialistas Top-K′ de cada grupo são selecionados, e a pontuação dos não selecionados passa a ser 0
- Essa estrutura maximiza especialmente a velocidade de inferência e treinamento e a utilização de recursos em modelos de grande escala em ambientes distribuídos (de dezenas a centenas de bilhões de parâmetros)
Modelo Pangu Pro MoE e otimização para a plataforma Ascend
- A Huawei desenvolveu o Pangu Pro MoE otimizado para as plataformas NPU Ascend 300I Duo e 800I A2 (71,9 bilhões de parâmetros no total, 16,5 bilhões ativados por token)
- Com base em extensas simulações de sistema, a empresa ajustou vários parâmetros de hardware, como a estrutura do modelo e a configuração de paralelismo de hardware (tensor/expert/pipeline/virtual pipeline), para maximizar o desempenho
- Kernels de operação customizados (MulAttention, SwiftGMM etc.) foram otimizados para as características do Ascend, reduzindo acesso à memória, comunicação e overhead computacional, eliminando gargalos por operador e aumentando a taxa de utilização de banda
- Nos resultados de simulação de tamanho de batch e otimização de desempenho, o modelo mostrou o melhor throughput, a menor latência e a melhor eficiência de comunicação dentro das restrições dadas
Pré-treinamento e desenho dos dados de treinamento
Composição dos dados
- Foi construído um grande dataset de alta qualidade com 1,3 quatrilhão (13 trilhões) de tokens baseado em tokenizer próprio, coletado de diversas fontes como web, livros, código, STEM, indústria, raciocínio e dados sintéticos
- O tokenizer usa uma estratégia que prioriza o equilíbrio entre domínios, garantindo representatividade até em domínios especializados
Etapas e estratégia de treinamento
- O pré-treinamento (Pre-training) foi realizado em três etapas (geral, raciocínio e annealing), ajustando em cada fase os objetivos de treinamento e o currículo de dados
- Etapa geral: aquisição de conhecimento geral e habilidades linguísticas em diversas áreas
- Etapa de raciocínio: maximização da proporção de dados de raciocínio complexo, como STEM, coding e problemas lógicos complexos
- Etapa de annealing: ajuste adicional com dados de alta dificuldade e dados em estilo instruction
- Em cada etapa, foram ajustados gradualmente comprimento de sequência, dificuldade dos dados, tamanho de batch, learning rate etc., para garantir a capacidade de generalização e especialização do modelo
Avaliação dos dados
- Foi operado um sistema de avaliação multidomínio baseado em modelos usando a própria série Pangu, atribuindo a cada dado pontuações como limpeza, fluência, valor educacional e riqueza, refletidas na estratégia de amostragem e seleção de dados
- Também foi realizado um refinado processo de rotulagem em 188 categorias para gerenciar a distribuição e as características dos dados
Ambiente de pré-treinamento e otimização
- O Pangu Pro MoE foi treinado e avaliado no Huawei Ascend 800T A2, chip que oferece FP16 256TFlops e eficiência INT8 de 512TOPS, com baixíssimo consumo de 310W para alcançar alto desempenho em IA e boa eficiência de custo
- Com treinamento de uma única época, otimizador AdamW, cronograma de learning rate cosseno em 3 etapas e configuração de batch grande, o modelo obteve generalização robusta e possibilidade de especialização por tarefa-alvo
Pós-treinamento (fine-tuning posterior e aprendizado por reforço)
Supervised Fine-tuning (SFT)
- Os dados de SFT foram divididos em dois conjuntos, “raciocínio” e “não raciocínio”, com a proporção de raciocínio elevada para 3:1, focando em tarefas complexas como matemática, código e raciocínio lógico
- Com uma estratégia de otimização progressiva em 2 etapas (de instruções simples em uma ampla variedade de escopos para raciocínio complexo), o modelo desenvolveu de forma equilibrada sua capacidade de raciocínio passo a passo e seu processamento geral de linguagem
- Durante o processo de SFT, também foi adicionada uma estratégia de fusão de checkpoints, integrando de forma eficaz modelos de diferentes pontos intermediários para reforçar robustez e generalização
Aprendizado por reforço (RL)
- A etapa de RL baseada em recompensa aplicou o algoritmo Group Relative Policy Optimization (GRPO) junto com a técnica Zero-Advantage-Mask, que ignora amostras sem sinal de recompensa, apoiando a exploração de políticas e o aprendizado eficaz
- Foi introduzido um sistema de recompensa em múltiplas camadas, incluindo exatidão, preferência e recompensa auxiliar; tarefas de matemática e coding foram avaliadas por um sistema automatizado, enquanto tarefas open-domain foram avaliadas por um julgador separado baseado em LLM (Preference Model)
- Com mistura curricular de dados, a distribuição de complexidade dos dados foi ajustada dinamicamente, fornecendo estímulo contínuo ao crescimento do modelo
Otimização de sistema e infraestrutura
Sistema de treinamento em NPU Ascend
- Foram aplicadas ativamente tecnologias avançadas como estratégia de paralelismo hierárquico e híbrido (Hierarchical & Hybrid Parallelism), comunicação EP All-to-All, Adaptive Pipeline Overlap e operator fusion
- Houve aumento de 35% na eficiência computacional do modelo (MFU), e com paralelismo de pipeline e virtual pipeline a carga de computação e comunicação em cada etapa foi distribuída de forma perfeita, fortalecendo tanto a escalabilidade quanto o throughput
- Com kernels customizados, máximo aproveitamento da largura de banda HBM e eliminação de comunicação desnecessária e overhead de memória, o desempenho foi levado ao máximo em todas as etapas de treinamento e inferência
- O sistema de inferência também mostrou os melhores resultados de throughput e latência para cada estrutura de hardware, com configuração flexível de paralelismo por módulo, como Attention e Expert (estratégia H2P), além de otimização sob medida de operadores
Desempenho e benchmarks
- O Pangu Pro MoE apresentou desempenho de inferência de 1148~1528 token/s (por placa)* no ambiente Ascend, comprovando resultados muito superiores em comparação com parâmetros equivalentes (Open dense 32B, 72B)
- Em custo por desempenho, também alcançou excelente eficiência com base no Ascend 300I Duo
- Em vários benchmarks externos (tomada de decisão, lógica, coding, compreensão de documentos etc.), superou grandes modelos públicos como GLM-Z1-32B, Qwen3-32B e Gemma3-27B
- Os experimentos mostram que se trata de um LLM de nível máximo na faixa abaixo de 100 bilhões de parâmetros
Conclusão e implicações
- O Pangu Pro MoE resolve fundamentalmente o problema de desequilíbrio de carga por meio de um desenho de balanceamento de grupos de especialistas em treinamento/inferência distribuídos de modelos de grande escala
- Com otimização dedicada à plataforma Ascend e esforços amplos como a maximização da qualidade dos dados, trata-se de um modelo de linguagem de próxima geração que alcança um equilíbrio avançado entre custo, velocidade e desempenho de generalização
- Espera-se que essa arquitetura e metodologia se tornem uma referência importante para o futuro ecossistema de LLMs distribuídos em larga escala e para diversas aplicações industriais
1 comentários
Comentários do Hacker News
O que realmente torna este anúncio de arquitetura empolgante é a possibilidade de desenvolvedores pequenos conseguirem competir com grandes empresas usando apenas GPUs baratas. No fim, isso sugere que o desenvolvimento aberto de IA via crowdsourcing pode ser tecnicamente viável. De fato, a China está pesquisando isso e mirando um nível capaz de competir com modelos monolíticos. No começo eu era cético em relação às sanções dos EUA, mas, se isso se concretizar de forma totalmente consistente do ponto de vista lógico, será um feito realmente impressionante
A licença proíbe uso e instalação na UE, e fico curioso se é possível redigir uma licença com uma cláusula do tipo "essa restrição existe apenas por proteção e não será realmente aplicada". Acho que isso poderia ser chamado de "cláusula de isolamento" (isolating clause), mas não tenho certeza se um juiz aceitaria isso como um caminho jurídico alternativo. Parece um contexto parecido com quando a Meta divulgou os pesos do Llama. Acho que a essência da lei europeia de IA é controlar usos concretos de IA, e provavelmente não incluiria a mera distribuição dos pesos e da arquitetura. Como proibir a distribuição na prática daria aos europeus mais opções e concorrência, fico me perguntando se isso é realmente proibido por lei. Ao mesmo tempo, também acho que é preciso cuidado com segurança, porque instalar open weights pode introduzir backdoors, isto é, vulnerabilidades que permitem manipular o sistema por meio de prompts específicos. Lembro de ter visto em um artigo um caso em que uma combinação de símbolos como '0?,#2!' colocava um LLM em um estado em que alguém podia ler informações ocultas dele, algo como prompt injection. Também tenho curiosidade se esse tipo de ataque pode ser bloqueado ou enfraquecido com fine-tuning ou LoRA, ou se existem bibliotecas Python úteis para defesa. A pergunta é se baixar, instalar e modificar com fine-tuning ou LoRA pode oferecer alguma proteção
Os pesos podem ser baixados no gitcode
Se os LLMs realmente estão batendo num limite de escalabilidade e, daqui para frente, a eficiência passa a ser o fator decisivo, fico curioso se surgirá um mercado de modelos pequenos focados em casos de uso específicos. Na prática, ao usar Gemini para extrair dados estruturados de imagens, o modelo flash funciona muito bem. Fico imaginando quanto esforço seria necessário para criar modelos leves que atendam apenas a usos específicos em dispositivos pequenos como NUCs e APUs da AMD. Ou talvez até apareçam dispositivos como mini sticks de GPU externa para casos de uso específicos. Comercialmente talvez não seja um grande mercado, mas pareceria bem legal
Acho que as sanções são apenas uma medida temporária. Idealmente serviriam para ganhar tempo e fortalecer a capacidade interna, mas, com cortes no financiamento de pesquisa nos EUA e com a redução da entrada de estudantes e pesquisadores estrangeiros, a capacidade americana tende a se esgotar, enquanto a China entrará em trajetória de crescimento
Essa notícia já tem alguns dias. Para a notícia sobre o modelo híbrido de IA open source da Tencent, veja o TechInAsia, e também compartilho o link do GitHub
Sic transit gloria nvidii (assim passa a glória da Nvidia)
Tenho um amigo chinês. Há seis anos ele entrou como engenheiro fundador em uma startup chinesa de hardware. Depois vieram as sanções. Quando nos encontramos recentemente, ele disse que as sanções foram o melhor acontecimento da vida dele. Como as empresas chinesas locais deixaram completamente de comprar produtos originários do Ocidente, a empresa dele cresceu muito. Agora as sanções são vistas por todos como algo "natural", então o resultado é foco total em autossuficiência e crescimento
Fico curioso sobre o que isso significa depois das sanções. Os smartphones da Huawei, que sofreram grande impacto, agora teriam uma chance de reação com GPU própria? Como o desempenho dessa GPU se compara ao das GPUs ocidentais mais recentes? Isso significa que a Huawei agora tem capacidade de comercializar essa GPU?
Para haver competição com TSMC e Nvidia, o mundo precisa que Huawei e China se consolidem também no aspecto de node size