2 pontos por GN⁺ 2025-07-03 | 1 comentários | Compartilhar no WhatsApp
  • Pangu Pro MoE adota uma arquitetura Mixture of Grouped Experts (MoGE) otimizada para o ambiente Huawei Ascend NPU, resolvendo de forma eficaz o problema de desequilíbrio de carga entre especialistas em ambientes distribuídos
  • O modelo foi projetado com 72 bilhões de parâmetros no total, ativando apenas 16 bilhões de parâmetros por token, o que aumenta significativamente a eficiência computacional e a escalabilidade
  • A arquitetura MoGE aplica regras de distribuição e seleção equilibradas entre diferentes grupos de especialistas, alcançando balanceamento de carga perfeito em todos os dispositivos e melhorando a velocidade de inferência e treinamento
  • Nos resultados de avaliação de desempenho, o Pangu Pro MoE superou modelos open source importantes como GLM-Z1-32B e Qwen3-32B, apresentando eficiência de inferência de nível máximo e excelente custo-benefício nas plataformas Ascend 300I Duo/800I A2
  • Por meio de pré-treinamento, fine-tuning e aprendizado por reforço, o modelo garantiu forte capacidade de raciocínio e generalização em diversos domínios com base em datasets de alta qualidade

Visão geral

  • Recentemente, o uso de Mixture of Experts (MoE) em grandes modelos de linguagem (LLMs) vem ganhando força como uma tendência para aumentar os parâmetros do modelo e a capacidade de treinamento sem elevar o custo computacional
  • A estrutura MoE reduz o processamento ao ativar apenas parte dos especialistas (Experts) para cada token de entrada, mas na prática existe o fenômeno de desequilíbrio de carga entre especialistas, em que apenas alguns deles são selecionados repetidamente
  • Esse problema reduz a eficiência geral do sistema quando o modelo está distribuído por vários dispositivos
  • As técnicas heurísticas existentes de balanceamento de carga trazem apenas melhorias parciais e não representam uma solução fundamental completa

Introdução à arquitetura Mixture of Grouped Experts (MoGE)

  • O MoGE implementa uma estratégia de roteamento com balanceamento por grupo, em que os especialistas (Experts) são divididos em grupos do mesmo tamanho, e para cada token um número definido de especialistas de cada grupo é obrigatoriamente ativado
  • Isso distribui o trabalho de forma uniforme entre todos os dispositivos e atinge, por projeto, balanceamento de carga perfeito com Imbalance Score (IS) igual a 0
  • Para cada token, as pontuações iniciais de todos os especialistas são calculadas por um roteador global Softmax; em seguida, apenas os especialistas Top-K′ de cada grupo são selecionados, e a pontuação dos não selecionados passa a ser 0
  • Essa estrutura maximiza especialmente a velocidade de inferência e treinamento e a utilização de recursos em modelos de grande escala em ambientes distribuídos (de dezenas a centenas de bilhões de parâmetros)

Modelo Pangu Pro MoE e otimização para a plataforma Ascend

  • A Huawei desenvolveu o Pangu Pro MoE otimizado para as plataformas NPU Ascend 300I Duo e 800I A2 (71,9 bilhões de parâmetros no total, 16,5 bilhões ativados por token)
  • Com base em extensas simulações de sistema, a empresa ajustou vários parâmetros de hardware, como a estrutura do modelo e a configuração de paralelismo de hardware (tensor/expert/pipeline/virtual pipeline), para maximizar o desempenho
  • Kernels de operação customizados (MulAttention, SwiftGMM etc.) foram otimizados para as características do Ascend, reduzindo acesso à memória, comunicação e overhead computacional, eliminando gargalos por operador e aumentando a taxa de utilização de banda
  • Nos resultados de simulação de tamanho de batch e otimização de desempenho, o modelo mostrou o melhor throughput, a menor latência e a melhor eficiência de comunicação dentro das restrições dadas

Pré-treinamento e desenho dos dados de treinamento

Composição dos dados

  • Foi construído um grande dataset de alta qualidade com 1,3 quatrilhão (13 trilhões) de tokens baseado em tokenizer próprio, coletado de diversas fontes como web, livros, código, STEM, indústria, raciocínio e dados sintéticos
  • O tokenizer usa uma estratégia que prioriza o equilíbrio entre domínios, garantindo representatividade até em domínios especializados

Etapas e estratégia de treinamento

  • O pré-treinamento (Pre-training) foi realizado em três etapas (geral, raciocínio e annealing), ajustando em cada fase os objetivos de treinamento e o currículo de dados
    • Etapa geral: aquisição de conhecimento geral e habilidades linguísticas em diversas áreas
    • Etapa de raciocínio: maximização da proporção de dados de raciocínio complexo, como STEM, coding e problemas lógicos complexos
    • Etapa de annealing: ajuste adicional com dados de alta dificuldade e dados em estilo instruction
  • Em cada etapa, foram ajustados gradualmente comprimento de sequência, dificuldade dos dados, tamanho de batch, learning rate etc., para garantir a capacidade de generalização e especialização do modelo

Avaliação dos dados

  • Foi operado um sistema de avaliação multidomínio baseado em modelos usando a própria série Pangu, atribuindo a cada dado pontuações como limpeza, fluência, valor educacional e riqueza, refletidas na estratégia de amostragem e seleção de dados
  • Também foi realizado um refinado processo de rotulagem em 188 categorias para gerenciar a distribuição e as características dos dados

Ambiente de pré-treinamento e otimização

  • O Pangu Pro MoE foi treinado e avaliado no Huawei Ascend 800T A2, chip que oferece FP16 256TFlops e eficiência INT8 de 512TOPS, com baixíssimo consumo de 310W para alcançar alto desempenho em IA e boa eficiência de custo
  • Com treinamento de uma única época, otimizador AdamW, cronograma de learning rate cosseno em 3 etapas e configuração de batch grande, o modelo obteve generalização robusta e possibilidade de especialização por tarefa-alvo

Pós-treinamento (fine-tuning posterior e aprendizado por reforço)

Supervised Fine-tuning (SFT)

  • Os dados de SFT foram divididos em dois conjuntos, “raciocínio” e “não raciocínio”, com a proporção de raciocínio elevada para 3:1, focando em tarefas complexas como matemática, código e raciocínio lógico
  • Com uma estratégia de otimização progressiva em 2 etapas (de instruções simples em uma ampla variedade de escopos para raciocínio complexo), o modelo desenvolveu de forma equilibrada sua capacidade de raciocínio passo a passo e seu processamento geral de linguagem
  • Durante o processo de SFT, também foi adicionada uma estratégia de fusão de checkpoints, integrando de forma eficaz modelos de diferentes pontos intermediários para reforçar robustez e generalização

Aprendizado por reforço (RL)

  • A etapa de RL baseada em recompensa aplicou o algoritmo Group Relative Policy Optimization (GRPO) junto com a técnica Zero-Advantage-Mask, que ignora amostras sem sinal de recompensa, apoiando a exploração de políticas e o aprendizado eficaz
  • Foi introduzido um sistema de recompensa em múltiplas camadas, incluindo exatidão, preferência e recompensa auxiliar; tarefas de matemática e coding foram avaliadas por um sistema automatizado, enquanto tarefas open-domain foram avaliadas por um julgador separado baseado em LLM (Preference Model)
  • Com mistura curricular de dados, a distribuição de complexidade dos dados foi ajustada dinamicamente, fornecendo estímulo contínuo ao crescimento do modelo

Otimização de sistema e infraestrutura

Sistema de treinamento em NPU Ascend

  • Foram aplicadas ativamente tecnologias avançadas como estratégia de paralelismo hierárquico e híbrido (Hierarchical & Hybrid Parallelism), comunicação EP All-to-All, Adaptive Pipeline Overlap e operator fusion
  • Houve aumento de 35% na eficiência computacional do modelo (MFU), e com paralelismo de pipeline e virtual pipeline a carga de computação e comunicação em cada etapa foi distribuída de forma perfeita, fortalecendo tanto a escalabilidade quanto o throughput
  • Com kernels customizados, máximo aproveitamento da largura de banda HBM e eliminação de comunicação desnecessária e overhead de memória, o desempenho foi levado ao máximo em todas as etapas de treinamento e inferência
  • O sistema de inferência também mostrou os melhores resultados de throughput e latência para cada estrutura de hardware, com configuração flexível de paralelismo por módulo, como Attention e Expert (estratégia H2P), além de otimização sob medida de operadores

Desempenho e benchmarks

  • O Pangu Pro MoE apresentou desempenho de inferência de 1148~1528 token/s (por placa)* no ambiente Ascend, comprovando resultados muito superiores em comparação com parâmetros equivalentes (Open dense 32B, 72B)
  • Em custo por desempenho, também alcançou excelente eficiência com base no Ascend 300I Duo
  • Em vários benchmarks externos (tomada de decisão, lógica, coding, compreensão de documentos etc.), superou grandes modelos públicos como GLM-Z1-32B, Qwen3-32B e Gemma3-27B
  • Os experimentos mostram que se trata de um LLM de nível máximo na faixa abaixo de 100 bilhões de parâmetros

Conclusão e implicações

  • O Pangu Pro MoE resolve fundamentalmente o problema de desequilíbrio de carga por meio de um desenho de balanceamento de grupos de especialistas em treinamento/inferência distribuídos de modelos de grande escala
  • Com otimização dedicada à plataforma Ascend e esforços amplos como a maximização da qualidade dos dados, trata-se de um modelo de linguagem de próxima geração que alcança um equilíbrio avançado entre custo, velocidade e desempenho de generalização
  • Espera-se que essa arquitetura e metodologia se tornem uma referência importante para o futuro ecossistema de LLMs distribuídos em larga escala e para diversas aplicações industriais

1 comentários

 
GN⁺ 2025-07-03
Comentários do Hacker News
  • O que realmente torna este anúncio de arquitetura empolgante é a possibilidade de desenvolvedores pequenos conseguirem competir com grandes empresas usando apenas GPUs baratas. No fim, isso sugere que o desenvolvimento aberto de IA via crowdsourcing pode ser tecnicamente viável. De fato, a China está pesquisando isso e mirando um nível capaz de competir com modelos monolíticos. No começo eu era cético em relação às sanções dos EUA, mas, se isso se concretizar de forma totalmente consistente do ponto de vista lógico, será um feito realmente impressionante

    • Acho que as sanções podem, de fato, levar o mundo a uma direção melhor em vários aspectos, sem ironia. Incentivam melhorias como diversificação de computação e descentralização da manufatura
    • O Deepseek-R1 já está em um nível semelhante ao GPT 4.1. É oferecido como open weights e open source, e até o código de inferência foi publicado como open source
    • Também me interesso por uma rede peer-to-peer aberta de treinamento em GPU, ao estilo SETI@Home
    • Sobre a pergunta se IA aberta via crowdsourcing é tecnicamente possível, compartilho como exemplo de que isso já é viável o link do Intellect-2 da PrimeIntellect.ai
    • Acho um desenvolvimento interessante. Mas, para mim, se isso é algo bom ou não depende de a IA representar uma ameaça existencial à sobrevivência humana. Pode soar exagerado, mas há muitas pessoas pensando nisso com bastante seriedade
  • A licença proíbe uso e instalação na UE, e fico curioso se é possível redigir uma licença com uma cláusula do tipo "essa restrição existe apenas por proteção e não será realmente aplicada". Acho que isso poderia ser chamado de "cláusula de isolamento" (isolating clause), mas não tenho certeza se um juiz aceitaria isso como um caminho jurídico alternativo. Parece um contexto parecido com quando a Meta divulgou os pesos do Llama. Acho que a essência da lei europeia de IA é controlar usos concretos de IA, e provavelmente não incluiria a mera distribuição dos pesos e da arquitetura. Como proibir a distribuição na prática daria aos europeus mais opções e concorrência, fico me perguntando se isso é realmente proibido por lei. Ao mesmo tempo, também acho que é preciso cuidado com segurança, porque instalar open weights pode introduzir backdoors, isto é, vulnerabilidades que permitem manipular o sistema por meio de prompts específicos. Lembro de ter visto em um artigo um caso em que uma combinação de símbolos como '0?,#2!' colocava um LLM em um estado em que alguém podia ler informações ocultas dele, algo como prompt injection. Também tenho curiosidade se esse tipo de ataque pode ser bloqueado ou enfraquecido com fine-tuning ou LoRA, ou se existem bibliotecas Python úteis para defesa. A pergunta é se baixar, instalar e modificar com fine-tuning ou LoRA pode oferecer alguma proteção

    • A Huawei não tem direito de controlar o comportamento de cidadãos da UE e, na verdade, nem precisava ter incluído essa restrição. Como cidadão da UE, acho que o melhor é conhecer a lei por conta própria e evitar modelos perigosos para se proteger
    • Em termos de segurança, não confie em nenhum código gerado por LLM sem revisão obrigatória
    • Como exemplo de condição parecida com uma "cláusula de isolamento", explicam a licença de codec da Alliance for Open Media. O codec é royalty-free, mas, pelas condições da licença, o direito de uso é revogado se houver ação judicial relacionada ao uso do formato
  • Os pesos podem ser baixados no gitcode

    • Porém, segundo a licença, acesso, download, instalação, execução, distribuição, integração, modificação e qualquer outro uso dentro da UE estão todos explicitamente bloqueados. O link da licença está aqui
    • Gostei do uso do termo mais preciso "open weights" em vez de "open source". Mas fico me perguntando se open weights é realmente algo tão interessante. Isso permite saber quais vieses o modelo tem, ou não tem? Dá para usar no treinamento de modelos concorrentes? Quero entender as diferenças, vantagens e desvantagens entre open source e open weights, e também aprender se faz sentido dizer que, na era dos LLMs, "os pesos são o código-fonte"
  • Se os LLMs realmente estão batendo num limite de escalabilidade e, daqui para frente, a eficiência passa a ser o fator decisivo, fico curioso se surgirá um mercado de modelos pequenos focados em casos de uso específicos. Na prática, ao usar Gemini para extrair dados estruturados de imagens, o modelo flash funciona muito bem. Fico imaginando quanto esforço seria necessário para criar modelos leves que atendam apenas a usos específicos em dispositivos pequenos como NUCs e APUs da AMD. Ou talvez até apareçam dispositivos como mini sticks de GPU externa para casos de uso específicos. Comercialmente talvez não seja um grande mercado, mas pareceria bem legal

    • O tema de "modelos pequenos focados em casos de uso específicos" já é uma discussão importante no HN: "Small language models are the future of agentic AI"
    • Enquanto procurava um modelo para extração de entidades nomeadas, descobri o dslim/bert-base-NER. Ele tem 108 milhões de parâmetros
    • Essa direção já existe sob o nome de "destilação de modelos": um LLM grande gera os rótulos, e um modelo pequeno dedicado faz inferência por um custo 1000 vezes menor
    • Isso lembra a época em que se colocava ASIC em porta USB para minerar bitcoin
  • Acho que as sanções são apenas uma medida temporária. Idealmente serviriam para ganhar tempo e fortalecer a capacidade interna, mas, com cortes no financiamento de pesquisa nos EUA e com a redução da entrada de estudantes e pesquisadores estrangeiros, a capacidade americana tende a se esgotar, enquanto a China entrará em trajetória de crescimento

  • Essa notícia já tem alguns dias. Para a notícia sobre o modelo híbrido de IA open source da Tencent, veja o TechInAsia, e também compartilho o link do GitHub

  • Sic transit gloria nvidii (assim passa a glória da Nvidia)

    • Observação de linguística: 'invidia' significa "inveja" em latim
    • Eis o momento em que cinco anos de estudo de latim se mostram úteis
    • Pequena correção, mas o genitivo singular correto seria nvidiae. O i é uma desinência de declinação em o
    • A forma correta seria Sic transit gloria nvidiae
    • Melhor comentário que li hoje, bravo
  • Tenho um amigo chinês. Há seis anos ele entrou como engenheiro fundador em uma startup chinesa de hardware. Depois vieram as sanções. Quando nos encontramos recentemente, ele disse que as sanções foram o melhor acontecimento da vida dele. Como as empresas chinesas locais deixaram completamente de comprar produtos originários do Ocidente, a empresa dele cresceu muito. Agora as sanções são vistas por todos como algo "natural", então o resultado é foco total em autossuficiência e crescimento

    • Há diferenças de impacto conforme a indústria. Antes das sanções, pequenas empresas de software EDA mal sobreviviam diante do enorme abismo tecnológico em relação a gigantes como a Synopsys. Agora, porém, por causa da demanda por redução de risco, estão conquistando em massa novos clientes. Isso é chamado de "hormesis"
  • Fico curioso sobre o que isso significa depois das sanções. Os smartphones da Huawei, que sofreram grande impacto, agora teriam uma chance de reação com GPU própria? Como o desempenho dessa GPU se compara ao das GPUs ocidentais mais recentes? Isso significa que a Huawei agora tem capacidade de comercializar essa GPU?

    • A Huawei é uma empresa gigantesca, mais do que parece. Não só em estações-base 5G, mas também em celulares, carros elétricos e várias outras áreas
    • Sobre a expressão "chance de reação", as vendas de smartphones da Huawei já ultrapassaram as da Apple na China. Link com dados detalhados de participação de mercado
    • Em termos de hardware, a Huawei consegue fazer celulares bastante competitivos. O problema é que, sem a Google Play Store, fica difícil justificar a compra
    • Recomendo este link de vídeo no YouTube que explica a situação geral da Huawei
  • Para haver competição com TSMC e Nvidia, o mundo precisa que Huawei e China se consolidem também no aspecto de node size

    • Ignorando questões geopolíticas, seria um cenário muito bom. Mas a tecnologia de IA é uma espada de dois gumes, e a concorrência na esfera do consumidor provavelmente acabará levando a uma corrida armamentista. Considerando a capacidade de manufatura e o custo de mão de obra da China, há grande chance de a China acabar vencendo. Ainda assim, para isso se concretizar, primeiro seria necessária uma duplicação da produção da ASML, o que não parece realista no futuro próximo
    • Se os EUA afrouxarem os controles de exportação de chips, tenho a impressão de que o governo chinês provavelmente passará a impor restrições de importação. O benefício de criar um concorrente real para Nvidia/TSMC/Apple/Google seria muito maior