2 pontos por GN⁺ 2025-07-07 | 1 comentários | Compartilhar no WhatsApp
  • A Huawei é alvo de uma denúncia interna segundo a qual teria copiado grandes modelos de IA da Qwen e da DeepSeek e os apresentado como produto próprio sob o nome Pangu
  • Segundo o depoimento de um funcionário interno da equipe Pangu, alguns modelos substanciais não foram desenvolvidos internamente, mas apenas renomeados com base em modelos open source externos
  • Tecnicamente, foi apontado que modelos importantes como o 135B V2 e o Pro MoE 72B correspondem em grande medida às arquiteturas da Qwen e da DeepSeek
  • Internamente, essa prática teria levado à queda de moral entre os pesquisadores e à evasão de talentos, além de ser agravada por ineficiência administrativa e políticas de pessoal pouco transparentes
  • Embora também existam modelos realmente desenvolvidos de forma autônoma (como o Pangu V3), a prática de clonagem e a cultura de pesquisa sem reconhecimento deixaram uma grande cicatriz na confiança de toda a organização
  • O denunciante afirma ter decidido revelar a verdade com seu nome real e pede reflexão e mudança por parte da organização

A tragédia do Pangu: os bastidores dolorosos dos grandes modelos Pangu no Huawei Noah Ark Lab

Apresentação do denunciante e clima no local

  • O autor afirma fazer parte da equipe de grandes modelos Pangu da Huawei Noah, e diz ter validado sua identidade com informações internas sobre a estrutura de organização, projetos e liderança
  • O projeto Pangu estaria, na prática, mais próximo de uma organização de entrega do que de uma organização de pesquisa, sofrendo com prazos recorrentes, excesso de trabalho e pressão constante por avaliações e relatórios
  • A intensidade do trabalho e a burocracia eram extremas, com longos períodos longe da família em alojamentos e trabalho frequente nos fins de semana
  • Na prática, em vez de autonomia e criatividade na pesquisa, predominava uma cultura corporativa centrada em prazos de entrega e resultados para cada linha de produto (Cloud, ICT etc.)

Noites sem dormir, consciência criativa esmagada

  • Após a controvérsia sobre o plágio do modelo Qwen, parte dos pesquisadores teria experimentado ao mesmo tempo vergonha, raiva e sensação de impotência
  • O próprio denunciante diz temer retaliações de uma grande empresa e de redes internas, mas afirma não conseguir mais suportar o encobrimento dos fatos e a propaganda enganosa para o público externo, decidindo então fazer uma confissão por consciência

Dificuldades técnicas e o início do plágio

  • Os modelos Pangu iniciais tentaram treinamento próprio com base em NPUs Ascend da Huawei, mas enfrentaram sérios contratempos, como baixa eficiência do tokenizer e desempenho fraco do modelo
  • A equipe ficou atrás de concorrentes (Alibaba, Zhipu) com modelos baseados em GPU, e o treinamento do modelo dense próprio de 230B terminou em fracasso
  • Diante disso, o laboratório de modelos pequenos teria apresentado como “desenvolvimento próprio” algo que na verdade era um 135B V2 criado a partir da clonagem e de pequenas modificações do modelo Qwen-1.5 (110B), com semelhanças visíveis internamente em código e estrutura
  • A principal liderança e executivos teriam conhecimento dessa realidade, mas a teriam tolerado devido à pressão por resultados externos e desempenho

Conquista técnica real: Pangu V3

  • Depois de muito esforço, a equipe treinou de forma independente no Ascend o modelo Pangu V3 (135B Ultra), totalmente desenvolvido internamente desde o início
  • Superando diversos obstáculos técnicos (unificação do tokenizer, estabilização da curva de perda etc.), o time teria alcançado desempenho semelhante ao dos concorrentes
  • Essa conquista seria uma prova de desenvolvimento independente de grandes modelos, e não de plágio, sendo fonte de orgulho para os pesquisadores

O esforço não reconhecido por trás da divisão de trabalho

  • O laboratório de modelos pequenos teria continuamente levado dados, código e resultados para modificar/distribuir modelos com facilidade, enquanto méritos e recompensas ficavam majoritariamente com essa organização
  • Como resultado, pesquisadores dedicados teriam deixado a organização ou passado a tratar isso com amargura como uma mancha em suas carreiras técnicas

Casos secundários de plágio, como os clones 224B MoE/718B

  • Também no processo de desenvolvimento de um novo modelo 718B MoE, a equipe teria praticamente copiado o DeepSeekv3 e depois o distribuído com o nome Pangu Pro MoE 72B
  • Internamente, essa prática seria conhecida, mas prevaleceria um clima de silêncio por causa do medo pela própria sobrevivência e de revelar a verdade

Gestão administrativa absurda

  • Aos pesquisadores reais eram aplicados rígidos processos, linhagem de modelos e sistemas de auditoria, o que atrasava a velocidade de desenvolvimento
  • Mas, no caso dos modelos clonados, persistiria um duplo padrão enraizado de que “se vier de cima, tudo passa”

Motivo da denúncia e decisão de sair

  • Após o caso HonestAGI, teria começado uma tentativa de gestão de crise em nível corporativo e de encobrimento interno
  • O denunciante afirma não poder mais participar de “relatórios falsos” e de conluio interno, e diz ter pedido a remoção de seu nome de listas de equipe e relatórios, além de manifestar a intenção de se demitir voluntariamente

Apelo final e afeto pelos colegas

  • Colegas já teriam migrado para outras empresas como ByteDance, DeepSeek, Tencent e Kuaishou, mostrando a gravidade da fuga de talentos da Huawei
  • O texto enfatiza que, com inovação, ambiente adequado e menos barreiras políticas, seria possível desenvolver grandes modelos e chips de nível mundial
  • O autor declara estar disposto a assumir até mesmo possíveis ameaças à segurança de si próprio e de sua família decorrentes da veracidade deste conteúdo e de novas revelações

Contexto adicional

  • No caso do clone 135B V2, o laboratório de modelos pequenos teria ficado apenas com benefícios como prêmios e incentivos, enquanto o peso do suporte downstream e da manutenção foi repassado à equipe de desenvolvimento original (4th brigade)
  • Até mesmo na autoria do relatório técnico do Pangu, pessoas que contribuíram de forma central para o desenvolvimento do modelo teriam sido excluídas, enquanto não contribuintes ligados ao laboratório de modelos pequenos foram incluídos, refletindo práticas acadêmicas injustas generalizadas

1 comentários

 
GN⁺ 2025-07-07
Comentários no Hacker News
  • Acho que o autor original mostra uma visão um tanto ingênua. A equipe Ascend, no início (tomando como referência a NPU 910A de 1ª geração), tinha desempenho inferior ao da Nvidia, o que era um resultado natural. A gerência apoiou a equipe que seguia uma alternativa baseada em GPU pronta para comercialização imediata, e a política interna consolidou essa direção. A equipe Ascend acabou conseguindo resolver os problemas técnicos, mas muitos membros sofreram burnout ou migraram para outras empresas chinesas de IA por conta de tratamento injusto, viés burocrático e falta de reconhecimento. A HW (provavelmente Huawei) há muito tempo adota uma estratégia e uma cultura de exaurir talentos de primeira linha; já nos anos 90, operadoras de telecomunicações da RPC recrutavam gente da Nortel, Siemens e Lucent, mas muitos talentos chineses acostumados à cultura corporativa ocidental tinham dificuldade para se adaptar à cultura real das empresas chinesas e acabavam em burnout. Mesmo assim, a HW acabou dominando o setor com uma cultura de trabalho agressiva. Agora, depois das sanções, tornou-se uma empresa estratégica, com seu valor muito ampliado em semicondutores, chips nacionais e IA. No ambiente internacional atual, a HW está em posição de fazer qualquer coisa para dominar o mercado. Por esta carta de demissão, dá para ver que a HW acabou levando o Ascend a um nível funcional ao colocar gente suficiente no projeto, e há chance de continuar despejando talentos até competir com a Nvidia. Tanto o autor quanto a maioria dos trabalhadores têm a intuição de que é essencial oferecer compensação justa e boas condições de trabalho aos funcionários. Mas, nos últimos 30 anos, a HW vem vencendo ao pagar salários enormes a muitas pessoas brilhantes (incluindo patriotas), colocá-las para resolver problemas e pressioná-las até quebrar
  • LLMs são estruturalmente incompatíveis com direitos autorais. Se já é possível treinar com dados alheios sem pagar um centavo, então a lógica vira a de que copiar também é livre. No fim, isso seria um efeito bumerangue da própria cópia
    • De forma ingênua, é incompatível, mas acho que advogados acabarão encontrando um jeito de tornar isso legal
  • Editoras de mapas antigamente colocavam ruas falsas para detectar infrações de copyright com facilidade. Fico me perguntando se algo assim pode ser aplicado a LLMs
    • Quando eu trabalhava na Malwarebytes, havia suspeita de que a IOBit estivesse roubando nosso banco de dados. Havia evidências claras, mas, para tornar o caso fácil de entender até para leigos, criamos um novo programa que existia em apenas uma máquina e adicionamos sua assinatura ao banco de dados. O programa era inofensivo e não malicioso, algo que não poderia se espalhar de verdade; quando o outro lado o adicionou ao banco de dados deles, publicamos no blog e isso teve grande repercussão. Caso relacionado: caso de roubo da IOBit
    • Um caso clássico é inserir deliberadamente defeitos minúsculos e inofensivos, ou comportamentos anômalos, em chips de computador. Muitos produtos feitos na China são resultado de engenharia reversa de empresas como a TI e por isso têm muitos desses defeitos. Até dentro da própria China eles fazem isso uns com os outros. Todo mundo entende isso como o mesmo tipo de gambiarra
    • Já vi um exemplo de projeto chamado OML 1.0: Fingerprinting. É uma ferramenta que insere impressões digitais em modelos para identificar propriedade de LLMs e impedir uso não autorizado
    • O youtuber Jay Foreman fez um vídeo sobre ruas falsas em mapas
    • No texto original de denúncia em chinês havia o seguinte: a análise do Honestagi se surpreendeu ao ver alta similaridade mesmo sendo um modelo que passou por treinamento adicional por muito tempo. Os recursos computacionais investidos para “lavar” os parâmetros desse modelo eram suficientes para criar do zero um modelo equivalente. Segundo colegas, também tentaram várias abordagens, como treinar deliberadamente com dados contaminados para apagar a marca-d'água do Qwen. Esse método ficará como um caso sem precedentes na pesquisa sobre linhagem de modelos e poderá servir de exemplo na validação de novas metodologias de pesquisa no futuro
  • A Apple apresentou um LLM baseado no Qwen2.5-Coder-7B, incorporando ideias próprias. A principal mudança foi o treinamento customizado com exemplos de código da própria Apple, e, ao aumentar a temperatura, ele consegue gerar vários blocos de código sem respeitar a ordem. Artigos relacionados: notícia sobre o LLM da Apple discussão no HN
  • Ênfase chinesa na eficiência. O Ocidente estaria preso às leis de direitos autorais do passado
  • É um relatório muito humano e sincero. Mostra o caos interno de uma grande empresa e uma estrutura em que a direção pressiona de forma mais favorável a equipe desonesta. O autor deixou a empresa e parece ser uma boa pessoa
    • Na verdade, esse relatório precisa ser entendido no contexto de outras cartas de demissão que vêm aparecendo recentemente na China. Um texto recente de despedida de um veterano de 15 anos da Alibaba também criticava o declínio da cultura corporativa nas grandes empresas como causa da perda de competitividade e do fracasso de novos produtos. Os pontos centrais do relatório são: 1. falsidade, em escala nacional, sobre as capacidades da Huawei 2. falsidade perante clientes pagantes 3. a realidade de um sistema de gestão obcecado por KPI, em que a manipulação de métricas é na prática tolerada ou incentivada (e a perda de ideais e de confiança do autor é o núcleo do relatório)
  • Há algo poético na frase: “sábado era basicamente um dia útil, mas às vezes havia chá da tarde ou até mesmo pratos de camarão”. Fico curioso se há algum motivo especial para servirem lagostim nessas circunstâncias
    • A hipótese é que “mesmo trabalhando aos sábados, às vezes saíam lanches, e talvez lagostim seja simplesmente popular, ou pode ser erro de tradução”
  • Fiquei intrigado com a explicação organizacional: “Estamos sob o projeto ‘Quarto Exército de Campo’; o LLM de linguagem central é a 4ª brigada, e o grupo de modelos pequenos de Wang Yunhe é a 16ª brigada”. Isso é realmente uma organização ligada ao exército do Partido Comunista?
    • O verdadeiro Quarto Exército de Campo deixou de existir depois de 1955, então provavelmente é só um nome ainda usado como codinome para projetos de LLM
    • Menciona-se a cultura corporativa militarizada da Huawei. Até a integração de novos funcionários funciona como uma cerimônia de formatura de treinamento militar. Material de referência: cultura militarizada da Huawei
  • Levanta-se a pergunta de quem realmente criou o modelo original
  • Houve no passado um caso de um membro de um laboratório da Huawei que de fato sabotou o treinamento de modelo e foi demitido, e há quem suspeite que seja a mesma pessoa da denúncia acima
    • Provavelmente o caso mencionado é o do estagiário da ByteDance que inseriu código malicioso em modelos de IA e foi demitido. Artigo relacionado: bytedance-intern-fired