6 pontos por GN⁺ 2024-06-13 | 1 comentários | Compartilhar no WhatsApp
  • A Meta precisa de grande capacidade computacional para treinar modelos de linguagem de grande escala (LLMs)
  • O treinamento tradicional de modelos de IA envolvia muitos modelos, mas exigia um número relativamente pequeno de GPUs
  • Com o surgimento da IA generativa (GenAI), o número de tarefas diminuiu, mas passou a ser necessário executar trabalhos muito maiores

Desafios do treinamento de modelos em grande escala

  • Confiabilidade do hardware: é necessário realizar testes rigorosos e controle de qualidade para minimizar interrupções no treinamento causadas por falhas de hardware.
  • Recuperação rápida em caso de falha: quando ocorre uma falha de hardware, é preciso recuperar rapidamente. É necessário reduzir a sobrecarga de reescalonamento e reinicializar o treinamento com rapidez.
  • Preservação eficiente do estado de treinamento: em caso de falha, é preciso salvar e restaurar o estado de treinamento com eficiência.
  • Conectividade ideal entre GPUs: no treinamento de modelos em grande escala, a transferência de dados entre GPUs é essencial. Para isso, são necessárias uma infraestrutura de rede de alta velocidade e protocolos eficientes de transferência de dados.

É importante melhorar todas as camadas da pilha de infraestrutura

Software de treinamento

  • Dá suporte para que pesquisadores usem open source como PyTorch e passem rapidamente da pesquisa para a produção.
  • Desenvolve novos algoritmos e técnicas para treinamento em grande escala e integra novas ferramentas e frameworks de software.

Escalonamento

  • Usa algoritmos complexos para otimizar recursos, alocando recursos conforme as necessidades das tarefas e realizando escalonamento dinâmico.

Hardware

  • É necessário hardware de alto desempenho para lidar com o treinamento de modelos em grande escala.
  • Otimiza o hardware existente e modifica a plataforma Grand Teton com GPUs NVIDIA H100, aumentando o TDP das GPUs para 700W e migrando para HBM3.

Implantação no data center

  • Posiciona GPUs e sistemas de forma ideal no data center para otimizar recursos (energia, resfriamento, rede etc.).
  • Instala o maior número possível de racks de GPU para obter a máxima densidade computacional.

Confiabilidade

  • Estabelece planos de detecção e recuperação para minimizar o downtime em caso de falha de hardware.
  • Modos de falha frequentes: GPU não reconhecida, UCE de DRAM & SRAM, problemas em cabos de rede de hardware.

Rede

  • Para o treinamento de modelos em grande escala, são necessárias uma infraestrutura de rede de alta velocidade e protocolos eficientes de transferência de dados.
  • Construiu dois clusters de rede, RoCE e InfiniBand, aprendendo com a experiência operacional.

Armazenamento

  • Investe em tecnologias de armazenamento de alta capacidade e alta velocidade para guardar grandes volumes de dados e desenvolve novas soluções de armazenamento adequadas a tarefas específicas.

Perspectivas futuras

  • Pretende processar mais dados usando centenas de milhares de GPUs e lidar com distâncias maiores e latências mais altas.
  • Planeja adotar novas tecnologias de hardware e arquiteturas de GPU, além de evoluir a infraestrutura.
  • Continuará explorando o cenário em evolução da IA e tentando ultrapassar os limites do possível.

1 comentários

 
GN⁺ 2024-06-13
Comentários no Hacker News
  • Problema de conexão de GPU: Menciona um problema em que a GPU não é reconhecida no barramento PCIe.
  • Infraestrutura de resfriamento: Foi necessário alterar o projeto mecânico e térmico mantendo o ambiente existente de resfriamento a ar.
  • Restrição de tempo: As limitações de tempo afetaram a qualidade geral do modelo.
  • Função de busca da Meta: Há a opinião de que seria melhor a Meta melhorar a função de busca em vez de treinar um novo LLM.
  • Método de coleta de dados: Há curiosidade sobre como a Meta coleta e prepara os dados, especialmente como trata PII (informações de identificação pessoal).
  • Questão de custo: Menciona-se que LLMs podem ser inviáveis fora de aplicações em nuvem devido ao custo.
  • Construção de cluster: Foi impressionante a tentativa de construir dois clusters de 24k para aprender com a experiência operacional.
  • Agendamento de tarefas: Faltam informações específicas sobre como agendar tarefas em um grande conjunto de máquinas.
  • Monetização: Não está claro como a Meta pretende monetizar o uso de LLMs em grande escala.
  • Vantagem de IA do Google: Há a opinião de que o Google tem vantagem na área de IA graças a silício customizado.
  • Nome de domínio: É interessante que o domínio da Meta ainda seja engineering.fb.com.