Como a Meta treina modelos de linguagem de grande escala

(engineering.fb.com)

6 pontos por GN⁺ 2024-06-13 | 1 comentários | Compartilhar no WhatsApp

A Meta precisa de grande capacidade computacional para treinar modelos de linguagem de grande escala (LLMs)
O treinamento tradicional de modelos de IA envolvia muitos modelos, mas exigia um número relativamente pequeno de GPUs
Com o surgimento da IA generativa (GenAI), o número de tarefas diminuiu, mas passou a ser necessário executar trabalhos muito maiores

Confiabilidade do hardware: é necessário realizar testes rigorosos e controle de qualidade para minimizar interrupções no treinamento causadas por falhas de hardware.
Recuperação rápida em caso de falha: quando ocorre uma falha de hardware, é preciso recuperar rapidamente. É necessário reduzir a sobrecarga de reescalonamento e reinicializar o treinamento com rapidez.
Preservação eficiente do estado de treinamento: em caso de falha, é preciso salvar e restaurar o estado de treinamento com eficiência.
Conectividade ideal entre GPUs: no treinamento de modelos em grande escala, a transferência de dados entre GPUs é essencial. Para isso, são necessárias uma infraestrutura de rede de alta velocidade e protocolos eficientes de transferência de dados.

Dá suporte para que pesquisadores usem open source como PyTorch e passem rapidamente da pesquisa para a produção.
Desenvolve novos algoritmos e técnicas para treinamento em grande escala e integra novas ferramentas e frameworks de software.

Usa algoritmos complexos para otimizar recursos, alocando recursos conforme as necessidades das tarefas e realizando escalonamento dinâmico.

É necessário hardware de alto desempenho para lidar com o treinamento de modelos em grande escala.
Otimiza o hardware existente e modifica a plataforma Grand Teton com GPUs NVIDIA H100, aumentando o TDP das GPUs para 700W e migrando para HBM3.

Posiciona GPUs e sistemas de forma ideal no data center para otimizar recursos (energia, resfriamento, rede etc.).
Instala o maior número possível de racks de GPU para obter a máxima densidade computacional.

Estabelece planos de detecção e recuperação para minimizar o downtime em caso de falha de hardware.
Modos de falha frequentes: GPU não reconhecida, UCE de DRAM & SRAM, problemas em cabos de rede de hardware.

Para o treinamento de modelos em grande escala, são necessárias uma infraestrutura de rede de alta velocidade e protocolos eficientes de transferência de dados.
Construiu dois clusters de rede, RoCE e InfiniBand, aprendendo com a experiência operacional.

Investe em tecnologias de armazenamento de alta capacidade e alta velocidade para guardar grandes volumes de dados e desenvolve novas soluções de armazenamento adequadas a tarefas específicas.

Pretende processar mais dados usando centenas de milhares de GPUs e lidar com distâncias maiores e latências mais altas.
Planeja adotar novas tecnologias de hardware e arquiteturas de GPU, além de evoluir a infraestrutura.
Continuará explorando o cenário em evolução da IA e tentando ultrapassar os limites do possível.

1 comentários

GN⁺ 2024-06-13

Problema de conexão de GPU: Menciona um problema em que a GPU não é reconhecida no barramento PCIe.
Infraestrutura de resfriamento: Foi necessário alterar o projeto mecânico e térmico mantendo o ambiente existente de resfriamento a ar.
Restrição de tempo: As limitações de tempo afetaram a qualidade geral do modelo.
Função de busca da Meta: Há a opinião de que seria melhor a Meta melhorar a função de busca em vez de treinar um novo LLM.
Método de coleta de dados: Há curiosidade sobre como a Meta coleta e prepara os dados, especialmente como trata PII (informações de identificação pessoal).
Questão de custo: Menciona-se que LLMs podem ser inviáveis fora de aplicações em nuvem devido ao custo.
Construção de cluster: Foi impressionante a tentativa de construir dois clusters de 24k para aprender com a experiência operacional.
Agendamento de tarefas: Faltam informações específicas sobre como agendar tarefas em um grande conjunto de máquinas.
Monetização: Não está claro como a Meta pretende monetizar o uso de LLMs em grande escala.
Vantagem de IA do Google: Há a opinião de que o Google tem vantagem na área de IA graças a silício customizado.
Nome de domínio: É interessante que o domínio da Meta ainda seja engineering.fb.com.