A construção da infraestrutura de GenAI da Meta

(engineering.fb.com)

4 pontos por GN⁺ 2024-03-13 | 1 comentários | Compartilhar no WhatsApp

A Meta anunciou dois clusters com 24.576 GPUs como parte de um investimento importante para o futuro da IA
- Compartilhou detalhes sobre hardware, rede, armazenamento, design, desempenho e software
- Esse design de cluster foi usado no treinamento do Llama 3
A Meta está comprometida com open compute e open source
- Constrói esses clusters com base em Grand Teton, OpenRack e PyTorch e continua impulsionando a inovação aberta em toda a indústria
Este anúncio é uma etapa de um roteiro de infraestrutura ambicioso
- A empresa pretende continuar expandindo a infraestrutura, com foco em incluir 350.000 GPUs NVIDIA H100 como parte de um portfólio com capacidade computacional equivalente a quase 600.000 H100 até o fim de 2024

Insights sobre os grandes clusters de IA da Meta

A visão de longo prazo da Meta é criar uma inteligência artificial geral (AGI) aberta e construída com responsabilidade para que todos possam se beneficiar
O avanço em direção à AGI está criando novos produtos, novos recursos de IA em aplicativos e novos dispositivos de computação centrados em IA
A Meta tem uma longa história na construção de infraestrutura de IA e, em 2022, compartilhou pela primeira vez detalhes do Research SuperCluster (RSC), voltado à pesquisa em IA, com 16.000 GPUs NVIDIA A100

Estrutura interna

Os novos clusters de IA foram construídos com base nos sucessos e nas lições aprendidas com o RSC
Com foco na experiência e na produtividade de pesquisadores e desenvolvedores, eles oferecem suporte a modelos maiores e mais complexos por meio da eficiência de uma malha de rede de alto desempenho e de decisões importantes de armazenamento

Rede

A Meta processa dezenas de trilhões de execuções de modelos de IA por dia
Para oferecer serviços em larga escala, é necessária uma infraestrutura altamente avançada e flexível
A Meta projeta sob medida seu próprio hardware, software e network fabric para otimizar a experiência dos pesquisadores de IA e garantir a operação eficiente dos data centers

Computação

Os dois clusters foram construídos usando Grand Teton, a plataforma aberta de hardware para GPU projetada internamente pela Meta
O Grand Teton integra energia, controle, computação e interfaces de fabric em um único chassi, melhorando o desempenho geral, a integridade do sinal e o desempenho térmico

Armazenamento

Em treinamento de IA, o armazenamento desempenha um papel crítico, embora seja um dos aspectos menos mencionados
A Meta otimizou uma versão da sua solução distribuída de armazenamento Tectonic para mídia flash
- Por meio de sua API FUSE (Linux Filesystem in Userspace), desenvolvida internamente, ela atende às exigências de dados e checkpointing dos clusters de IA
- Milhares de GPUs podem salvar e carregar checkpoints de forma sincronizada, ao mesmo tempo em que o sistema fornece armazenamento em escala de exabytes, flexível e com alta vazão, necessário para o carregamento de dados
Em parceria com a Hammerspace, co-desenvolveu uma implantação de sistema de arquivos de rede paralelo (NFS)

Desempenho

Ao construir clusters de IA em larga escala, um princípio importante é maximizar ao mesmo tempo o desempenho e a facilidade de uso
A melhor forma de testar a capacidade de escala de um projeto enquanto se expandem os limites dos sistemas de IA é simplesmente construir o sistema, otimizá-lo e testá-lo na prática
A Meta testa a escalabilidade de seus projetos construindo, otimizando e validando os sistemas em condições reais
A empresa continua evoluindo o PyTorch, framework base de IA que suporta cargas de trabalho de IA, para prepará-lo para treinamentos com dezenas e até centenas de milhares de GPUs

Compromisso com a inovação aberta em IA

A Meta mantém seu compromisso com a inovação aberta em software e hardware de IA
Como membro fundador da OCP, continua apoiando a inovação aberta em hardware e oferece ao ecossistema da OCP designs como Grand Teton e Open Rack
Também é a maior e principal contribuidora do PyTorch, framework de software de IA que sustenta grande parte da indústria
Hardware e software open source são vistos como ferramentas importantes para ajudar a resolver problemas em larga escala

O futuro da infraestrutura de IA da Meta

Esses dois designs de clusters de treinamento de IA fazem parte de um roteiro maior para o futuro da IA
A Meta planeja continuar expandindo sua infraestrutura para incluir 350.000 NVIDIA H100 como parte de um portfólio com capacidade computacional equivalente a 600.000 H100 até o fim de 2024

Opinião do GN⁺

O cluster de 24k GPUs anunciado pela Meta representa um avanço importante para pesquisa e desenvolvimento em IA, especialmente por fornecer os poderosos recursos computacionais necessários para o treinamento de modelos de IA em larga escala
Essa infraestrutura cria a base para que pesquisadores desenvolvam soluções de IA ainda mais inovadoras à medida que a complexidade e o tamanho dos modelos continuam crescendo
O compromisso da Meta com open source e open compute pode impulsionar a inovação em toda a indústria e ajudar outras organizações a usar essas tecnologias para desenvolver suas próprias soluções de IA
No entanto, clusters desse porte também exigem considerar o impacto ambiental associado ao enorme consumo de energia, o que pode se tornar um ponto importante em termos de sustentabilidade
Esse anúncio da Meta oferece uma visão interessante sobre o futuro da tecnologia de IA e uma oportunidade para refletir mais profundamente sobre o impacto do avanço da IA na sociedade e na indústria

1 comentários

GN⁺ 2024-03-13

Comentários do Hacker News

Menção a float8 e aumento de FLOPs
- O float8 foi mencionado e, com isso, os FLOPs dobram.
- O xformers agora suporta esparsidade 2:4, o que pode dobrar os FLOPs mais uma vez.
- O Llama3 também pode usar float8 e esparsidade 2:4 no MLP para alcançar 4x os FLOPs de float16 do H100.
- O PyTorch oferece suporte experimental a fp8, mas ainda é complicado fazer attention em float8 por causa de problemas de precisão.
- Provavelmente o attention pode ficar em float16, RoPE/layernorms em float16/float32, e todo o restante em float8.
Comparação entre a era das ponto com e a era da IA
- Uma pessoa que viveu a era das ponto com se sente um tanto desanimada com a era da IA por causa do enorme custo de capital para treinar modelos.
- No começo da era das ponto com, qualquer um podia iniciar um site de e-commerce com custos de infraestrutura relativamente baixos.
- Hoje, parece que apenas empresas de grande porte como Meta, Google, Microsoft e OpenAI conseguem construir modelos de IA.
Relação entre poder computacional e tempo de engenharia
- Há curiosidade sobre se, caso o Facebook pudesse aumentar seu poder computacional em 10x, seria necessário redesenhar toda a stack, e o que aconteceria em 100x.
- Fica a dúvida se cada redesenho seria uma mudança simples ou um trabalho muito mais complexo.
- Como o entendimento técnico sobre o interior do cluster é superficial, há curiosidade sobre a opinião de quem já teve esse tipo de experiência.
Interesse em trabalho de otimização de pipeline
- Há uma pergunta sobre como começar para quem quer participar de trabalho de otimização de pipeline.
- A curiosidade é se isso envolve um cientista de machine learning com conhecimento de C/C++ e infraestrutura, que "desce" para o nível de sistemas quando necessário, ou um especialista em CUDA/SIMD que "sobe" para trabalhar com machine learning.
Capacidade de engenharia da Meta
- A Meta mostra resultados fortes em engenharia apesar das pressões negativas.
- Há dúvida sobre como a Meta pretende monetizar essa capacidade de engenharia.
Perspectiva histórica sobre engenharia e infraestrutura
- Há menção ao artigo do DLRM e aos primeiros racks desagregados e SDN do Facebook.
- Já em 2018, eles colocavam SSD e DRAM em outras partes do rack enquanto usavam grandes redes neurais para sistemas de recomendação e ranking.
- Há menção a modelos de previsão de clique e surpresa com o método de treinamento HOGWILD usando Intel AVX-2.
- Isso reforça que a Meta ainda tem uma das melhores capacidades em projeto de infraestrutura e design de SKU.
Possibilidade de a Meta competir em workloads de IA
- Há curiosidade sobre a possibilidade de a Meta competir com AWS, MSFT e GOOG na área de workloads de IA.
Custo das GPUs H100
- Há uma estimativa sobre quanto a Meta paga pelas GPUs H100.
- Se comprar 350.000 NVIDIA H100 por $10k cada, o custo total seria de $3.5b.
Postura aberta da Meta em relação à inovação em IA
- Há a percepção de que a Meta demonstra uma postura aberta em relação à inovação em IA.
Visão de longo prazo da Meta e AGI
- A visão de longo prazo da Meta é construir inteligência artificial geral (AGI).

A construção da infraestrutura de GenAI da Meta

Insights sobre os grandes clusters de IA da Meta

Estrutura interna

Rede

Computação

Armazenamento

Desempenho

Compromisso com a inovação aberta em IA

O futuro da infraestrutura de IA da Meta

Opinião do GN⁺

Leituras relacionadas

1 comentários

Comentários do Hacker News