- A Meta anunciou dois clusters com 24.576 GPUs como parte de um investimento importante para o futuro da IA
- Compartilhou detalhes sobre hardware, rede, armazenamento, design, desempenho e software
- Esse design de cluster foi usado no treinamento do Llama 3
- A Meta está comprometida com open compute e open source
- Constrói esses clusters com base em Grand Teton, OpenRack e PyTorch e continua impulsionando a inovação aberta em toda a indústria
- Este anúncio é uma etapa de um roteiro de infraestrutura ambicioso
- A empresa pretende continuar expandindo a infraestrutura, com foco em incluir 350.000 GPUs NVIDIA H100 como parte de um portfólio com capacidade computacional equivalente a quase 600.000 H100 até o fim de 2024
Insights sobre os grandes clusters de IA da Meta
- A visão de longo prazo da Meta é criar uma inteligência artificial geral (AGI) aberta e construída com responsabilidade para que todos possam se beneficiar
- O avanço em direção à AGI está criando novos produtos, novos recursos de IA em aplicativos e novos dispositivos de computação centrados em IA
- A Meta tem uma longa história na construção de infraestrutura de IA e, em 2022, compartilhou pela primeira vez detalhes do Research SuperCluster (RSC), voltado à pesquisa em IA, com 16.000 GPUs NVIDIA A100
Estrutura interna
- Os novos clusters de IA foram construídos com base nos sucessos e nas lições aprendidas com o RSC
- Com foco na experiência e na produtividade de pesquisadores e desenvolvedores, eles oferecem suporte a modelos maiores e mais complexos por meio da eficiência de uma malha de rede de alto desempenho e de decisões importantes de armazenamento
Rede
- A Meta processa dezenas de trilhões de execuções de modelos de IA por dia
- Para oferecer serviços em larga escala, é necessária uma infraestrutura altamente avançada e flexível
- A Meta projeta sob medida seu próprio hardware, software e network fabric para otimizar a experiência dos pesquisadores de IA e garantir a operação eficiente dos data centers
Computação
- Os dois clusters foram construídos usando Grand Teton, a plataforma aberta de hardware para GPU projetada internamente pela Meta
- O Grand Teton integra energia, controle, computação e interfaces de fabric em um único chassi, melhorando o desempenho geral, a integridade do sinal e o desempenho térmico
Armazenamento
- Em treinamento de IA, o armazenamento desempenha um papel crítico, embora seja um dos aspectos menos mencionados
- A Meta otimizou uma versão da sua solução distribuída de armazenamento
Tectonic para mídia flash
- Por meio de sua API FUSE (Linux Filesystem in Userspace), desenvolvida internamente, ela atende às exigências de dados e checkpointing dos clusters de IA
- Milhares de GPUs podem salvar e carregar checkpoints de forma sincronizada, ao mesmo tempo em que o sistema fornece armazenamento em escala de exabytes, flexível e com alta vazão, necessário para o carregamento de dados
- Em parceria com a Hammerspace, co-desenvolveu uma implantação de sistema de arquivos de rede paralelo (NFS)
Desempenho
- Ao construir clusters de IA em larga escala, um princípio importante é maximizar ao mesmo tempo o desempenho e a facilidade de uso
- A melhor forma de testar a capacidade de escala de um projeto enquanto se expandem os limites dos sistemas de IA é simplesmente construir o sistema, otimizá-lo e testá-lo na prática
- A Meta testa a escalabilidade de seus projetos construindo, otimizando e validando os sistemas em condições reais
- A empresa continua evoluindo o PyTorch, framework base de IA que suporta cargas de trabalho de IA, para prepará-lo para treinamentos com dezenas e até centenas de milhares de GPUs
Compromisso com a inovação aberta em IA
- A Meta mantém seu compromisso com a inovação aberta em software e hardware de IA
- Como membro fundador da OCP, continua apoiando a inovação aberta em hardware e oferece ao ecossistema da OCP designs como Grand Teton e Open Rack
- Também é a maior e principal contribuidora do PyTorch, framework de software de IA que sustenta grande parte da indústria
- Hardware e software open source são vistos como ferramentas importantes para ajudar a resolver problemas em larga escala
O futuro da infraestrutura de IA da Meta
- Esses dois designs de clusters de treinamento de IA fazem parte de um roteiro maior para o futuro da IA
- A Meta planeja continuar expandindo sua infraestrutura para incluir 350.000 NVIDIA H100 como parte de um portfólio com capacidade computacional equivalente a 600.000 H100 até o fim de 2024
Opinião do GN⁺
- O cluster de 24k GPUs anunciado pela Meta representa um avanço importante para pesquisa e desenvolvimento em IA, especialmente por fornecer os poderosos recursos computacionais necessários para o treinamento de modelos de IA em larga escala
- Essa infraestrutura cria a base para que pesquisadores desenvolvam soluções de IA ainda mais inovadoras à medida que a complexidade e o tamanho dos modelos continuam crescendo
- O compromisso da Meta com open source e open compute pode impulsionar a inovação em toda a indústria e ajudar outras organizações a usar essas tecnologias para desenvolver suas próprias soluções de IA
- No entanto, clusters desse porte também exigem considerar o impacto ambiental associado ao enorme consumo de energia, o que pode se tornar um ponto importante em termos de sustentabilidade
- Esse anúncio da Meta oferece uma visão interessante sobre o futuro da tecnologia de IA e uma oportunidade para refletir mais profundamente sobre o impacto do avanço da IA na sociedade e na indústria
1 comentários
Comentários do Hacker News
Menção a float8 e aumento de FLOPs
Comparação entre a era das ponto com e a era da IA
Relação entre poder computacional e tempo de engenharia
Interesse em trabalho de otimização de pipeline
Capacidade de engenharia da Meta
Perspectiva histórica sobre engenharia e infraestrutura
Possibilidade de a Meta competir em workloads de IA
Custo das GPUs H100
Postura aberta da Meta em relação à inovação em IA
Visão de longo prazo da Meta e AGI