4 pontos por GN⁺ 2024-03-13 | 1 comentários | Compartilhar no WhatsApp
  • A Meta anunciou dois clusters com 24.576 GPUs como parte de um investimento importante para o futuro da IA
    • Compartilhou detalhes sobre hardware, rede, armazenamento, design, desempenho e software
    • Esse design de cluster foi usado no treinamento do Llama 3
  • A Meta está comprometida com open compute e open source
    • Constrói esses clusters com base em Grand Teton, OpenRack e PyTorch e continua impulsionando a inovação aberta em toda a indústria
  • Este anúncio é uma etapa de um roteiro de infraestrutura ambicioso
    • A empresa pretende continuar expandindo a infraestrutura, com foco em incluir 350.000 GPUs NVIDIA H100 como parte de um portfólio com capacidade computacional equivalente a quase 600.000 H100 até o fim de 2024

Insights sobre os grandes clusters de IA da Meta

  • A visão de longo prazo da Meta é criar uma inteligência artificial geral (AGI) aberta e construída com responsabilidade para que todos possam se beneficiar
  • O avanço em direção à AGI está criando novos produtos, novos recursos de IA em aplicativos e novos dispositivos de computação centrados em IA
  • A Meta tem uma longa história na construção de infraestrutura de IA e, em 2022, compartilhou pela primeira vez detalhes do Research SuperCluster (RSC), voltado à pesquisa em IA, com 16.000 GPUs NVIDIA A100

Estrutura interna

  • Os novos clusters de IA foram construídos com base nos sucessos e nas lições aprendidas com o RSC
  • Com foco na experiência e na produtividade de pesquisadores e desenvolvedores, eles oferecem suporte a modelos maiores e mais complexos por meio da eficiência de uma malha de rede de alto desempenho e de decisões importantes de armazenamento

Rede

  • A Meta processa dezenas de trilhões de execuções de modelos de IA por dia
  • Para oferecer serviços em larga escala, é necessária uma infraestrutura altamente avançada e flexível
  • A Meta projeta sob medida seu próprio hardware, software e network fabric para otimizar a experiência dos pesquisadores de IA e garantir a operação eficiente dos data centers

Computação

  • Os dois clusters foram construídos usando Grand Teton, a plataforma aberta de hardware para GPU projetada internamente pela Meta
  • O Grand Teton integra energia, controle, computação e interfaces de fabric em um único chassi, melhorando o desempenho geral, a integridade do sinal e o desempenho térmico

Armazenamento

  • Em treinamento de IA, o armazenamento desempenha um papel crítico, embora seja um dos aspectos menos mencionados
  • A Meta otimizou uma versão da sua solução distribuída de armazenamento Tectonic para mídia flash
    • Por meio de sua API FUSE (Linux Filesystem in Userspace), desenvolvida internamente, ela atende às exigências de dados e checkpointing dos clusters de IA
    • Milhares de GPUs podem salvar e carregar checkpoints de forma sincronizada, ao mesmo tempo em que o sistema fornece armazenamento em escala de exabytes, flexível e com alta vazão, necessário para o carregamento de dados
  • Em parceria com a Hammerspace, co-desenvolveu uma implantação de sistema de arquivos de rede paralelo (NFS)

Desempenho

  • Ao construir clusters de IA em larga escala, um princípio importante é maximizar ao mesmo tempo o desempenho e a facilidade de uso
  • A melhor forma de testar a capacidade de escala de um projeto enquanto se expandem os limites dos sistemas de IA é simplesmente construir o sistema, otimizá-lo e testá-lo na prática
  • A Meta testa a escalabilidade de seus projetos construindo, otimizando e validando os sistemas em condições reais
  • A empresa continua evoluindo o PyTorch, framework base de IA que suporta cargas de trabalho de IA, para prepará-lo para treinamentos com dezenas e até centenas de milhares de GPUs

Compromisso com a inovação aberta em IA

  • A Meta mantém seu compromisso com a inovação aberta em software e hardware de IA
  • Como membro fundador da OCP, continua apoiando a inovação aberta em hardware e oferece ao ecossistema da OCP designs como Grand Teton e Open Rack
  • Também é a maior e principal contribuidora do PyTorch, framework de software de IA que sustenta grande parte da indústria
  • Hardware e software open source são vistos como ferramentas importantes para ajudar a resolver problemas em larga escala

O futuro da infraestrutura de IA da Meta

  • Esses dois designs de clusters de treinamento de IA fazem parte de um roteiro maior para o futuro da IA
  • A Meta planeja continuar expandindo sua infraestrutura para incluir 350.000 NVIDIA H100 como parte de um portfólio com capacidade computacional equivalente a 600.000 H100 até o fim de 2024

Opinião do GN⁺

  • O cluster de 24k GPUs anunciado pela Meta representa um avanço importante para pesquisa e desenvolvimento em IA, especialmente por fornecer os poderosos recursos computacionais necessários para o treinamento de modelos de IA em larga escala
  • Essa infraestrutura cria a base para que pesquisadores desenvolvam soluções de IA ainda mais inovadoras à medida que a complexidade e o tamanho dos modelos continuam crescendo
  • O compromisso da Meta com open source e open compute pode impulsionar a inovação em toda a indústria e ajudar outras organizações a usar essas tecnologias para desenvolver suas próprias soluções de IA
  • No entanto, clusters desse porte também exigem considerar o impacto ambiental associado ao enorme consumo de energia, o que pode se tornar um ponto importante em termos de sustentabilidade
  • Esse anúncio da Meta oferece uma visão interessante sobre o futuro da tecnologia de IA e uma oportunidade para refletir mais profundamente sobre o impacto do avanço da IA na sociedade e na indústria

1 comentários

 
GN⁺ 2024-03-13
Comentários do Hacker News
  • Menção a float8 e aumento de FLOPs

    • O float8 foi mencionado e, com isso, os FLOPs dobram.
    • O xformers agora suporta esparsidade 2:4, o que pode dobrar os FLOPs mais uma vez.
    • O Llama3 também pode usar float8 e esparsidade 2:4 no MLP para alcançar 4x os FLOPs de float16 do H100.
    • O PyTorch oferece suporte experimental a fp8, mas ainda é complicado fazer attention em float8 por causa de problemas de precisão.
    • Provavelmente o attention pode ficar em float16, RoPE/layernorms em float16/float32, e todo o restante em float8.
  • Comparação entre a era das ponto com e a era da IA

    • Uma pessoa que viveu a era das ponto com se sente um tanto desanimada com a era da IA por causa do enorme custo de capital para treinar modelos.
    • No começo da era das ponto com, qualquer um podia iniciar um site de e-commerce com custos de infraestrutura relativamente baixos.
    • Hoje, parece que apenas empresas de grande porte como Meta, Google, Microsoft e OpenAI conseguem construir modelos de IA.
  • Relação entre poder computacional e tempo de engenharia

    • Há curiosidade sobre se, caso o Facebook pudesse aumentar seu poder computacional em 10x, seria necessário redesenhar toda a stack, e o que aconteceria em 100x.
    • Fica a dúvida se cada redesenho seria uma mudança simples ou um trabalho muito mais complexo.
    • Como o entendimento técnico sobre o interior do cluster é superficial, há curiosidade sobre a opinião de quem já teve esse tipo de experiência.
  • Interesse em trabalho de otimização de pipeline

    • Há uma pergunta sobre como começar para quem quer participar de trabalho de otimização de pipeline.
    • A curiosidade é se isso envolve um cientista de machine learning com conhecimento de C/C++ e infraestrutura, que "desce" para o nível de sistemas quando necessário, ou um especialista em CUDA/SIMD que "sobe" para trabalhar com machine learning.
  • Capacidade de engenharia da Meta

    • A Meta mostra resultados fortes em engenharia apesar das pressões negativas.
    • Há dúvida sobre como a Meta pretende monetizar essa capacidade de engenharia.
  • Perspectiva histórica sobre engenharia e infraestrutura

    • Há menção ao artigo do DLRM e aos primeiros racks desagregados e SDN do Facebook.
    • Já em 2018, eles colocavam SSD e DRAM em outras partes do rack enquanto usavam grandes redes neurais para sistemas de recomendação e ranking.
    • Há menção a modelos de previsão de clique e surpresa com o método de treinamento HOGWILD usando Intel AVX-2.
    • Isso reforça que a Meta ainda tem uma das melhores capacidades em projeto de infraestrutura e design de SKU.
  • Possibilidade de a Meta competir em workloads de IA

    • Há curiosidade sobre a possibilidade de a Meta competir com AWS, MSFT e GOOG na área de workloads de IA.
  • Custo das GPUs H100

    • Há uma estimativa sobre quanto a Meta paga pelas GPUs H100.
    • Se comprar 350.000 NVIDIA H100 por $10k cada, o custo total seria de $3.5b.
  • Postura aberta da Meta em relação à inovação em IA

    • Há a percepção de que a Meta demonstra uma postura aberta em relação à inovação em IA.
  • Visão de longo prazo da Meta e AGI

    • A visão de longo prazo da Meta é construir inteligência artificial geral (AGI).