6 pontos por GN⁺ 2024-10-18 | 1 comentários | Compartilhar no WhatsApp

Meta revela seus designs mais recentes de hardware de IA no Open Compute Project (OCP) Global Summit 2024

  • Apresentou uma vitrine de inovaões como nova plataforma de IA, design aberto de rack de ponta, fabric e componentes avançados de rede
  • Ao compartilhar os designs, busca incentivar a colaboração e acelerar a inovação

Inovação em modelagem de IA e avanços de infraestrutura da Meta

  • Ao longo de vários anos, a Meta vem otimizando e aprimorando funcionalidades como os sistemas de feed e anúncios por meio de inovações em modelagem de IA
  • À medida que desenvolve e lança modelos de IA novos e mais avançados, também está focada em evoluir a infraestrutura para dar suporte a novas cargas de trabalho de IA
  • Por exemplo, para treinar o modelo Llama 3.1 405B, realizou otimizações significativas em toda a stack de treinamento, permitindo operá-lo em mais de 16.000 GPUs NVIDIA H100
  • Durante 2023, expandiu rapidamente o cluster de treinamento de 1K para 16K GPUs, e atualmente está treinando modelos em um cluster de 24K GPUs
  • Espera-se que a quantidade de computação necessária para treinamento de IA continue crescendo de forma significativa

A importância de rede e largura de banda na construção de clusters de IA

  • Além das GPUs, rede e largura de banda desempenham um papel crucial para garantir o desempenho do cluster
  • O sistema da Meta é composto por sistemas de computação HPC e uma rede de computação de alta largura de banda que conecta GPUs e aceleradores especializados por domínio
  • No futuro, espera-se um aumento da largura de banda de injeção por acelerador para o nível de terabytes por segundo, o que representa um crescimento de mais de 10 vezes em relação às redes atuais
  • Para sustentar isso, é necessário um fabric de rede de alto desempenho, multicamadas e sem bloqueio, permitindo aproveitar ao máximo o potencial dos clusters de IA

Garantindo escalabilidade de IA com hardware aberto

  • Para escalar a IA nesse ritmo, são necessárias soluções de hardware aberto
  • Desenvolver novas arquiteturas, fabrics de rede e designs de sistema com base no princípio da abertura é a abordagem mais eficiente e de maior impacto
  • Ao investir em hardware aberto, é possível extrair todo o potencial da IA e impulsionar a inovação contínua na área

Apresentação da arquitetura aberta "Catalina" para infraestrutura de IA

  • A Meta anunciou à comunidade OCP o lançamento planejado do Catalina, um rack de alto desempenho para cargas de trabalho de IA
  • O Catalina é baseado em uma solução de rack em escala completa da plataforma NVIDIA Blackwell, com foco em modularidade e flexibilidade
  • Foi projetado para oferecer suporte ao mais recente superchip NVIDIA GB200 Grace Blackwell, atendendo às crescentes exigências da infraestrutura moderna de IA
  • Com o aumento das exigências de energia das GPUs, soluções Open Rack precisam suportar capacidades elétricas mais altas
  • No Catalina, foi introduzido o rack de alta potência Orv3 (HPR), capaz de suportar até 140kW
  • A solução é totalmente refrigerada a líquido e composta por vários componentes
  • O design modular do Catalina permite personalizar o rack de acordo com cargas de trabalho específicas de IA

Suporte a aceleradores AMD na plataforma Grand Teton

  • Grand Teton é a plataforma de IA de próxima geração da Meta, projetada para atender tanto às demandas de cargas limitadas por largura de banda de memória quanto às de cargas limitadas por computação
  • Agora, a plataforma Grand Teton foi expandida para suportar o AMD Instinct MI300X, e essa nova versão será doada ao OCP
  • Assim como a versão anterior, o Grand Teton apresenta um design de sistema monolítico único, com energia, controle, computação e interfaces de fabric totalmente integrados
  • Além de suportar diversos designs de aceleradores, incluindo o AMD Instinct MI300x, também oferece maior capacidade de computação, memória ampliada e maior largura de banda de rede

Fabric aberto desagregado e agendado (DSF, Disaggregated Scheduled Fabric)

  • Para continuar melhorando o desempenho dos clusters de treinamento de IA, o desenvolvimento de um backend de rede aberto e neutro em relação a fornecedores terá papel fundamental
  • Ao desagregar a rede, é possível colaborar com fornecedores de toda a indústria para projetar sistemas inovadores, escaláveis, flexíveis e eficientes
  • O novo DSF para os clusters de IA de próxima geração da Meta oferece várias vantagens em comparação com switches tradicionais
  • O DSF é impulsionado pelo padrão aberto OCP-SAI e pelo sistema operacional de rede próprio da Meta, o FBOSS
  • Suporta interfaces RoCE abertas e padronizadas, baseadas em Ethernet, para endpoints e aceleradores em várias GPUs e NICs de diversos fornecedores, como NVIDIA, Broadcom e AMD
  • Além do DSF, a Meta desenvolveu e implantou um novo switch de fabric 51T baseado em ASICs da Broadcom e da Cisco, e está compartilhando um novo módulo NIC chamado FBNIC, que inclui o primeiro ASIC de rede projetado internamente pela Meta

Cooperação entre Meta e Microsoft para impulsionar inovação aberta

  • Meta e Microsoft mantêm uma longa parceria dentro do OCP, iniciada em 2018 com o desenvolvimento da Switch Abstraction Interface (SAI) para data centers
  • Têm contribuído para iniciativas importantes, como o padrão Open Accelerator Module (OAM) e a padronização de SSDs
  • Atualmente, a colaboração entre as duas empresas está focada no Mount Diablo, um novo rack de energia desagregado
  • Mount Diablo é uma solução de ponta com unidades escaláveis de 400VDC, que aumentam eficiência e escalabilidade e representam um grande avanço para a infraestrutura de IA

O futuro aberto da infraestrutura de IA

  • A Meta está comprometida com IA open source e acredita que o open source levará os benefícios e as oportunidades da IA às mãos de pessoas no mundo todo
  • Sem colaboração, a IA não conseguirá realizar todo o seu potencial
  • Frameworks abertos de software são necessários para impulsionar a inovação em modelos, garantir portabilidade e promover transparência no desenvolvimento de IA
  • É preciso priorizar modelos abertos e padronizados para aproveitar a expertise coletiva, tornar a IA mais acessível e minimizar vieses nos sistemas
  • Sistemas abertos de hardware para IA também são necessários para oferecer a infraestrutura de alto desempenho, custo-efetiva e adaptável exigida pelos avanços em IA
  • A Meta incentiva qualquer pessoa que queira contribuir para o futuro desenvolvimento de sistemas de hardware de IA a participar da comunidade OCP
  • Ao resolver juntos os requisitos de infraestrutura da IA, será possível concretizar a verdadeira promessa de uma IA aberta para todos

Opinião do GN⁺

  • Com tecnologia de rede aberta cobrindo vários fornecedores de GPUs e NICs, é possível superar a dependência de fornecedores e aumentar a escalabilidade e a flexibilidade dos clusters de treinamento de IA
  • A colaboração entre Meta e Microsoft pode desempenhar um papel central na aceleração da inovação em infraestrutura aberta de IA. Com base na longa parceria construída via OCP, espera-se que as duas empresas acelerem o desenvolvimento de novos padrões e soluções
  • O forte apoio da Meta à IA open source é animador. O open source é justamente o caminho para democratizar o potencial da IA e ampliar suas oportunidades por toda a sociedade
  • No processo de construção de infraestrutura aberta de IA, também será necessário tratar de transparência, explicabilidade e considerações éticas. Construir confiança social em IA é tão importante quanto o avanço tecnológico
  • Para que os ecossistemas de hardware e software de IA cresçam juntos, é indispensável a colaboração de toda a indústria, bem como a participação de diversos stakeholders, como academia e formuladores de políticas públicas. Espera-se que o OCP se torne uma plataforma central para isso

1 comentários

 
GN⁺ 2024-10-18
Comentários do Hacker News
  • Há quem veja a competição entre OpenAI e Meta AI como uma disputa de plataformas, como macOS vs Windows e iOS vs Android

    • Observa-se que a Meta tende a abrir a plataforma para ganhar participação de mercado
    • Levanta-se a dúvida se a Meta continuará mantendo a plataforma aberta caso vença
  • Zuckerberg e o Facebook recebem muitas críticas, mas investem bastante em engenharia e open source

  • A Meta usou mais de 16.000 GPUs NVIDIA H100 para treinar o modelo Llama 3.1 405B, o que representa um investimento em larga escala

    • Menciona-se que as ações da Meta subiram fortemente após o lançamento dos modelos open source
  • Há a opinião de que o LLM open source da Meta será atraente para muitos usuários

    • OpenAI e Anthropic podem acabar discutindo modelos abertos
  • Questiona-se se Meta, Microsoft e OpenAI poderiam cooperar em designs abertos de chips para competir com a NVIDIA

  • Menciona-se a possibilidade de a Meta construir data centers de IA ao lado de locais de geração de energia, como usinas de fusão nuclear

    • Citando a opinião de Yann LeCun, explica-se que usar eletricidade sustentável e de baixo custo seria uma vantagem
  • Levanta-se a dúvida se a Meta, depois da OpenAI, também está mirando a NVIDIA

  • Menciona-se que o conceito de "Open" agora virou um meme