Meta revela seus designs mais recentes de hardware de IA no Open Compute Project (OCP) Global Summit 2024
- Apresentou uma vitrine de inovaões como nova plataforma de IA, design aberto de rack de ponta, fabric e componentes avançados de rede
- Ao compartilhar os designs, busca incentivar a colaboração e acelerar a inovação
Inovação em modelagem de IA e avanços de infraestrutura da Meta
- Ao longo de vários anos, a Meta vem otimizando e aprimorando funcionalidades como os sistemas de feed e anúncios por meio de inovações em modelagem de IA
- À medida que desenvolve e lança modelos de IA novos e mais avançados, também está focada em evoluir a infraestrutura para dar suporte a novas cargas de trabalho de IA
- Por exemplo, para treinar o modelo Llama 3.1 405B, realizou otimizações significativas em toda a stack de treinamento, permitindo operá-lo em mais de 16.000 GPUs NVIDIA H100
- Durante 2023, expandiu rapidamente o cluster de treinamento de 1K para 16K GPUs, e atualmente está treinando modelos em um cluster de 24K GPUs
- Espera-se que a quantidade de computação necessária para treinamento de IA continue crescendo de forma significativa
A importância de rede e largura de banda na construção de clusters de IA
- Além das GPUs, rede e largura de banda desempenham um papel crucial para garantir o desempenho do cluster
- O sistema da Meta é composto por sistemas de computação HPC e uma rede de computação de alta largura de banda que conecta GPUs e aceleradores especializados por domínio
- No futuro, espera-se um aumento da largura de banda de injeção por acelerador para o nível de terabytes por segundo, o que representa um crescimento de mais de 10 vezes em relação às redes atuais
- Para sustentar isso, é necessário um fabric de rede de alto desempenho, multicamadas e sem bloqueio, permitindo aproveitar ao máximo o potencial dos clusters de IA
Garantindo escalabilidade de IA com hardware aberto
- Para escalar a IA nesse ritmo, são necessárias soluções de hardware aberto
- Desenvolver novas arquiteturas, fabrics de rede e designs de sistema com base no princípio da abertura é a abordagem mais eficiente e de maior impacto
- Ao investir em hardware aberto, é possível extrair todo o potencial da IA e impulsionar a inovação contínua na área
Apresentação da arquitetura aberta "Catalina" para infraestrutura de IA
- A Meta anunciou à comunidade OCP o lançamento planejado do Catalina, um rack de alto desempenho para cargas de trabalho de IA
- O Catalina é baseado em uma solução de rack em escala completa da plataforma NVIDIA Blackwell, com foco em modularidade e flexibilidade
- Foi projetado para oferecer suporte ao mais recente superchip NVIDIA GB200 Grace Blackwell, atendendo às crescentes exigências da infraestrutura moderna de IA
- Com o aumento das exigências de energia das GPUs, soluções Open Rack precisam suportar capacidades elétricas mais altas
- No Catalina, foi introduzido o rack de alta potência Orv3 (HPR), capaz de suportar até 140kW
- A solução é totalmente refrigerada a líquido e composta por vários componentes
- O design modular do Catalina permite personalizar o rack de acordo com cargas de trabalho específicas de IA
Suporte a aceleradores AMD na plataforma Grand Teton
- Grand Teton é a plataforma de IA de próxima geração da Meta, projetada para atender tanto às demandas de cargas limitadas por largura de banda de memória quanto às de cargas limitadas por computação
- Agora, a plataforma Grand Teton foi expandida para suportar o AMD Instinct MI300X, e essa nova versão será doada ao OCP
- Assim como a versão anterior, o Grand Teton apresenta um design de sistema monolítico único, com energia, controle, computação e interfaces de fabric totalmente integrados
- Além de suportar diversos designs de aceleradores, incluindo o AMD Instinct MI300x, também oferece maior capacidade de computação, memória ampliada e maior largura de banda de rede
Fabric aberto desagregado e agendado (DSF, Disaggregated Scheduled Fabric)
- Para continuar melhorando o desempenho dos clusters de treinamento de IA, o desenvolvimento de um backend de rede aberto e neutro em relação a fornecedores terá papel fundamental
- Ao desagregar a rede, é possível colaborar com fornecedores de toda a indústria para projetar sistemas inovadores, escaláveis, flexíveis e eficientes
- O novo DSF para os clusters de IA de próxima geração da Meta oferece várias vantagens em comparação com switches tradicionais
- O DSF é impulsionado pelo padrão aberto OCP-SAI e pelo sistema operacional de rede próprio da Meta, o FBOSS
- Suporta interfaces RoCE abertas e padronizadas, baseadas em Ethernet, para endpoints e aceleradores em várias GPUs e NICs de diversos fornecedores, como NVIDIA, Broadcom e AMD
- Além do DSF, a Meta desenvolveu e implantou um novo switch de fabric 51T baseado em ASICs da Broadcom e da Cisco, e está compartilhando um novo módulo NIC chamado FBNIC, que inclui o primeiro ASIC de rede projetado internamente pela Meta
Cooperação entre Meta e Microsoft para impulsionar inovação aberta
- Meta e Microsoft mantêm uma longa parceria dentro do OCP, iniciada em 2018 com o desenvolvimento da Switch Abstraction Interface (SAI) para data centers
- Têm contribuído para iniciativas importantes, como o padrão Open Accelerator Module (OAM) e a padronização de SSDs
- Atualmente, a colaboração entre as duas empresas está focada no Mount Diablo, um novo rack de energia desagregado
- Mount Diablo é uma solução de ponta com unidades escaláveis de 400VDC, que aumentam eficiência e escalabilidade e representam um grande avanço para a infraestrutura de IA
O futuro aberto da infraestrutura de IA
- A Meta está comprometida com IA open source e acredita que o open source levará os benefícios e as oportunidades da IA às mãos de pessoas no mundo todo
- Sem colaboração, a IA não conseguirá realizar todo o seu potencial
- Frameworks abertos de software são necessários para impulsionar a inovação em modelos, garantir portabilidade e promover transparência no desenvolvimento de IA
- É preciso priorizar modelos abertos e padronizados para aproveitar a expertise coletiva, tornar a IA mais acessível e minimizar vieses nos sistemas
- Sistemas abertos de hardware para IA também são necessários para oferecer a infraestrutura de alto desempenho, custo-efetiva e adaptável exigida pelos avanços em IA
- A Meta incentiva qualquer pessoa que queira contribuir para o futuro desenvolvimento de sistemas de hardware de IA a participar da comunidade OCP
- Ao resolver juntos os requisitos de infraestrutura da IA, será possível concretizar a verdadeira promessa de uma IA aberta para todos
Opinião do GN⁺
- Com tecnologia de rede aberta cobrindo vários fornecedores de GPUs e NICs, é possível superar a dependência de fornecedores e aumentar a escalabilidade e a flexibilidade dos clusters de treinamento de IA
- A colaboração entre Meta e Microsoft pode desempenhar um papel central na aceleração da inovação em infraestrutura aberta de IA. Com base na longa parceria construída via OCP, espera-se que as duas empresas acelerem o desenvolvimento de novos padrões e soluções
- O forte apoio da Meta à IA open source é animador. O open source é justamente o caminho para democratizar o potencial da IA e ampliar suas oportunidades por toda a sociedade
- No processo de construção de infraestrutura aberta de IA, também será necessário tratar de transparência, explicabilidade e considerações éticas. Construir confiança social em IA é tão importante quanto o avanço tecnológico
- Para que os ecossistemas de hardware e software de IA cresçam juntos, é indispensável a colaboração de toda a indústria, bem como a participação de diversos stakeholders, como academia e formuladores de políticas públicas. Espera-se que o OCP se torne uma plataforma central para isso
1 comentários
Comentários do Hacker News
Há quem veja a competição entre OpenAI e Meta AI como uma disputa de plataformas, como macOS vs Windows e iOS vs Android
Zuckerberg e o Facebook recebem muitas críticas, mas investem bastante em engenharia e open source
A Meta usou mais de 16.000 GPUs NVIDIA H100 para treinar o modelo Llama 3.1 405B, o que representa um investimento em larga escala
Há a opinião de que o LLM open source da Meta será atraente para muitos usuários
Questiona-se se Meta, Microsoft e OpenAI poderiam cooperar em designs abertos de chips para competir com a NVIDIA
Menciona-se a possibilidade de a Meta construir data centers de IA ao lado de locais de geração de energia, como usinas de fusão nuclear
Levanta-se a dúvida se a Meta, depois da OpenAI, também está mirando a NVIDIA
Menciona-se que o conceito de "Open" agora virou um meme