6 pontos por xguru 2024-03-12 | 1 comentários | Compartilhar no WhatsApp
  • A série "Behind the Compute" é um registro da trajetória de negócios da Stability AI e uma série de posts de blog que oferece insights para que outras pessoas possam aproveitar o poder da IA generativa
  • Nesta edição, a análise aprofunda os benchmarks de desempenho e as vantagens de várias soluções de computação

Análise de desempenho

  • A análise de desempenho foi realizada treinando dois modelos, um deles o muito aguardado Stable Diffusion 3
  • A velocidade de treinamento foi medida comparando os aceleradores Intel Gaudi 2 com os Nvidia A100 e H100
  • Essas são as opções mais comumente escolhidas por startups e desenvolvedores para treinar grandes modelos de linguagem

Modelo 1: Stable Diffusion 3

  • Stable Diffusion 3 é o modelo de texto-para-imagem mais capaz e deve entrar em fase de prévia inicial em breve
  • A versão pública do Stable Diffusion 3 deve ser oferecida em tamanhos que variam de 800M a 8B parâmetros
  • A análise com a versão de 2B parâmetros mostrou resultados acima do esperado
  • Foi medida a vazão de treinamento do modelo com arquitetura 2B Multimodal Diffusion Transformer (MMDiT), usando d=24, precisão mista BFloat16 e atenção otimizada (xFormers para A100 e FusedSDPA para Intel Gaudi)
  • Essa versão do modelo é chamada de MMDiT-ps2-d24
  • Nos resultados do benchmark de treinamento com 2 nós e um total de 16 aceleradores (Gaudi/GPU), o sistema Gaudi 2 processou 927 imagens de treinamento por segundo mantendo o tamanho de batch por acelerador em 16 - 1,5x mais rápido que o H100-80GB
  • Aproveitando os 96GB de memória de alta largura de banda (HBM2E) do Gaudi 2, o tamanho de batch por acelerador foi aumentado para 32, elevando ainda mais a velocidade de treinamento para 1.254 imagens por segundo
  • Ao escalar o treinamento distribuído para 32 nós Gaudi 2 (256 aceleradores no total), continuou sendo medido um desempenho altamente competitivo
  • Nessa configuração, o cluster Gaudi 2 processou mais de 3x mais imagens por segundo em comparação com a GPU A100-80GB, o que é impressionante apesar de o A100 ter uma pilha de software muito otimizada
  • Em testes de inferência com o modelo Stable Diffusion 3 de 8B parâmetros, o chip Gaudi 2 ofereceu velocidade de inferência semelhante à do chip Nvidia A100 usando PyTorch padrão
  • No entanto, com otimização via TensorRT, o chip A100 gerou imagens 40% mais rápido que o Gaudi 2
  • Com otimizações adicionais, espera-se que o Gaudi 2 em breve supere o A100 nesse modelo
  • Em testes anteriores com PyTorch padrão, o Gaudi 2 gerou imagens 1024x1024 em 30 etapas em apenas 3,2 segundos, enquanto no A100 isso levou 3,6 segundos com PyTorch e 2,7 segundos com TensorRT
  • Devido à maior memória do Gaudi 2, interconexão mais rápida e outras considerações de projeto, executar a arquitetura Diffusion Transformer que sustenta os modelos de mídia de próxima geração é competitivo

Modelo 2: Stable Beluga 2.5 70B

  • Stable Beluga 2.5 70B é uma versão ajustada do LLaMA 2 70B, baseada no Stable Beluga 2, o primeiro modelo aberto a superar o ChatGPT 3.5 em determinados benchmarks
  • Esse benchmark de treinamento foi executado em 256 aceleradores Gaudi 2, e foi medida uma vazão total média de 116.777 tokens/s executando o código PyTorch como está, sem otimizações adicionais
  • Isso usa tipo de dado FP16, tamanho de batch global de 1024, 2 etapas de acumulação de gradiente e micro-batch size de 2
  • Ao realizar testes de inferência para o modelo de linguagem 70B no Gaudi 2, foram gerados 673 tokens/s por acelerador usando tamanho de token de entrada 128 e tamanho de token de saída 2048
  • Em comparação com o TensorRT-LLM, o Gaudi 2 é 28% mais rápido que os 525 tokens/s do A100
  • São esperados ganhos adicionais de velocidade com FP8

Demanda por soluções de computação

  • Empresas como a nossa estão vendo uma demanda crescente por soluções de computação cada vez mais poderosas e eficientes
  • Nossas descobertas destacam a necessidade de alternativas como o Gaudi 2, que não só oferece desempenho superior a outros chips de 7nm, como também atende a exigências importantes do mercado, como melhor relação custo-desempenho, preço mais acessível e menor lead time
  • A possibilidade de escolha entre opções de computação amplia a participação e a inovação, tornando tecnologias avançadas de IA mais acessíveis para todos

1 comentários

 
xguru 2024-03-12

Comentários do Hacker News

  • É interessante que TPUs superem A100s com facilidade. Na dreamlook.ai, que oferece fine-tuning de Stable Diffusion usando TPUs, as pessoas ficam surpresas com a velocidade de entrega e o custo. Mas não há nenhum grande segredo; simplesmente usam hardware mais rápido e mais barato por unidade de trabalho.
  • É bom incentivar a concorrência em treinamento de modelos com novo hardware, mas a disponibilidade dessas máquinas é muito limitada. Os principais provedores de nuvem não permitem alugar VMs com Gaudi2 por hora, e o próprio site da Intel direciona para a compra de um servidor com 8x GPU por mais de 40 mil USD. Por enquanto, a Nvidia ainda mantém vantagem na stack de software e na disponibilidade, mas isso pode começar a mudar até o fim deste ano.
  • A NVIDIA está ficando com quase 92% de margem no H100. É surpreendente que mais empresas de chips não tenham entrado no setor de "aceleradores de ML".
  • Seria realmente útil e esclarecedor ver uma análise do motivo pelo qual algo pode ser 3x mais rápido mesmo sem métricas de hardware 3x melhores. Caso contrário, isso é apenas propaganda.
  • O H100 foi lançado há quase 1 ano, então está tudo bem se a Intel estiver pronta para competir com o modelo do ano passado. É preciso lembrar que CUDA é uma parte extremamente importante, e que hardware e software levam 10 anos para amadurecer juntos.
  • O H100 já é enviado em volume há cerca de 1 ano. O Gaudi2 também está disponível em escala semelhante? Até que a NVIDIA deixe de ter uma liderança clara sobre peças concorrentes em uma janela de tempo parecida, ela jamais deve ser ignorada.
  • Ninguém, incluindo funcionários da Intel AXG, conseguiu responder de forma satisfatória por que Gaudi e Ponte Vecchio existem ao mesmo tempo. A Intel não aumentaria suas chances de sucesso se focasse em uma única linha de produtos?
  • Fico curioso sobre como os cientistas de IA trabalham hoje em dia. Eles realmente mexem em Cudakernels, ou conectam modelos com toolkits de alto nível como o pytorch? Se for a segunda opção, e se o pytorch oferecer backends otimizados para vários tipos de hardware, o CUDA é mesmo uma barreira tão grande?