- A série "Behind the Compute" é um registro da trajetória de negócios da Stability AI e uma série de posts de blog que oferece insights para que outras pessoas possam aproveitar o poder da IA generativa
- Nesta edição, a análise aprofunda os benchmarks de desempenho e as vantagens de várias soluções de computação
Análise de desempenho
- A análise de desempenho foi realizada treinando dois modelos, um deles o muito aguardado Stable Diffusion 3
- A velocidade de treinamento foi medida comparando os aceleradores Intel Gaudi 2 com os Nvidia A100 e H100
- Essas são as opções mais comumente escolhidas por startups e desenvolvedores para treinar grandes modelos de linguagem
Modelo 1: Stable Diffusion 3
- Stable Diffusion 3 é o modelo de texto-para-imagem mais capaz e deve entrar em fase de prévia inicial em breve
- A versão pública do Stable Diffusion 3 deve ser oferecida em tamanhos que variam de 800M a 8B parâmetros
- A análise com a versão de 2B parâmetros mostrou resultados acima do esperado
- Foi medida a vazão de treinamento do modelo com arquitetura 2B Multimodal Diffusion Transformer (MMDiT), usando d=24, precisão mista BFloat16 e atenção otimizada (xFormers para A100 e FusedSDPA para Intel Gaudi)
- Essa versão do modelo é chamada de MMDiT-ps2-d24
- Nos resultados do benchmark de treinamento com 2 nós e um total de 16 aceleradores (Gaudi/GPU), o sistema Gaudi 2 processou 927 imagens de treinamento por segundo mantendo o tamanho de batch por acelerador em 16 - 1,5x mais rápido que o H100-80GB
- Aproveitando os 96GB de memória de alta largura de banda (HBM2E) do Gaudi 2, o tamanho de batch por acelerador foi aumentado para 32, elevando ainda mais a velocidade de treinamento para 1.254 imagens por segundo
- Ao escalar o treinamento distribuído para 32 nós Gaudi 2 (256 aceleradores no total), continuou sendo medido um desempenho altamente competitivo
- Nessa configuração, o cluster Gaudi 2 processou mais de 3x mais imagens por segundo em comparação com a GPU A100-80GB, o que é impressionante apesar de o A100 ter uma pilha de software muito otimizada
- Em testes de inferência com o modelo Stable Diffusion 3 de 8B parâmetros, o chip Gaudi 2 ofereceu velocidade de inferência semelhante à do chip Nvidia A100 usando PyTorch padrão
- No entanto, com otimização via TensorRT, o chip A100 gerou imagens 40% mais rápido que o Gaudi 2
- Com otimizações adicionais, espera-se que o Gaudi 2 em breve supere o A100 nesse modelo
- Em testes anteriores com PyTorch padrão, o Gaudi 2 gerou imagens 1024x1024 em 30 etapas em apenas 3,2 segundos, enquanto no A100 isso levou 3,6 segundos com PyTorch e 2,7 segundos com TensorRT
- Devido à maior memória do Gaudi 2, interconexão mais rápida e outras considerações de projeto, executar a arquitetura Diffusion Transformer que sustenta os modelos de mídia de próxima geração é competitivo
Modelo 2: Stable Beluga 2.5 70B
- Stable Beluga 2.5 70B é uma versão ajustada do LLaMA 2 70B, baseada no Stable Beluga 2, o primeiro modelo aberto a superar o ChatGPT 3.5 em determinados benchmarks
- Esse benchmark de treinamento foi executado em 256 aceleradores Gaudi 2, e foi medida uma vazão total média de 116.777 tokens/s executando o código PyTorch como está, sem otimizações adicionais
- Isso usa tipo de dado FP16, tamanho de batch global de 1024, 2 etapas de acumulação de gradiente e micro-batch size de 2
- Ao realizar testes de inferência para o modelo de linguagem 70B no Gaudi 2, foram gerados 673 tokens/s por acelerador usando tamanho de token de entrada 128 e tamanho de token de saída 2048
- Em comparação com o TensorRT-LLM, o Gaudi 2 é 28% mais rápido que os 525 tokens/s do A100
- São esperados ganhos adicionais de velocidade com FP8
Demanda por soluções de computação
- Empresas como a nossa estão vendo uma demanda crescente por soluções de computação cada vez mais poderosas e eficientes
- Nossas descobertas destacam a necessidade de alternativas como o Gaudi 2, que não só oferece desempenho superior a outros chips de 7nm, como também atende a exigências importantes do mercado, como melhor relação custo-desempenho, preço mais acessível e menor lead time
- A possibilidade de escolha entre opções de computação amplia a participação e a inovação, tornando tecnologias avançadas de IA mais acessíveis para todos
1 comentários
Comentários do Hacker News