Chip Gaudi 2 da Intel supera o Nvidia H100 em benchmark de Diffusion Transformer

xguru · 2024-03-12T10:46:01+09:00

A série "Behind the Compute" é um registro da trajetória de negócios da Stability AI e uma série de posts de blog que oferece insights para que outras pessoas possam aproveitar o poder da IA generativa Nesta edição, a análise aprofunda os benchmarks de desempenho e as vantagens de várias soluções de computação Análise de desempenho A análise de desempenho foi realizada treinando dois modelos, um deles o muito aguardado Stable Diffusion 3 A velocidade de treinamento foi medida comparando os aceleradores Intel Gaudi 2 com os Nvidia A100 e H100 Essas são as opções mais comumente escolhidas por startups e desenvolvedores para treinar grandes modelos de linguagem Modelo 1: Stable Diffusion 3 Stable Diffusion 3 é o modelo de texto-para-imagem mais capaz e deve entrar em fase de prévia inicial em breve A versão pública do Stable Diffusion 3 deve ser oferecida em tamanhos que variam de 800M a 8B parâmetros A análise com a versão de 2B parâmetros mostrou resultados acima do esperado Foi medida a vazão de treinamento do modelo com arquitetura 2B Multimodal Diffusion Transformer (MMDiT), usando d=24, precisão mista BFloat16 e atenção otimizada (xFormers para A100 e FusedSDPA para Intel Gaudi) Essa versão do modelo é chamada de MMDiT-ps2-d24 Nos resultados do benchmark de treinamento com 2 nós e um total de 16 aceleradores (Gaudi/GPU), o sistema Gaudi 2 processou 927 imagens de treinamento por segundo mantendo o tamanho de batch por acelerador em 16 - 1,5x mais rápido que o H100-80GB Aproveitando os 96GB de memória de alta largura de banda (HBM2E) do Gaudi 2, o tamanho de batch por acelerador foi aumentado para 32, elevando ainda mais a velocidade de treinamento para 1.254 imagens por segundo Ao escalar o treinamento distribuído para 32 nós Gaudi 2 (256 aceleradores no total), continuou sendo medido um desempenho altamente competitivo Nessa configuração, o cluster Gaudi 2 processou mais de 3x mais imagens por segundo em comparação com a GPU A100-80GB, o que é impressionante apesar de o A100 ter uma pilha de software muito otimizada Em testes de inferência com o modelo Stable Diffusion 3 de 8B parâmetros, o chip Gaudi 2 ofereceu velocidade de inferência semelhante à do chip Nvidia A100 usando PyTorch padrão No entanto, com otimização via TensorRT, o chip A100 gerou imagens 40% mais rápido que o Gaudi 2 Com otimizações adicionais, espera-se que o Gaudi 2 em breve supere o A100 nesse modelo Em testes anteriores com PyTorch padrão, o Gaudi 2 gerou imagens 1024x1024 em 30 etapas em apenas 3,2 segundos, enquanto no A100 isso levou 3,6 segundos com PyTorch e 2,7 segundos com TensorRT Devido à maior memória do Gaudi 2, interconexão mais rápida e outras considerações de projeto, executar a arquitetura Diffusion Transformer que sustenta os modelos de mídia de próxima geração é competitivo Modelo 2: Stable Beluga 2.5 70B Stable Beluga 2.5 70B é uma versão ajustada do LLaMA 2 70B, baseada no Stable Beluga 2, o primeiro modelo aberto a superar o ChatGPT 3.5 em determinados benchmarks Esse benchmark de treinamento foi executado em 256 aceleradores Gaudi 2, e foi medida uma vazão total média de 116.777 tokens/s executando o código PyTorch como está, sem otimizações adicionais Isso usa tipo de dado FP16, tamanho de batch global de 1024, 2 etapas de acumulação de gradiente e micro-batch size de 2 Ao realizar testes de inferência para o modelo de linguagem 70B no Gaudi 2, foram gerados 673 tokens/s por acelerador usando tamanho de token de entrada 128 e tamanho de token de saída 2048 Em comparação com o TensorRT-LLM, o Gaudi 2 é 28% mais rápido que os 525 tokens/s do A100 São esperados ganhos adicionais de velocidade com FP8 Demanda por soluções de computação Empresas como a nossa estão vendo uma demanda crescente por soluções de computação cada vez mais poderosas e eficientes Nossas descobertas destacam a necessidade de alternativas como o Gaudi 2, que não só oferece desempenho superior a outros chips de 7nm, como também atende a exigências importantes do mercado, como melhor relação custo-desempenho, preço mais acessível e menor lead time A possibilidade de escolha entre opções de computação amplia a participação e a inovação, tornando tecnologias avançadas de IA mais acessíveis para todos

(stability.ai)

6 pontos por xguru 2024-03-12 | 1 comentários | Compartilhar no WhatsApp

A série "Behind the Compute" é um registro da trajetória de negócios da Stability AI e uma série de posts de blog que oferece insights para que outras pessoas possam aproveitar o poder da IA generativa
Nesta edição, a análise aprofunda os benchmarks de desempenho e as vantagens de várias soluções de computação

Análise de desempenho

A análise de desempenho foi realizada treinando dois modelos, um deles o muito aguardado Stable Diffusion 3
A velocidade de treinamento foi medida comparando os aceleradores Intel Gaudi 2 com os Nvidia A100 e H100
Essas são as opções mais comumente escolhidas por startups e desenvolvedores para treinar grandes modelos de linguagem

Modelo 1: Stable Diffusion 3

Stable Diffusion 3 é o modelo de texto-para-imagem mais capaz e deve entrar em fase de prévia inicial em breve
A versão pública do Stable Diffusion 3 deve ser oferecida em tamanhos que variam de 800M a 8B parâmetros
A análise com a versão de 2B parâmetros mostrou resultados acima do esperado
Foi medida a vazão de treinamento do modelo com arquitetura 2B Multimodal Diffusion Transformer (MMDiT), usando d=24, precisão mista BFloat16 e atenção otimizada (xFormers para A100 e FusedSDPA para Intel Gaudi)
Essa versão do modelo é chamada de MMDiT-ps2-d24
Nos resultados do benchmark de treinamento com 2 nós e um total de 16 aceleradores (Gaudi/GPU), o sistema Gaudi 2 processou 927 imagens de treinamento por segundo mantendo o tamanho de batch por acelerador em 16 - 1,5x mais rápido que o H100-80GB
Aproveitando os 96GB de memória de alta largura de banda (HBM2E) do Gaudi 2, o tamanho de batch por acelerador foi aumentado para 32, elevando ainda mais a velocidade de treinamento para 1.254 imagens por segundo
Ao escalar o treinamento distribuído para 32 nós Gaudi 2 (256 aceleradores no total), continuou sendo medido um desempenho altamente competitivo
Nessa configuração, o cluster Gaudi 2 processou mais de 3x mais imagens por segundo em comparação com a GPU A100-80GB, o que é impressionante apesar de o A100 ter uma pilha de software muito otimizada
Em testes de inferência com o modelo Stable Diffusion 3 de 8B parâmetros, o chip Gaudi 2 ofereceu velocidade de inferência semelhante à do chip Nvidia A100 usando PyTorch padrão
No entanto, com otimização via TensorRT, o chip A100 gerou imagens 40% mais rápido que o Gaudi 2
Com otimizações adicionais, espera-se que o Gaudi 2 em breve supere o A100 nesse modelo
Em testes anteriores com PyTorch padrão, o Gaudi 2 gerou imagens 1024x1024 em 30 etapas em apenas 3,2 segundos, enquanto no A100 isso levou 3,6 segundos com PyTorch e 2,7 segundos com TensorRT
Devido à maior memória do Gaudi 2, interconexão mais rápida e outras considerações de projeto, executar a arquitetura Diffusion Transformer que sustenta os modelos de mídia de próxima geração é competitivo

Modelo 2: Stable Beluga 2.5 70B

Stable Beluga 2.5 70B é uma versão ajustada do LLaMA 2 70B, baseada no Stable Beluga 2, o primeiro modelo aberto a superar o ChatGPT 3.5 em determinados benchmarks
Esse benchmark de treinamento foi executado em 256 aceleradores Gaudi 2, e foi medida uma vazão total média de 116.777 tokens/s executando o código PyTorch como está, sem otimizações adicionais
Isso usa tipo de dado FP16, tamanho de batch global de 1024, 2 etapas de acumulação de gradiente e micro-batch size de 2
Ao realizar testes de inferência para o modelo de linguagem 70B no Gaudi 2, foram gerados 673 tokens/s por acelerador usando tamanho de token de entrada 128 e tamanho de token de saída 2048
Em comparação com o TensorRT-LLM, o Gaudi 2 é 28% mais rápido que os 525 tokens/s do A100
São esperados ganhos adicionais de velocidade com FP8

Demanda por soluções de computação

Empresas como a nossa estão vendo uma demanda crescente por soluções de computação cada vez mais poderosas e eficientes
Nossas descobertas destacam a necessidade de alternativas como o Gaudi 2, que não só oferece desempenho superior a outros chips de 7nm, como também atende a exigências importantes do mercado, como melhor relação custo-desempenho, preço mais acessível e menor lead time
A possibilidade de escolha entre opções de computação amplia a participação e a inovação, tornando tecnologias avançadas de IA mais acessíveis para todos

1 comentários

xguru 2024-03-12

Comentários do Hacker News

É interessante que TPUs superem A100s com facilidade. Na dreamlook.ai, que oferece fine-tuning de Stable Diffusion usando TPUs, as pessoas ficam surpresas com a velocidade de entrega e o custo. Mas não há nenhum grande segredo; simplesmente usam hardware mais rápido e mais barato por unidade de trabalho.
É bom incentivar a concorrência em treinamento de modelos com novo hardware, mas a disponibilidade dessas máquinas é muito limitada. Os principais provedores de nuvem não permitem alugar VMs com Gaudi2 por hora, e o próprio site da Intel direciona para a compra de um servidor com 8x GPU por mais de 40 mil USD. Por enquanto, a Nvidia ainda mantém vantagem na stack de software e na disponibilidade, mas isso pode começar a mudar até o fim deste ano.
A NVIDIA está ficando com quase 92% de margem no H100. É surpreendente que mais empresas de chips não tenham entrado no setor de "aceleradores de ML".
Seria realmente útil e esclarecedor ver uma análise do motivo pelo qual algo pode ser 3x mais rápido mesmo sem métricas de hardware 3x melhores. Caso contrário, isso é apenas propaganda.
O H100 foi lançado há quase 1 ano, então está tudo bem se a Intel estiver pronta para competir com o modelo do ano passado. É preciso lembrar que CUDA é uma parte extremamente importante, e que hardware e software levam 10 anos para amadurecer juntos.
O H100 já é enviado em volume há cerca de 1 ano. O Gaudi2 também está disponível em escala semelhante? Até que a NVIDIA deixe de ter uma liderança clara sobre peças concorrentes em uma janela de tempo parecida, ela jamais deve ser ignorada.
Ninguém, incluindo funcionários da Intel AXG, conseguiu responder de forma satisfatória por que Gaudi e Ponte Vecchio existem ao mesmo tempo. A Intel não aumentaria suas chances de sucesso se focasse em uma única linha de produtos?
Fico curioso sobre como os cientistas de IA trabalham hoje em dia. Eles realmente mexem em Cudakernels, ou conectam modelos com toolkits de alto nível como o pytorch? Se for a segunda opção, e se o pytorch oferecer backends otimizados para vários tipos de hardware, o CUDA é mesmo uma barreira tão grande?