Nvidia lança a GPU Tensor Core H200

(nvidia.com)

4 pontos por GN⁺ 2023-11-15 | 1 comentários | Compartilhar no WhatsApp

A GPU mais poderosa do mundo

A NVIDIA H200 Tensor Core GPU acelera cargas de trabalho de IA generativa e computação de alto desempenho (HPC) com desempenho revolucionário e capacidade de memória.
Como a primeira GPU com HBM3e, a H200 impulsiona a aceleração de IA generativa, modelos de linguagem de grande porte (LLMs) e cargas de trabalho de HPC para computação científica.

Ganho de desempenho com base na arquitetura NVIDIA Hopper

A NVIDIA HGX H200, baseada na arquitetura NVIDIA Hopper™, traz a NVIDIA H200 Tensor Core GPU com memória avançada para processar grandes volumes de dados.

Experimente o ganho de desempenho

A inferência do Llama2 70B fica 1,9x mais rápida, e a inferência do GPT-3 175B fica 1,6x mais rápida.
A computação de alto desempenho fica até 110x mais rápida em comparação com CPUs.

Maior desempenho com memória maior e mais rápida

A NVIDIA H200 oferece 141GB de memória HBM3e e largura de banda de memória de 4,8TB/s para acelerar IA generativa e LLMs, aumentar a eficiência energética e reduzir o custo total de propriedade.

Gere insights com inferência de LLM de alto desempenho

Aceleradores de inferência de IA precisam oferecer a maior taxa de processamento e o menor TCO quando implantados para grandes bases de usuários.
A H200 oferece velocidade de inferência até 2x maior no processamento de LLMs em comparação com a GPU H100.

Aceleração da computação de alto desempenho

A largura de banda de memória é essencial para aplicações de HPC, permitindo transferência de dados mais rápida e reduzindo gargalos complexos de processamento.
A alta largura de banda de memória da H200 torna o acesso e a manipulação de dados mais eficientes, permitindo obter resultados até 110x mais rápidos em comparação com CPUs.

Redução de energia e TCO

Com a adoção da H200, a eficiência energética e o TCO atingem um novo patamar.
Ela oferece desempenho excepcional dentro do mesmo perfil de energia, trazendo benefícios mais sustentáveis e econômicos.

Desempenho

A arquitetura NVIDIA Hopper oferece ganhos de desempenho sem precedentes e continua elevando o padrão com melhorias contínuas de software para a H100.
A introdução da H200 dá continuidade a esses ganhos, garantindo liderança de desempenho no presente e no futuro com melhorias contínuas no software compatível.

Pronta para empresas: software de IA simplifica desenvolvimento e implantação

A NVIDIA H200 com NVIDIA AI Enterprise simplifica a construção de plataformas preparadas para IA e acelera o desenvolvimento e a implantação de IA generativa, visão computacional, IA de voz e muito mais.
Elas oferecem segurança, capacidade de gerenciamento, confiabilidade e suporte de nível corporativo, permitindo obter insights acionáveis mais rapidamente e alcançar valor de negócio concreto em menos tempo.

Especificações da NVIDIA H200 Tensor Core GPU

Formato: H200 SXM
FP64: 34 TFLOPS
FP64 Tensor Core: 67 TFLOPS
FP32: 67 TFLOPS
TF32 Tensor Core: 989 TFLOPS
BFLOAT16 Tensor Core: 1,979 TFLOPS
FP16 Tensor Core: 1,979 TFLOPS
FP8 Tensor Core: 3,958 TFLOPS
INT8 Tensor Core: 3,958 TFLOPS
Memória da GPU: 141GB
Largura de banda de memória da GPU: 4,8TB/s
Decodificador: 7 NVDEC
Potência máxima de projeto térmico (TDP): até 700W (configurável)
GPU multi-instância: até 7 MIGs @16.5GB cada

Opinião do GN⁺

O ponto mais importante deste artigo é que a NVIDIA apresentou, com a H200 Tensor Core GPU, a GPU mais poderosa do mundo para cargas de trabalho de IA e HPC. Espera-se que essa GPU contribua não apenas para acelerar IA generativa e modelos de linguagem de grande porte, mas também para o avanço de cargas de trabalho de HPC voltadas à computação científica. Esse avanço tecnológico também será interessante para engenheiros de software iniciantes, com potencial para trazer mudanças inovadoras aos projetos dos quais participam. A memória avançada e a capacidade de processamento da H200 devem acelerar o progresso nas áreas de IA e pesquisa científica ao viabilizar computação mais rápida, maior eficiência energética e menor TCO.

1 comentários

GN⁺ 2023-11-15

Comentários do Hacker News

O die da GPU H200 é o mesmo do H100, mas usa pilhas de memória de 24 GB mais rápidas em toda a placa.

O acelerador H200 da NVIDIA é baseado no mesmo silício do H100 de 141 GB, mas não é um novo silício, como o site da Nvidia sugere.
Curiosidade sobre a possibilidade de outros fabricantes de chips alcançarem ou superarem a NVIDIA em IA nos próximos anos.

Levanta-se a dúvida se a liderança e a especialização da NVIDIA em IA poderão ser desafiadas por outros fabricantes de chips nos próximos anos, ou se sua dianteira é inalcançável.
O ganho de desempenho da NVIDIA em pouco tempo é impressionante, mas sente-se falta de outros concorrentes nesse setor.

Além da impressão com o avanço de desempenho que a NVIDIA obteve em curto prazo, expressa-se a esperança de que outros concorrentes, como a AMD, apareçam nesse mercado.
Pergunta sobre as métricas usadas em inferência e se também se deve esperar ganhos de desempenho semelhantes no treinamento.

As métricas de desempenho da fase de inferência de modelos de IA são as mais citadas, e surge a pergunta se será possível ver melhorias semelhantes também na etapa de treinamento.
Dúvida sobre o posicionamento do H200 em comparação com o B100, lançado no mesmo ano.

Com o B100 sendo lançado no mesmo ano e oferecendo desempenho duas vezes maior, surge a curiosidade sobre o papel e o preço do H200.
Choque com o preço da GPU H100 e pergunta sobre o custo para uso em experimentos pessoais e hackathons.

Há espanto com o preço inesperadamente alto da GPU H100 para uso em experimentos pessoais e hackathons, além da pergunta sobre o preço do H200.
Em dispositivos móveis, o espaço real visível da tela fica extremamente limitado por banners de cookies e anúncios nas páginas da web.

Aponta-se o problema de que, no ambiente móvel, a área realmente visível da página da web fica reduzida a apenas um quarto por causa dos banners de cookies e anúncios.
Não há explicação para o termo "GPU", e não existe nenhuma função de saída de vídeo embutida.

Menciona-se o fato de que a GPU não tem nenhuma função de saída de vídeo embutida.
Pedido para explicar o que aparece na foto, com a opinião de que ela parece uma cidade ou prédio saído de Blade Runner.

Expressa-se a impressão de que é difícil entender quais componentes aparecem na foto e pede-se uma explicação, dizendo que ela lembra uma cidade ou um prédio de Blade Runner.
Pergunta se o limite da velocidade de inferência vem da largura de banda da memória ou da capacidade de computação.

Surge a curiosidade sobre se o fator que limita a velocidade de inferência dos modelos de IA é a largura de banda da memória ou a capacidade de processamento computacional.