4 pontos por GN⁺ 2023-11-15 | 1 comentários | Compartilhar no WhatsApp

A GPU mais poderosa do mundo

  • A NVIDIA H200 Tensor Core GPU acelera cargas de trabalho de IA generativa e computação de alto desempenho (HPC) com desempenho revolucionário e capacidade de memória.
  • Como a primeira GPU com HBM3e, a H200 impulsiona a aceleração de IA generativa, modelos de linguagem de grande porte (LLMs) e cargas de trabalho de HPC para computação científica.

Ganho de desempenho com base na arquitetura NVIDIA Hopper

  • A NVIDIA HGX H200, baseada na arquitetura NVIDIA Hopper™, traz a NVIDIA H200 Tensor Core GPU com memória avançada para processar grandes volumes de dados.

Experimente o ganho de desempenho

  • A inferência do Llama2 70B fica 1,9x mais rápida, e a inferência do GPT-3 175B fica 1,6x mais rápida.
  • A computação de alto desempenho fica até 110x mais rápida em comparação com CPUs.

Maior desempenho com memória maior e mais rápida

  • A NVIDIA H200 oferece 141GB de memória HBM3e e largura de banda de memória de 4,8TB/s para acelerar IA generativa e LLMs, aumentar a eficiência energética e reduzir o custo total de propriedade.

Gere insights com inferência de LLM de alto desempenho

  • Aceleradores de inferência de IA precisam oferecer a maior taxa de processamento e o menor TCO quando implantados para grandes bases de usuários.
  • A H200 oferece velocidade de inferência até 2x maior no processamento de LLMs em comparação com a GPU H100.

Aceleração da computação de alto desempenho

  • A largura de banda de memória é essencial para aplicações de HPC, permitindo transferência de dados mais rápida e reduzindo gargalos complexos de processamento.
  • A alta largura de banda de memória da H200 torna o acesso e a manipulação de dados mais eficientes, permitindo obter resultados até 110x mais rápidos em comparação com CPUs.

Redução de energia e TCO

  • Com a adoção da H200, a eficiência energética e o TCO atingem um novo patamar.
  • Ela oferece desempenho excepcional dentro do mesmo perfil de energia, trazendo benefícios mais sustentáveis e econômicos.

Desempenho

  • A arquitetura NVIDIA Hopper oferece ganhos de desempenho sem precedentes e continua elevando o padrão com melhorias contínuas de software para a H100.
  • A introdução da H200 dá continuidade a esses ganhos, garantindo liderança de desempenho no presente e no futuro com melhorias contínuas no software compatível.

Pronta para empresas: software de IA simplifica desenvolvimento e implantação

  • A NVIDIA H200 com NVIDIA AI Enterprise simplifica a construção de plataformas preparadas para IA e acelera o desenvolvimento e a implantação de IA generativa, visão computacional, IA de voz e muito mais.
  • Elas oferecem segurança, capacidade de gerenciamento, confiabilidade e suporte de nível corporativo, permitindo obter insights acionáveis mais rapidamente e alcançar valor de negócio concreto em menos tempo.

Especificações da NVIDIA H200 Tensor Core GPU

  • Formato: H200 SXM
  • FP64: 34 TFLOPS
  • FP64 Tensor Core: 67 TFLOPS
  • FP32: 67 TFLOPS
  • TF32 Tensor Core: 989 TFLOPS
  • BFLOAT16 Tensor Core: 1,979 TFLOPS
  • FP16 Tensor Core: 1,979 TFLOPS
  • FP8 Tensor Core: 3,958 TFLOPS
  • INT8 Tensor Core: 3,958 TFLOPS
  • Memória da GPU: 141GB
  • Largura de banda de memória da GPU: 4,8TB/s
  • Decodificador: 7 NVDEC
  • Potência máxima de projeto térmico (TDP): até 700W (configurável)
  • GPU multi-instância: até 7 MIGs @16.5GB cada

Opinião do GN⁺

O ponto mais importante deste artigo é que a NVIDIA apresentou, com a H200 Tensor Core GPU, a GPU mais poderosa do mundo para cargas de trabalho de IA e HPC. Espera-se que essa GPU contribua não apenas para acelerar IA generativa e modelos de linguagem de grande porte, mas também para o avanço de cargas de trabalho de HPC voltadas à computação científica. Esse avanço tecnológico também será interessante para engenheiros de software iniciantes, com potencial para trazer mudanças inovadoras aos projetos dos quais participam. A memória avançada e a capacidade de processamento da H200 devem acelerar o progresso nas áreas de IA e pesquisa científica ao viabilizar computação mais rápida, maior eficiência energética e menor TCO.

1 comentários

 
GN⁺ 2023-11-15
Comentários do Hacker News
  • O die da GPU H200 é o mesmo do H100, mas usa pilhas de memória de 24 GB mais rápidas em toda a placa.

    O acelerador H200 da NVIDIA é baseado no mesmo silício do H100 de 141 GB, mas não é um novo silício, como o site da Nvidia sugere.

  • Curiosidade sobre a possibilidade de outros fabricantes de chips alcançarem ou superarem a NVIDIA em IA nos próximos anos.

    Levanta-se a dúvida se a liderança e a especialização da NVIDIA em IA poderão ser desafiadas por outros fabricantes de chips nos próximos anos, ou se sua dianteira é inalcançável.

  • O ganho de desempenho da NVIDIA em pouco tempo é impressionante, mas sente-se falta de outros concorrentes nesse setor.

    Além da impressão com o avanço de desempenho que a NVIDIA obteve em curto prazo, expressa-se a esperança de que outros concorrentes, como a AMD, apareçam nesse mercado.

  • Pergunta sobre as métricas usadas em inferência e se também se deve esperar ganhos de desempenho semelhantes no treinamento.

    As métricas de desempenho da fase de inferência de modelos de IA são as mais citadas, e surge a pergunta se será possível ver melhorias semelhantes também na etapa de treinamento.

  • Dúvida sobre o posicionamento do H200 em comparação com o B100, lançado no mesmo ano.

    Com o B100 sendo lançado no mesmo ano e oferecendo desempenho duas vezes maior, surge a curiosidade sobre o papel e o preço do H200.

  • Choque com o preço da GPU H100 e pergunta sobre o custo para uso em experimentos pessoais e hackathons.

    Há espanto com o preço inesperadamente alto da GPU H100 para uso em experimentos pessoais e hackathons, além da pergunta sobre o preço do H200.

  • Em dispositivos móveis, o espaço real visível da tela fica extremamente limitado por banners de cookies e anúncios nas páginas da web.

    Aponta-se o problema de que, no ambiente móvel, a área realmente visível da página da web fica reduzida a apenas um quarto por causa dos banners de cookies e anúncios.

  • Não há explicação para o termo "GPU", e não existe nenhuma função de saída de vídeo embutida.

    Menciona-se o fato de que a GPU não tem nenhuma função de saída de vídeo embutida.

  • Pedido para explicar o que aparece na foto, com a opinião de que ela parece uma cidade ou prédio saído de Blade Runner.

    Expressa-se a impressão de que é difícil entender quais componentes aparecem na foto e pede-se uma explicação, dizendo que ela lembra uma cidade ou um prédio de Blade Runner.

  • Pergunta se o limite da velocidade de inferência vem da largura de banda da memória ou da capacidade de computação.

    Surge a curiosidade sobre se o fator que limita a velocidade de inferência dos modelos de IA é a largura de banda da memória ou a capacidade de processamento computacional.