Jensen Huang, da Nvidia, anuncia novo chip de IA Blackwell: “Precisamos de uma GPU maior”

(cnbc.com)

2 pontos por GN⁺ 2024-03-19 | 2 comentários | Compartilhar no WhatsApp

Com a demanda por GPUs da Nvidia explodindo após o boom da IA, a nova geração Blackwell é um anúncio para reforçar ainda mais sua posição como fornecedora para treinamento e implantação de modelos grandes
O primeiro chip Blackwell, o GB200, deve começar a ser enviado no fim deste ano e eleva o desempenho de IA de 4 petaflops para 20 petaflops em relação à geração Hopper, da qual o H100 faz parte
O GB200 combina duas GPUs B200 Blackwell com uma CPU Grace baseada em Arm, e Amazon, Google, Microsoft e Oracle devem vender acesso a ele na nuvem
O novo software NIM facilita a implantação de inferência de IA mesmo em GPUs Nvidia já existentes, e a licença Nvidia enterprise custa US$ 4.500 por GPU ao ano
A Nvidia está reforçando uma estratégia de plataforma de software que vai além da venda de chips, buscando manter os clientes em seu ecossistema em vez de migrarem para chips concorrentes

Anúncio do Blackwell e a posição da Nvidia como fornecedora de IA

Em 18 de março de 2024, na conferência de desenvolvedores em San Jose, a Nvidia anunciou uma nova geração de chips de IA e software para executar modelos de IA
No momento do anúncio, empresas e fornecedores de software ainda disputavam o acesso aos chips da geração atual, como o Hopper H100 e similares
Jensen Huang disse: “O Hopper é excelente, mas precisamos de uma GPU maior”
Depois que o ChatGPT da OpenAI desencadeou o boom da IA no fim de 2022, as ações da Nvidia subiram 5 vezes e a receita total aumentou mais de 3 vezes
- Empresas como Microsoft e Meta gastaram bilhões de dólares na compra de GPUs avançadas para servidores da Nvidia
- As ações da Nvidia caíram mais de 1% no after-market de segunda-feira
Configuração e desempenho do GB200
- A nova geração de processadores gráficos para IA se chama Blackwell, e o primeiro chip Blackwell é o GB200
- A Nvidia atualiza sua arquitetura de GPU aproximadamente a cada dois anos para oferecer grandes saltos de desempenho
- A arquitetura Hopper, anunciada em 2022, foi usada em chips como o H100, e muitos dos modelos de IA revelados no último ano foram treinados com base no Hopper
- O desempenho de IA do GB200 baseado em Blackwell chega a 20 petaflops, acima dos 4 petaflops do H100
- O aumento de capacidade computacional pode ser usado por empresas de IA para treinar modelos maiores e mais complexos
- O chip inclui um transformer engine para executar IA baseada em transformer, uma das principais tecnologias por trás do ChatGPT
- A GPU Blackwell é fabricada pela TSMC e combina em um único chip dois dies produzidos separadamente
Servidores e oferta em nuvem
- O GB200 combina duas GPUs B200 Blackwell com uma CPU Grace baseada em Arm
- A Nvidia também oferecerá o servidor completo GB200 NVLink 2, que reúne 72 GPUs Blackwell e outros componentes da Nvidia
- Amazon, Google, Microsoft e Oracle devem vender acesso ao GB200 como serviço em nuvem
- A Amazon Web Services planeja construir um cluster de servidores com 20.000 chips GB200
- Esse sistema poderá implantar um modelo de 27 trilhões de parâmetros, muito maior que o GPT-4, reportado pela imprensa como tendo 1,7 trilhão de parâmetros
- A Nvidia não divulgou o preço do GB200 nem dos sistemas que o utilizam
- Segundo estimativas de analistas, o H100 baseado em Hopper custa entre US$ 25.000 e US$ 40.000 por chip, e um sistema completo pode chegar a US$ 200.000
- A Nvidia também planeja vender o processador gráfico B200 em sistemas prontos que ocupam racks completos de servidores

NIM e a estratégia de plataforma da Nvidia

A Nvidia adicionou um novo produto chamado NIM (Nvidia Inference Microservice) à assinatura de software Nvidia enterprise
O NIM facilita a execução de inferência — o processo de rodar software de IA — em GPUs Nvidia já existentes
- A inferência exige menos computação do que o treinamento inicial de novos modelos de IA
- O objetivo é permitir que empresas continuem aproveitando as centenas de milhões de GPUs Nvidia que já possuem
O principal público do NIM são empresas que querem executar seus próprios modelos de IA, em vez de comprar resultados de IA como serviço de empresas como a OpenAI
Conectar compradores de servidores baseados em Nvidia à assinatura Nvidia enterprise é a estratégia central
- O custo da licença é de US$ 4.500 por GPU ao ano
Implantação de modelos e uso por desenvolvedores
- A Nvidia planeja trabalhar com empresas de IA como Microsoft e Hugging Face para ajustar os modelos de IA de modo que rodem em toda a linha compatível de chips Nvidia
- Desenvolvedores poderão usar o NIM para executar modelos com eficiência em seus próprios servidores ou em servidores Nvidia na nuvem, sem um longo processo de configuração
- Manuvir Das disse que a ideia é trocar uma linha no código, apontando a parte que antes chamava a OpenAI para um NIM fornecido pela Nvidia
- Segundo a Nvidia, esse software ajuda a executar IA não só em servidores na nuvem, mas também em notebooks com GPU
De empresa de chips a plataforma de software
- O NIM é um produto que dá aos clientes mais motivos para permanecer com os chips da Nvidia em vez de usar chips concorrentes
- A Nvidia está deixando de ser apenas uma fornecedora oportunista de chips para se aproximar de um papel de provedora de plataforma, sobre a qual outras empresas possam construir software
- Huang disse: “Blackwell não é o nome de um chip, é o nome de uma plataforma”
- Das afirmou que, no passado, o produto comercial vendável era a GPU e o software servia para ajudar a aproveitá-la, mas agora a Nvidia também passou a ter um negócio comercial de software

2 comentários

corelyai 2024-03-20

Conferência de desenvolvedores da Nvidia: apresentação do chip Blackwell e de tecnologias futuras

A Nvidia apresentou o Blackwell, uma plataforma inovadora com 208 bilhões de transistores em dois dies adjacentes para criar um único chip gigantesco capaz de transferir 10 terabytes de dados por segundo, oferecendo compatibilidade de formato com o Hopper.
O switch de link MVY do Blackwell, com 50 bilhões de transistores, permite comunicação em velocidade máxima entre GPUs, possibilitando construir um sistema de IA em exaflops em um único rack.
A Nvidia anunciou parcerias do Blackwell com AWS, Google, Oracle e Microsoft para acelerar diversos serviços de IA e integrar a tecnologia da Nvidia a essas plataformas.
A Nvidia revelou uma AI Foundry em colaboração com empresas como SAP, ServiceNow, Cohesity, Snowflake e Dell para a construção de soluções de IA generativa e fábricas de IA.
Com streaming do Omniverse Cloud para o Vision Pro, viabilizando integração fluida e fluxos de trabalho entre várias ferramentas de design, a Nvidia também apresenta o Project GR00T, Isaac Lab e OSMO para robôs com IA.
O robô bdx da Disney, movido por Jetson, fez uma participação especial e demonstrou capacidades de aprendizado no Isaac Sim.

Este é um resumo do conteúdo em vídeo da CNET feito com o corely.ai (https://www.youtube.com/watch?v=bMIRhOXAjYk)

GN⁺ 2024-03-19

Opiniões do Hacker News

Pelo que se vê no keynote e no conteúdo da conferência, a Nvidia está subindo na stack, como boas empresas de hardware costumam fazer
Claro que ela continuará criando hardware maior, mas o ponto central é que está criando o NIM, algo como um Docker para LLMs. Ela está construindo um sistema de contêineres que permite baixar ou comprar NIMs e implantá-los facilmente em hardware da Nvidia, então vai ser interessante acompanhar que impacto isso terá nas startups de IA
- Acho que não terá muito efeito sobre a maior parte da IA voltada ao consumidor. Isso porque UI e conveniência já são grandes argumentos de venda
  A ameaça maior é quando a função central de um negócio passa a fazer parte de softwares mainstream. Assim como hoje o iPhone remove fundos e a demanda por removedores de fundo pagos desapareceu, se um produto de IA puder entrar facilmente como apenas um recurso em apps de trabalho existentes, esse negócio está vivendo com tempo emprestado
- Também há uma alternativa open source: https://github.com/geniusrise
- Não consigo acompanhar todas as tendências da área de IA, então fico curioso sobre que tipo de startup de IA está sendo considerado aqui
  Algo como startups de AI-as-a-Service que oferecem “infraestrutura”?
A direção de que “a Nvidia está deixando de ser uma fornecedora mercenária de chips e se aproximando de uma provedora de plataforma, como Microsoft ou Apple, sobre a qual outras empresas podem criar software” faz sentido do ponto de vista de crescimento
Virar um serviço de plataforma para IA seria mais lucrativo para a Nvidia, mas equilibrar isso com parcerias já existentes com AWS e Microsoft é difícil. Acho que veremos aquisições ou soluções customizadas para competir, e, felizmente para a Nvidia, uma parte considerável da IA ainda depende de CUDA, então o desenrolar será interessante
- A Nvidia parece estar se preparando para um mundo em que metade de seus clientes, os hyperscalers, use apenas GPUs e CUDA, enquanto o restante da longa cauda de clientes usa uma plataforma superior mais lucrativa
  Ela não tem poder suficiente para obrigar clientes a ir para um lado, e seria mais fácil simplesmente vender GPUs, mas parece saber que clientes sofisticados podem migrar para outros chips, enquanto uma plataforma ajuda a prender clientes menores
- No fim, acho que surgirá um processo antitruste, a Nvidia será obrigada a abrir o padrão CUDA, e então a AMD se tornará concorrente
  Se quiser, a Nvidia poderia abrir voluntariamente o padrão para evitar esse tipo de processo, e pessoalmente acho que seria a escolha inteligente, mas historicamente quase todas as empresas escolheram o processo judicial em vez da abertura voluntária
- A AWS está empurrando ARM com força, mas as pessoas ainda compram computação x86/x64 em grandes volumes
  Mesmo que a AWS tenha sua própria solução de hardware+software para redes neurais, pode levar anos, talvez décadas, para sair da plataforma CUDA
- Se as GPUs da AMD/Intel tivessem desempenho e adoção tão amplos quanto as da Nvidia, Microsoft e AWS também teriam firmado parcerias com elas
  A Microsoft tem parcerias tanto com a OpenAI quanto com a Mistral. Não há garantia de que a conveniência atual se manterá no futuro, e a Nvidia sabe muito bem disso
O que é FP4, ponto flutuante de 4 bits? Se for, aquele gráfico comparando 30x em relação ao Hopper [0] foi meio enganoso
[0] https://youtu.be/Y2F8yisiS6E?t=4698
- FP4 é ponto flutuante de 4 bits e tem o dobro da velocidade do ponto flutuante de 8 bits. Também existe FP6, que não calcula mais rápido que FP8, mas pode aproveitar melhor a largura de banda de memória e o uso de cache do formato de 6 bits
  Alguns estão relacionando isso a este artigo [1] sobre LLMs de 4 bits, e um dos autores é funcionário da Nvidia
  1: https://arxiv.org/pdf/2310.16836.pdf
- É enganoso só em parte. Em LLMs, FP4 não é apenas metade tão útil quanto FP8
  Se você tem hardware esmagadoramente forte em FP4, usa isso e obtém ganho de velocidade minimizando a perda de precisão. Há um pouco de criatividade de marketing aí, mas não é uma métrica completamente errada para medir uso real
- https://arxiv.org/pdf/2310.10537.pdf
  Isso também foi abordado em um post anterior: https://news.ycombinator.com/item?id=37930663
- Fico curioso sobre como 4 bits podem ser suficientes. Os cálculos intermediários são feitos com uma largura maior e depois reduzidos novamente para FP4?
- Sim. Houve menção a um transformer engine com consciência de precisão, e isso pode facilitar o uso de FP4, mas não é 30x mais rápido nas mesmas condições
  Na prática, parece mais com dois Hoppers lado a lado em um nó de processo um pouco melhorado, então não é surpreendente; quando não se aproveitam esses novos recursos ou a memória ampliada, algo em torno de 2,5x parece mais plausível
Há alguns anos eles compraram a Bright Cluster Manager; quem será o próximo alvo de aquisição? Parece que querem oferecer a stack completa aos clientes
- A Canonical é um alvo maduro. A Canonical tentou nos últimos anos expandir o Ubuntu e outras ferramentas no mundo enterprise, mas não teve grande sucesso, e boa parte dos kits de desenvolvimento da Nvidia é construída em torno do Ubuntu
- Run:AI https://news.ycombinator.com/item?id=39738342
- Também poderiam adquirir a Anthropic ou a Mistral e criar AGI/ASI
Estamos na era em que petaflops de dois dígitos são produzidos em massa
“A capacidade computacional necessária para replicar as atividades relevantes do cérebro humano foi estimada por vários autores entre 10^12 e 10^28 FLOPS.” Um petaflop é 10^15. Que época insana
- Eu ficaria feliz se isso fosse usado para projetar uma usina de fusão nuclear viável. Ficaria bem decepcionado se a maior parte fosse usada para segmentação de anúncios
Coitado de Masayoshi Son, do SoftBank. Em 2019, ele tinha US$ 3,1 bilhões em participação na Nvidia; hoje isso valeria 19 vezes mais, US$ 60 bilhões
Ele era extremamente otimista com IA e robótica, mas estava à frente demais do seu tempo
- Pequena correção: Masayoshi Son
Aqui, “empresa de plataforma” quer dizer múltiplos chips?
Parece lógico, já que está ficando impraticável colocar tantos transistores em um único die.
- Não sei bem qual é o panorama geral da linha de produtos, mas, olhando para os números físicos e a configuração de que Jensen estava se gabando, parece que, na prática, eles querem jogar um jogo ao estilo mainframe.
  A direção é prender aplicações avançadas que rodam sobre chassis proprietários, interconexões de cluster proprietárias e middleware proprietário. A aquisição da Mellanox vem à mente.
- Significa todos os principais chips necessários para data centers de grande escala e uma boa parte das camadas de software acima deles.
  Em hardware, inclui GPU, NVLINK como fabric GPU-GPU, CPU, NIC, InfiniBand como fabric de rede e switches. Além disso, eles contribuem e impulsionam as pessoas a criarem em cima disso várias camadas de stacks de software como CUDA, Riva, Megatron e Omniverse.
- Não, isso quer dizer rent-seeking.
  É só imaginar a AWS vendendo também todos os computadores do mundo. Agora a estrutura passa a ser tal que você só consegue alugá-los de lá.
Fico curioso para saber quando o setor vai começar a lidar com o problema de escalabilidade dos LLMs. Para a Nvidia, obviamente é vantajoso continuar lançando GPUs maiores e melhores, mas qual é o interesse coletivo?
Já foi provado que, com recursos suficientes, é possível ter bons modelos de linguagem. Agora o desafio é colocar esses modelos em soluções que não exijam uma quantidade inimaginável de recursos para casos de uso médios.
- Desenvolvimento de software desperdicioso é fácil e mantém o impulso do desenvolvimento. Enquanto crescimento for rei, a abordagem rápida e suja sempre vence sistemas pequenos e bem otimizados.
  Isso não é um problema só da IA, é um problema de todo software que usamos. Só dois grupos se dedicam a otimizar e adaptar para sistemas menores: programadores apaixonados e pessoas pagas para fazer isso. Por exemplo, equipes de software de fabricantes de celulares.
A ação não se mexeu no after-market. Muita gente esperava um grande salto com um anúncio importante.
- O preço da ação não é um bom indicador de curto prazo para a situação de desenvolvimento da Nvidia, nem de qualquer empresa. A Nvidia está fazendo um trabalho excelente.
  Só que a ação está supervalorizada a um ponto realmente ridículo.
- Com valor de mercado de US$ 2 trilhões, isso já está tudo precificado.
- Se você quer uma disparada dessas, provavelmente está esperando o guidance de resultados. No momento está extremamente sobrecomprada e tendo dificuldade para passar dos US$ 1.000 por ação.
  No curto prazo, Microsoft e OpenAI vão usar esse chip, mas, no longo prazo, vão olhar para isso e tentar criar seus próprios chips para reduzir a dependência da Nvidia, preparando-se para trocar quando os contratos acabarem.
- A Nvidia não é uma ação secreta. Se houver valor oculto no papel, é bem provável que a maior parte já esteja precificada.
- Além disso, ela também perdeu força durante o pregão. Pode ser que estivesse tão superaquecida que já fosse difícil puxá-la ainda mais para cima com qualquer notícia.
Eles afirmam ter reduzido o consumo de energia em 25 vezes, mas isso pode estar certo? Alguém sabe de onde veio esse número?
- O número veio daqui [1]. Basicamente, é uma comparação entre racks H100 e racks B200.
  Mas acho que pode haver um erro de digitação. Provavelmente é uma comparação que inclui refrigeração líquida versus refrigeração a ar.
  [1] https://nvdam.widen.net/s/xqt56dflgh/nvidia-blackwell-archit...
- Você leu isso no artigo linkado? Eu não consegui encontrar.
  Talvez, por causa da melhoria de eficiência decorrente do ganho de desempenho de 5 vezes e do fato de agora ser possível usar 27 trilhões de parâmetros, não 1,7 trilhão, a mesma carga de trabalho possa ser concluída em 1/25 do tempo, e por isso tenham chamado isso de redução no consumo de energia. Como você disse, sou cético de que o consumo máximo de energia em si tenha ficado 25 vezes menor.

Jensen Huang, da Nvidia, anuncia novo chip de IA Blackwell: “Precisamos de uma GPU maior”

Anúncio do Blackwell e a posição da Nvidia como fornecedora de IA

Configuração e desempenho do GB200

Servidores e oferta em nuvem

NIM e a estratégia de plataforma da Nvidia

Implantação de modelos e uso por desenvolvedores

De empresa de chips a plataforma de software

Leituras relacionadas

2 comentários

Opiniões do Hacker News