2 pontos por GN⁺ 2025-04-24 | 3 comentários | Compartilhar no WhatsApp
  • A NVIDIA cresceu rapidamente com o boom da IA e o domínio das GPUs, mas sua posição de longo prazo está sendo ameaçada pelo desenvolvimento de chips próprios e pela estratégia de integração vertical das grandes empresas de nuvem
  • A demanda por GPUs de startups e provedores de nuvem independentes está diminuindo, e a deterioração da rentabilidade de modelos de negócio com alta dependência da NVIDIA está ficando evidente
  • Google, Amazon, Microsoft, Meta e outras estão reduzindo rapidamente sua dependência da NVIDIA por meio de chips personalizados de alto desempenho e sistemas verticalmente integrados
  • Infraestrutura distribuída e otimização baseada na interconexão de clusters estão se tornando elementos centrais do treinamento de IA, o que representa uma mudança estrutural à qual a NVIDIA tem dificuldade de responder
  • A NVIDIA tenta reagir com melhorias em hardware e software, mas existe a possibilidade de perda de competitividade diante da estratégia profunda de integração vertical dos hyperscalers

Da dominância à crise da NVIDIA: a reviravolta no mercado de computação para IA

  • A NVIDIA cresceu rapidamente com o boom da IA, o domínio das GPUs e o fornecimento de servidores DGX, alcançando o feito histórico de US$ 2 trilhões de aumento em valor de mercado em 13 meses
  • No entanto, a geração H100 representa o pico da rentabilidade, e a série B200 lançada depois veio acompanhada de queda de rentabilidade e aumento dos custos de fabricação
  • No longo prazo, os hyperscalers estão consolidando a demanda e abalando a estrutura monopolista da NVIDIA ao garantir competitividade com o desenvolvimento de chips personalizados

Reorganização da demanda por IA e encolhimento do mercado de startups

  • Mais da metade da demanda de data centers da NVIDIA vem de hyperscalers como Google, Microsoft, Amazon e Meta
  • O restante vinha de startups, VCs e pequenas e médias empresas de nuvem, mas a compra excessiva de GPUs reduziu o ROI, e o negócio de aluguel de GPUs está operando no prejuízo
  • Modelos personalizados menores, como o BloombergGPT, estão enfrentando dificuldades no mercado, enquanto modelos fechados baseados em grandes APIs se tornaram o padrão
  • Nuvens independentes como Coreweave e Lambda enfrentam crise por baixa viabilidade econômica, queda de rentabilidade e desaceleração da demanda, apesar do suporte da NVIDIA
  • O preço do aluguel de GPUs despencou para US$ 1,99 por hora, e o ROE caiu para menos de 10%, em um nível insustentável

Estratégia dos hyperscalers para desenvolver chips personalizados

  • O Google TPU já chegou à 6ª geração e substituiu completamente a NVIDIA em modelos como Gemini-Ultra, DeepMind e YouTube
  • O Trainium e o Inferentia da Amazon, em colaboração com a Anthropic, estão substituindo inferência e treinamento de grandes modelos e oferecem o Neuron SDK, que funciona sem CUDA
  • O acelerador Maia e a CPU Cobalt da Microsoft já estão sendo usados em workloads internos de IA, e um SDK baseado em Triton aumenta a possibilidade de substituição do CUDA
  • A Meta opera recursos de IA do Instagram e WhatsApp com o chip MTIA, e parte do treinamento do Llama 3.1 também é realizada com base em chips próprios
  • Essa tendência se encaixa melhor na estrutura de mercado de IA centrada em inferência, e há a possibilidade de que, no futuro, a inferência baseada em GPU perca espaço para chips personalizados e até soluções baseadas em CPU

Mudança para uma estrutura centrada em sistemas e os limites da NVIDIA

  • Os hyperscalers estão focando mais na otimização do sistema como um todo do que no desempenho de um chip isolado
  • O Google conecta em grande escala TPUs menores e usa sua própria rede óptica (Apollo) e topologia de rede torus para minimizar consumo de energia e latência
  • A Microsoft construiu uma rede de fibra óptica e transceptores ColorZ, garantindo a possibilidade de treinamento entre múltiplos data centers e uma infraestrutura de alto desempenho com menor custo em comparação com a NVIDIA
  • Com isso, uma arquitetura distribuída, que conecta pela rede vários data centers menores para realizar treinamento, está se tornando a principal tendência
  • Para superar restrições de energia e limites de expansão da infraestrutura, há tentativas de interligar data centers em escala nacional (ex.: reativação de Three Mile Island pela Microsoft, aquisição de usina nuclear pela AWS etc.)

A resposta da NVIDIA em hardware e software e suas dificuldades estruturais

  • A NVIDIA está tentando responder com servidores GB200, Spectrum-X, DCGM e RAS
  • O projeto de rede baseado em InfiniBand é vulnerável em clusters de grande escala e carece de um desenho adequado de tolerância a falhas
  • Pathways, do Google, e Singularity, da Microsoft, têm força em sistemas próprios tolerantes a falhas e detecção de erros de memória de GPU
  • O BaseCommand da NVIDIA, baseado em Kubernetes, fica atrás de Borg, MegaScaler e outros dos hyperscalers em escalabilidade e integração
  • Como atrasada em sistemas de resfriamento, a NVIDIA também fica atrás do Google em eficiência energética, vida útil e uso de espaço (ex.: PUE 1,1 do Google vs. 1,4 ou mais da NVIDIA)

Conclusão

  • A NVIDIA ainda mantém forte desempenho em GPUs, mas enfrenta limitações estruturais em otimização de sistemas, integração de infraestrutura e eficiência de custos, áreas em que fica atrás dos hyperscalers
  • Os hyperscalers já concluíram a integração vertical de ponta a ponta, do chip à infraestrutura e ao software, garantindo a possibilidade de substituição completa
  • Se não abandonar sua antiga estratégia centrada em GPU e promover inovação no sistema como um todo, a NVIDIA corre o risco de não conseguir manter uma liderança sustentável no futuro mercado de computação para IA

3 comentários

 
kandk 2025-04-24

Uma pessoa que não comprou ações da Nvidia por causa do Google Tensor, do Tesla Dojo e da AMD..

 
kimjoin2 2025-04-24

Também tenho curiosidade sobre as desvantagens dos «chips personalizados dos hyperscalers».
Parece que eles estão sendo descritos como se fossem superiores em todos os aspectos.

 
GN⁺ 2025-04-24
Comentários no Hacker News
  • Há a opinião de que este é mais um artigo baseado na suposição de que, enquanto a Nvidia não faz nada, concorrentes de repente terão sucesso e ameaçarão a Nvidia

    • Os pessimistas em relação à Nvidia podem até acertar algum dia, mas até agora erraram com frequência
  • Apesar de as ações da Marvell terem caído mais de 50% neste ano, a demanda pelas GPUs da Nvidia continua forte

    • Enfatiza-se que os recursos oferecidos pela nuvem não podem substituir as GPUs
    • Há concordância com a visão de Jensen de que a Nvidia se tornará uma empresa de 10 trilhões de dólares
    • Menciona-se a possibilidade de a Nvidia lançar AI phones, serviços concorrentes de LLM, AI PCs, carros autônomos, robôs etc.
    • Assim como Warren Buffet se arrependeu de não ter investido em Google e Apple, considera-se que uma situação semelhante está acontecendo agora
  • Há a opinião de que os serviços protegerão a Nvidia

    • Ela domina o ecossistema com CUDA, Infiniband, NGC, NVLink etc., e precisa expandi-lo por meio de aplicações adicionais como o AI Foundry
    • Pode gerar receita quando o mercado desacelerar com design personalizado e consultoria para projetos de GPU
  • Há a opinião de que a posição estratégica da Nvidia está sendo subestimada

    • A Nvidia não precisa vencer para sempre no jogo do hardware e está construindo toda a stack de IA
    • É a única empresa que oferece de forma abrangente hardware, redes, software, modelos e ferramentas para desenvolvedores
    • A Nvidia está construindo uma plataforma integrada, e isso se tornará um padrão da indústria
  • Há a opinião de que a AMD fez um acordo secreto com a Nvidia e está deliberadamente criando essa situação

    • A Nvidia compartilha com a Apple uma posição exclusiva na TSMC
  • A Nvidia está passando de um monopólio funcional para uma situação em que precisa competir

    • Não é o ideal, mas também não é um golpe fatal
  • Há a opinião de que a geração H100 representa o auge do poder de precificação e continuará gerando receita devido à falta de alternativas

    • Há dúvidas sobre a sustentabilidade no longo prazo
    • Os hyperscalers estão consolidando a demanda por IA e avançando no desenvolvimento de chips competitivos
    • Também existem outras empresas construindo grandes fazendas de GPU
  • Há a opinião de que o controle de qualidade dos drivers de GPU da Nvidia está piorando

    • No entanto, como os produtos estão esgotados há anos, é difícil dizer que o controle de qualidade esteja ruim