O futuro da computação: a coroa da Nvidia está balançando

(mohitdagarwal.substack.com)

2 pontos por GN⁺ 2025-04-24 | 3 comentários | Compartilhar no WhatsApp

A NVIDIA cresceu rapidamente com o boom da IA e o domínio das GPUs, mas sua posição de longo prazo está sendo ameaçada pelo desenvolvimento de chips próprios e pela estratégia de integração vertical das grandes empresas de nuvem
A demanda por GPUs de startups e provedores de nuvem independentes está diminuindo, e a deterioração da rentabilidade de modelos de negócio com alta dependência da NVIDIA está ficando evidente
Google, Amazon, Microsoft, Meta e outras estão reduzindo rapidamente sua dependência da NVIDIA por meio de chips personalizados de alto desempenho e sistemas verticalmente integrados
Infraestrutura distribuída e otimização baseada na interconexão de clusters estão se tornando elementos centrais do treinamento de IA, o que representa uma mudança estrutural à qual a NVIDIA tem dificuldade de responder
A NVIDIA tenta reagir com melhorias em hardware e software, mas existe a possibilidade de perda de competitividade diante da estratégia profunda de integração vertical dos hyperscalers

Da dominância à crise da NVIDIA: a reviravolta no mercado de computação para IA

A NVIDIA cresceu rapidamente com o boom da IA, o domínio das GPUs e o fornecimento de servidores DGX, alcançando o feito histórico de US$ 2 trilhões de aumento em valor de mercado em 13 meses
No entanto, a geração H100 representa o pico da rentabilidade, e a série B200 lançada depois veio acompanhada de queda de rentabilidade e aumento dos custos de fabricação
No longo prazo, os hyperscalers estão consolidando a demanda e abalando a estrutura monopolista da NVIDIA ao garantir competitividade com o desenvolvimento de chips personalizados

Reorganização da demanda por IA e encolhimento do mercado de startups

Mais da metade da demanda de data centers da NVIDIA vem de hyperscalers como Google, Microsoft, Amazon e Meta
O restante vinha de startups, VCs e pequenas e médias empresas de nuvem, mas a compra excessiva de GPUs reduziu o ROI, e o negócio de aluguel de GPUs está operando no prejuízo
Modelos personalizados menores, como o BloombergGPT, estão enfrentando dificuldades no mercado, enquanto modelos fechados baseados em grandes APIs se tornaram o padrão
Nuvens independentes como Coreweave e Lambda enfrentam crise por baixa viabilidade econômica, queda de rentabilidade e desaceleração da demanda, apesar do suporte da NVIDIA
O preço do aluguel de GPUs despencou para US$ 1,99 por hora, e o ROE caiu para menos de 10%, em um nível insustentável

Estratégia dos hyperscalers para desenvolver chips personalizados

O Google TPU já chegou à 6ª geração e substituiu completamente a NVIDIA em modelos como Gemini-Ultra, DeepMind e YouTube
O Trainium e o Inferentia da Amazon, em colaboração com a Anthropic, estão substituindo inferência e treinamento de grandes modelos e oferecem o Neuron SDK, que funciona sem CUDA
O acelerador Maia e a CPU Cobalt da Microsoft já estão sendo usados em workloads internos de IA, e um SDK baseado em Triton aumenta a possibilidade de substituição do CUDA
A Meta opera recursos de IA do Instagram e WhatsApp com o chip MTIA, e parte do treinamento do Llama 3.1 também é realizada com base em chips próprios
Essa tendência se encaixa melhor na estrutura de mercado de IA centrada em inferência, e há a possibilidade de que, no futuro, a inferência baseada em GPU perca espaço para chips personalizados e até soluções baseadas em CPU

Mudança para uma estrutura centrada em sistemas e os limites da NVIDIA

Os hyperscalers estão focando mais na otimização do sistema como um todo do que no desempenho de um chip isolado
O Google conecta em grande escala TPUs menores e usa sua própria rede óptica (Apollo) e topologia de rede torus para minimizar consumo de energia e latência
A Microsoft construiu uma rede de fibra óptica e transceptores ColorZ, garantindo a possibilidade de treinamento entre múltiplos data centers e uma infraestrutura de alto desempenho com menor custo em comparação com a NVIDIA
Com isso, uma arquitetura distribuída, que conecta pela rede vários data centers menores para realizar treinamento, está se tornando a principal tendência
Para superar restrições de energia e limites de expansão da infraestrutura, há tentativas de interligar data centers em escala nacional (ex.: reativação de Three Mile Island pela Microsoft, aquisição de usina nuclear pela AWS etc.)

A resposta da NVIDIA em hardware e software e suas dificuldades estruturais

A NVIDIA está tentando responder com servidores GB200, Spectrum-X, DCGM e RAS
O projeto de rede baseado em InfiniBand é vulnerável em clusters de grande escala e carece de um desenho adequado de tolerância a falhas
Pathways, do Google, e Singularity, da Microsoft, têm força em sistemas próprios tolerantes a falhas e detecção de erros de memória de GPU
O BaseCommand da NVIDIA, baseado em Kubernetes, fica atrás de Borg, MegaScaler e outros dos hyperscalers em escalabilidade e integração
Como atrasada em sistemas de resfriamento, a NVIDIA também fica atrás do Google em eficiência energética, vida útil e uso de espaço (ex.: PUE 1,1 do Google vs. 1,4 ou mais da NVIDIA)

Conclusão

A NVIDIA ainda mantém forte desempenho em GPUs, mas enfrenta limitações estruturais em otimização de sistemas, integração de infraestrutura e eficiência de custos, áreas em que fica atrás dos hyperscalers
Os hyperscalers já concluíram a integração vertical de ponta a ponta, do chip à infraestrutura e ao software, garantindo a possibilidade de substituição completa
Se não abandonar sua antiga estratégia centrada em GPU e promover inovação no sistema como um todo, a NVIDIA corre o risco de não conseguir manter uma liderança sustentável no futuro mercado de computação para IA

3 comentários

kandk 2025-04-24

Uma pessoa que não comprou ações da Nvidia por causa do Google Tensor, do Tesla Dojo e da AMD..

kimjoin2 2025-04-24

Também tenho curiosidade sobre as desvantagens dos «chips personalizados dos hyperscalers».
Parece que eles estão sendo descritos como se fossem superiores em todos os aspectos.

GN⁺ 2025-04-24

Comentários no Hacker News

Há a opinião de que este é mais um artigo baseado na suposição de que, enquanto a Nvidia não faz nada, concorrentes de repente terão sucesso e ameaçarão a Nvidia
- Os pessimistas em relação à Nvidia podem até acertar algum dia, mas até agora erraram com frequência
Apesar de as ações da Marvell terem caído mais de 50% neste ano, a demanda pelas GPUs da Nvidia continua forte
- Enfatiza-se que os recursos oferecidos pela nuvem não podem substituir as GPUs
- Há concordância com a visão de Jensen de que a Nvidia se tornará uma empresa de 10 trilhões de dólares
- Menciona-se a possibilidade de a Nvidia lançar AI phones, serviços concorrentes de LLM, AI PCs, carros autônomos, robôs etc.
- Assim como Warren Buffet se arrependeu de não ter investido em Google e Apple, considera-se que uma situação semelhante está acontecendo agora
Há a opinião de que os serviços protegerão a Nvidia
- Ela domina o ecossistema com CUDA, Infiniband, NGC, NVLink etc., e precisa expandi-lo por meio de aplicações adicionais como o AI Foundry
- Pode gerar receita quando o mercado desacelerar com design personalizado e consultoria para projetos de GPU
Há a opinião de que a posição estratégica da Nvidia está sendo subestimada
- A Nvidia não precisa vencer para sempre no jogo do hardware e está construindo toda a stack de IA
- É a única empresa que oferece de forma abrangente hardware, redes, software, modelos e ferramentas para desenvolvedores
- A Nvidia está construindo uma plataforma integrada, e isso se tornará um padrão da indústria
Há a opinião de que a AMD fez um acordo secreto com a Nvidia e está deliberadamente criando essa situação
- A Nvidia compartilha com a Apple uma posição exclusiva na TSMC
A Nvidia está passando de um monopólio funcional para uma situação em que precisa competir
- Não é o ideal, mas também não é um golpe fatal
Há a opinião de que a geração H100 representa o auge do poder de precificação e continuará gerando receita devido à falta de alternativas
- Há dúvidas sobre a sustentabilidade no longo prazo
- Os hyperscalers estão consolidando a demanda por IA e avançando no desenvolvimento de chips competitivos
- Também existem outras empresas construindo grandes fazendas de GPU
Há a opinião de que o controle de qualidade dos drivers de GPU da Nvidia está piorando
- No entanto, como os produtos estão esgotados há anos, é difícil dizer que o controle de qualidade esteja ruim