- A NVIDIA cresceu rapidamente com o boom da IA e o domínio das GPUs, mas sua posição de longo prazo está sendo ameaçada pelo desenvolvimento de chips próprios e pela estratégia de integração vertical das grandes empresas de nuvem
- A demanda por GPUs de startups e provedores de nuvem independentes está diminuindo, e a deterioração da rentabilidade de modelos de negócio com alta dependência da NVIDIA está ficando evidente
- Google, Amazon, Microsoft, Meta e outras estão reduzindo rapidamente sua dependência da NVIDIA por meio de chips personalizados de alto desempenho e sistemas verticalmente integrados
- Infraestrutura distribuída e otimização baseada na interconexão de clusters estão se tornando elementos centrais do treinamento de IA, o que representa uma mudança estrutural à qual a NVIDIA tem dificuldade de responder
- A NVIDIA tenta reagir com melhorias em hardware e software, mas existe a possibilidade de perda de competitividade diante da estratégia profunda de integração vertical dos hyperscalers
Da dominância à crise da NVIDIA: a reviravolta no mercado de computação para IA
- A NVIDIA cresceu rapidamente com o boom da IA, o domínio das GPUs e o fornecimento de servidores DGX, alcançando o feito histórico de US$ 2 trilhões de aumento em valor de mercado em 13 meses
- No entanto, a geração H100 representa o pico da rentabilidade, e a série B200 lançada depois veio acompanhada de queda de rentabilidade e aumento dos custos de fabricação
- No longo prazo, os hyperscalers estão consolidando a demanda e abalando a estrutura monopolista da NVIDIA ao garantir competitividade com o desenvolvimento de chips personalizados
Reorganização da demanda por IA e encolhimento do mercado de startups
- Mais da metade da demanda de data centers da NVIDIA vem de hyperscalers como Google, Microsoft, Amazon e Meta
- O restante vinha de startups, VCs e pequenas e médias empresas de nuvem, mas a compra excessiva de GPUs reduziu o ROI, e o negócio de aluguel de GPUs está operando no prejuízo
- Modelos personalizados menores, como o BloombergGPT, estão enfrentando dificuldades no mercado, enquanto modelos fechados baseados em grandes APIs se tornaram o padrão
- Nuvens independentes como Coreweave e Lambda enfrentam crise por baixa viabilidade econômica, queda de rentabilidade e desaceleração da demanda, apesar do suporte da NVIDIA
- O preço do aluguel de GPUs despencou para US$ 1,99 por hora, e o ROE caiu para menos de 10%, em um nível insustentável
Estratégia dos hyperscalers para desenvolver chips personalizados
- O Google TPU já chegou à 6ª geração e substituiu completamente a NVIDIA em modelos como Gemini-Ultra, DeepMind e YouTube
- O Trainium e o Inferentia da Amazon, em colaboração com a Anthropic, estão substituindo inferência e treinamento de grandes modelos e oferecem o Neuron SDK, que funciona sem CUDA
- O acelerador Maia e a CPU Cobalt da Microsoft já estão sendo usados em workloads internos de IA, e um SDK baseado em Triton aumenta a possibilidade de substituição do CUDA
- A Meta opera recursos de IA do Instagram e WhatsApp com o chip MTIA, e parte do treinamento do Llama 3.1 também é realizada com base em chips próprios
- Essa tendência se encaixa melhor na estrutura de mercado de IA centrada em inferência, e há a possibilidade de que, no futuro, a inferência baseada em GPU perca espaço para chips personalizados e até soluções baseadas em CPU
Mudança para uma estrutura centrada em sistemas e os limites da NVIDIA
- Os hyperscalers estão focando mais na otimização do sistema como um todo do que no desempenho de um chip isolado
- O Google conecta em grande escala TPUs menores e usa sua própria rede óptica (Apollo) e topologia de rede torus para minimizar consumo de energia e latência
- A Microsoft construiu uma rede de fibra óptica e transceptores ColorZ, garantindo a possibilidade de treinamento entre múltiplos data centers e uma infraestrutura de alto desempenho com menor custo em comparação com a NVIDIA
- Com isso, uma arquitetura distribuída, que conecta pela rede vários data centers menores para realizar treinamento, está se tornando a principal tendência
- Para superar restrições de energia e limites de expansão da infraestrutura, há tentativas de interligar data centers em escala nacional (ex.: reativação de Three Mile Island pela Microsoft, aquisição de usina nuclear pela AWS etc.)
A resposta da NVIDIA em hardware e software e suas dificuldades estruturais
- A NVIDIA está tentando responder com servidores GB200, Spectrum-X, DCGM e RAS
- O projeto de rede baseado em InfiniBand é vulnerável em clusters de grande escala e carece de um desenho adequado de tolerância a falhas
- Pathways, do Google, e Singularity, da Microsoft, têm força em sistemas próprios tolerantes a falhas e detecção de erros de memória de GPU
- O BaseCommand da NVIDIA, baseado em Kubernetes, fica atrás de Borg, MegaScaler e outros dos hyperscalers em escalabilidade e integração
- Como atrasada em sistemas de resfriamento, a NVIDIA também fica atrás do Google em eficiência energética, vida útil e uso de espaço (ex.: PUE 1,1 do Google vs. 1,4 ou mais da NVIDIA)
Conclusão
- A NVIDIA ainda mantém forte desempenho em GPUs, mas enfrenta limitações estruturais em otimização de sistemas, integração de infraestrutura e eficiência de custos, áreas em que fica atrás dos hyperscalers
- Os hyperscalers já concluíram a integração vertical de ponta a ponta, do chip à infraestrutura e ao software, garantindo a possibilidade de substituição completa
- Se não abandonar sua antiga estratégia centrada em GPU e promover inovação no sistema como um todo, a NVIDIA corre o risco de não conseguir manter uma liderança sustentável no futuro mercado de computação para IA
3 comentários
Uma pessoa que não comprou ações da Nvidia por causa do Google Tensor, do Tesla Dojo e da AMD..
Também tenho curiosidade sobre as desvantagens dos «chips personalizados dos hyperscalers».
Parece que eles estão sendo descritos como se fossem superiores em todos os aspectos.
Comentários no Hacker News
Há a opinião de que este é mais um artigo baseado na suposição de que, enquanto a Nvidia não faz nada, concorrentes de repente terão sucesso e ameaçarão a Nvidia
Apesar de as ações da Marvell terem caído mais de 50% neste ano, a demanda pelas GPUs da Nvidia continua forte
Há a opinião de que os serviços protegerão a Nvidia
Há a opinião de que a posição estratégica da Nvidia está sendo subestimada
Há a opinião de que a AMD fez um acordo secreto com a Nvidia e está deliberadamente criando essa situação
A Nvidia está passando de um monopólio funcional para uma situação em que precisa competir
Há a opinião de que a geração H100 representa o auge do poder de precificação e continuará gerando receita devido à falta de alternativas
Há a opinião de que o controle de qualidade dos drivers de GPU da Nvidia está piorando