TPU vs. GPU, e por que o Google pode vencer a disputa de IA no longo prazo

(uncoveralpha.com)

7 pontos por GN⁺ 2025-11-28 | 1 comentários | Compartilhar no WhatsApp

O Google TPU é um chip ASIC dedicado projetado para lidar com cargas massivas de inferência de IA, garantindo mais eficiência e competitividade de custo em relação às GPUs
O principal diferencial é a arquitetura Systolic Array, que minimiza o acesso à memória e maximiza a eficiência computacional (Operations per Joule)
O mais recente TPUv7 (Ironwood) trouxe um salto enorme em desempenho e largura de banda de memória em relação à geração anterior, alcançando um nível de performance semelhante ao da GPU Nvidia Blackwell
As limitações do ecossistema do TPU e sua estrutura de oferta exclusiva no GCP são os principais obstáculos para sua adoção mais ampla, mas o Google está reorganizando equipes e reforçando o suporte para expandir a base de clientes externos
Com recuperação de margem na nuvem e reforço de competitividade por meio de chips próprios, o Google pode se tornar, no longo prazo, um dos principais vencedores do mercado de infraestrutura de IA

História do TPU e contexto de desenvolvimento

Em 2013, o Google concluiu que precisaria de o dobro da capacidade de datacenter por causa do aumento no uso da busca por voz
- CPUs e GPUs existentes tinham dificuldade para processar com eficiência operações de deep learning (multiplicações de matrizes em larga escala)
Diante disso, o Google decidiu desenvolver um ASIC dedicado para redes neurais do TensorFlow e colocou o silício em produção nos datacenters em apenas 15 meses
Em 2015, o TPU já era usado em serviços importantes como Google Maps, Photos e Translate
Foi apresentado oficialmente no Google I/O de 2016 e, desde então, evoluiu como infraestrutura central para reduzir o custo de inferência em IA

Diferenças estruturais entre TPU e GPU

A GPU é um processador paralelo de uso geral, enquanto o TPU é uma arquitetura especializada por domínio
- A GPU foi projetada para processamento gráfico e inclui lógicas de controle complexas, como cache e previsão de desvio
- O TPU remove esses elementos e minimiza a movimentação de dados com uma estrutura Systolic Array
O Systolic Array do TPU carrega os dados uma vez e depois os transmite em um fluxo contínuo de computação, reduzindo o gargalo de Von Neumann
Melhorias do Ironwood (7ª geração)
- Reforço do SparseCore para melhorar a eficiência no processamento de embeddings em larga escala
- HBM de 192 GB e largura de banda de 7.370 GB/s
- Melhora no desempenho do Inter-Chip Interconnect (ICI), com até 1,2 TB/s de largura de banda
O Google monta grandes TPU Pods com Optical Circuit Switch (OCS) e rede 3D torus
- A eficiência energética é alta, mas a flexibilidade é menor que a do InfiniBand

Comparação de desempenho: TPU vs GPU

TPUv7 (BF16 4.614 TFLOPS) vs TPUv5p (459 TFLOPS), cerca de 10x de ganho de desempenho
Resumo de entrevistas do setor
- O TPU leva vantagem em eficiência energética por desempenho e em custo-benefício
- Em certas aplicações, alcança 1,4x mais desempenho por dólar
- O TPUv6 tem vantagem de 60% a 65% em eficiência frente às GPUs; a geração anterior tinha de 40% a 45%
- O TPU gera menos calor e consome menos energia, com menor impacto ambiental
Alguns clientes conseguem reduzir custos para 1/5 ao usar um TPU Pod
Graças à estrutura ASIC, há menção a redução de 30% no tamanho e 50% no consumo de energia
Segundo materiais internos do Google, o TPUv7 dobra o desempenho por watt em relação ao TPUv6e
O CEO da Nvidia, Jensen Huang, também chamou o TPU de um “caso especial”, reconhecendo sua relevância

Problemas que dificultam a adoção do TPU

A primeira barreira é o ecossistema (domínio do CUDA)
- Tanto universidades quanto a indústria ensinam e desenvolvem majoritariamente em torno de CUDA
- O TPU gira mais em torno de JAX e TensorFlow, e o suporte a PyTorch foi fortalecido relativamente tarde
A expansão da estratégia multicloud também impõe limitações
- Como a maioria das empresas distribui seus dados entre AWS, Azure e GCP, os custos de movimentação de dados (egress) são altos, o que torna workloads baseados em GPU mais flexíveis
- O TPU é exclusivo do GCP, enquanto a Nvidia está disponível nas três grandes nuvens
Se uma empresa adota TPU e depois os preços mudam ou o ambiente se altera, o custo de reescrita pode ser muito alto
Só recentemente o Google começou a ampliar sua organização para vendas externas e expansão, e alguns ex-funcionários e funcionários atuais mencionam a possibilidade futura de fornecimento externo via neoclouds, entre outros

Valor estratégico do TPU para o Google Cloud

Na era da IA, a indústria de nuvem está migrando de uma estrutura de alta margem (50% a 70%) para baixa margem (20% a 35%)
- A causa é a pressão de custos gerada pela margem de 75% da Nvidia
Apenas operadores com ASIC próprio, especialmente TPU, podem voltar às margens tradicionais de nuvem (na faixa dos 50%)
Vantagens do Google
- O TPU é o ASIC para nuvem mais maduro
- O Google executa internamente a maior parte do frontend do projeto de chips, incluindo RTL
- A Broadcom cuida apenas do projeto físico (backend), e como sua estrutura de margem é menor que a da Nvidia, isso fortalece a competitividade de custo do TPU
- O Google controla toda a stack de otimização de software, maximizando o desempenho do hardware
Com base no TPU, modelos importantes como o Gemini 3 realizam treinamento e inferência
- O uso de TPU está se expandindo por toda a oferta interna de serviços de IA
A SemiAnalysis avaliou que “o TPU de 7ª geração do Google está no mesmo nível do Nvidia Blackwell”
O TPU é visto como a vantagem competitiva de longo prazo do GCP e como a principal força por trás da expansão de participação no mercado de infraestrutura de IA

1 comentários

GN⁺ 2025-11-28

Comentários do Hacker News

A verdadeira arma do Google não é o silício do TPU em si, mas a escalabilidade massivamente paralela por meio da interconexão OCS (Optical Circuit Switch)
Segundo citação do The Next Platform, é possível conectar 9.216 TPUs Ironwood para usar 1,77 PB de memória HBM. Isso é uma escala esmagadoramente maior que os sistemas em rack baseados em GPUs Blackwell da Nvidia (20,7 TB de HBM)
A Nvidia é excelente no nível de chip único, mas em treinamento ou inferência distribuídos em larga escala não tem nada comparável à escalabilidade com comutação óptica do Google
- O Google possui toda a pilha verticalmente integrada. Graças a isso, consegue oferecer serviços de IA em escala de nuvem de forma muito mais barata e lucrativa
  A maioria das empresas não precisa comprar hardware nem treinar modelos por conta própria; basta usar algo como uma app store de IA oferecida pelo Google
- Na verdade, os dois sistemas têm arquiteturas de rede totalmente diferentes. O NVLink da Nvidia é um fabric comutado all-to-all, enquanto o TPU usa uma estrutura de torus 3D
  Por exemplo, modelos Mixture of Experts exigem muita comunicação all-to-all, então o lado do NVLink é muito mais eficiente
- A Nvidia ainda publica tweets afirmando que sua tecnologia é melhor
  Link para o tweet oficial da Nvidia
- Se a alegação do Google fosse verdadeira, ele deveria dominar os benchmarks do MLPerf, mas isso não acontece
  Para paralelização de modelo, redes pequenas e rápidas são vantajosas; para paralelização de dados, redes grandes são melhores. É esse equilíbrio que faz a Nvidia vencer
- Para igualar a mesma capacidade de memória, o Google precisa de 100 vezes mais chips
O Gemini 3 Pro já está perto de parecer antigo. Embora o Google tenha muito mais recursos que a Anthropic, se o hardware fosse a arma secreta, ele já deveria ter dominado o mercado
Mas a realidade é outra
1. É difícil usar o hardware com eficiência, e quando a otimização termina, o trabalho já migrou para o próximo modelo
2. Para a maioria das empresas, dá para resolver com dinheiro. O H100 já funciona bem o suficiente
3. Só novas técnicas de pesquisa já conseguem elevar bastante o desempenho dos modelos
4. O desenvolvimento de modelos ainda envolve muito trabalho humano, como curadoria de datasets e avaliação
5. Hardware customizado cria problemas customizados. Não dá para achar resposta para problemas de cluster TPU no Stack Overflow
Há quem diga que o CUDA é importante para treinamento, mas menos importante na fase de inferência
- Os chips da NVIDIA são mais genéricos. Durante o treinamento, são necessárias várias funções como operações especiais de sin e cos, armazenamento de cálculos intermediários, tratamento de gradientes etc.
  Já a inferência é um processo simples de aplicar repetidamente pesos fixos, então o TPU pode ser mais eficiente
- O mercado de chips para treinamento pode ser uma bolha, mas o mercado de inferência é muito maior. Quando o desempenho dos modelos for bom o bastante, a demanda por treinamento pode cair, e sistemas de inferência energeticamente eficientes devem se tornar predominantes
- O motivo de o CUDA ser importante é a dependência do ecossistema. A maior parte do software de treinamento foi construída sobre CUDA
- Treinamento é o processo de dividir um problema enorme e gerenciar dependências de dados; inferência é um conjunto de pequenos problemas independentes
- O CUDA oferece uma experiência para desenvolvedores muito melhor. Quando a produtividade em pesquisa importa, isso é decisivo
Não existe motivo para a Nvidia não conseguir fazer chips especializados como os TPUs
- A Nvidia provavelmente acabará fazendo isso também. A diferença é que o Google é ao mesmo tempo projetista de chips e empresa de IA, então captura todo o lucro
  A Nvidia terceiriza a fabricação para a TSMC e vende caro, enquanto o Google economiza margem ao usar internamente
- A DeepMind colabora diretamente com a equipe de TPU para projetar chips sob medida para projetos. A OpenAI também anunciou o desenvolvimento de seus próprios chips pelo mesmo motivo, mas isso exige muito capital
- O TPU é mais barato que GPUs da NVidia e é verticalmente integrado para uso interno do Google
- O risco para a Nvidia não é tanto uma crise existencial, mas sim queda nas margens. Mesmo que as vendas de chips aumentem 100 vezes, se a margem cair para 5%, o valor de mercado encolhe
- Na prática, a Nvidia já está evoluindo na mesma direção com os Tensor Cores
Há uma reportagem da Reuters dizendo que a Meta está em negociação para investir bilhões de dólares nos chips do Google
ASICs para LLM são muito mais complexos do que ASICs para criptomoedas. Cripto só precisa processar algoritmos de hash fixos, mas LLMs continuam evoluindo
Fica confuso entender o que o TPU significa nesse contexto
- Em LLMs, largura de banda de memória e de interconexão é crucial. Já em cripto, o foco é 100% computação
- A maioria dos LLMs gira em torno de multiplicação de matrizes, e o TPU acelera isso. O PyTorch também tem suporte a TPU
- Mesmo um ASIC pode ser programável. Como o TPU precisa executar vários modelos diferentes, ele é diferente de um chip hardcoded
- A arquitetura dos LLMs muda, mas os componentes comuns (operações matriciais, tipos de ponto flutuante) permanecem iguais. Portanto, o TPU é, na prática, um ASIC para LLMs
- Criptomoedas também mudam. Por exemplo, o Monero usa uma estrutura em nível de CPU para bloquear ASICs
Seria bom haver mais opções de TPU independente para uso pessoal. Hoje, a única escolha é o Coral de 2019
Esse debate é tão acadêmico quanto RISC vs CISC. No fim, as GPUs da Nvidia também estão sendo projetadas para fazer o mesmo trabalho dos TPUs
Mesmo dentro do Google, daqui a 5 anos pode não haver grande diferença
O Google lucra com TPUs, mas para desenvolvedores externos não há benefício direto
- É verdade que o Google não vende TPUs, mas outras empresas também estão desenvolvendo seus próprios chips
  O Maia da Microsoft, chips de datacenter da AMD/NVIDIA e até aquisições de empresas especializadas em rede mostram que todos estão indo na mesma direção
  O Google está na frente, mas no fim isso deve virar uma competição por convergência
Modelos esparsos (sparse models) podem reduzir em 16 vezes a quantidade de computação e espaço de armazenamento mantendo a mesma qualidade
TPUs são fracos no processamento de matrizes esparsas, mas fortes no treinamento de modelos densos (dense)
- Ainda assim, os TPUs incluem hardware dedicado chamado SparseCore
  Documento de arquitetura de sistema TPU
  Introdução ao SparseCore no OpenXLA
No fim, fica a pergunta: onde está a linha de chegada dessa disputa, ou onde está o piso?

TPU vs. GPU, e por que o Google pode vencer a disputa de IA no longo prazo

História do TPU e contexto de desenvolvimento

Diferenças estruturais entre TPU e GPU

Comparação de desempenho: TPU vs GPU

Problemas que dificultam a adoção do TPU

Valor estratégico do TPU para o Google Cloud

Leituras relacionadas

1 comentários

Comentários do Hacker News