- O Google TPU é um chip ASIC dedicado projetado para lidar com cargas massivas de inferência de IA, garantindo mais eficiência e competitividade de custo em relação às GPUs
- O principal diferencial é a arquitetura Systolic Array, que minimiza o acesso à memória e maximiza a eficiência computacional (Operations per Joule)
- O mais recente TPUv7 (Ironwood) trouxe um salto enorme em desempenho e largura de banda de memória em relação à geração anterior, alcançando um nível de performance semelhante ao da GPU Nvidia Blackwell
- As limitações do ecossistema do TPU e sua estrutura de oferta exclusiva no GCP são os principais obstáculos para sua adoção mais ampla, mas o Google está reorganizando equipes e reforçando o suporte para expandir a base de clientes externos
- Com recuperação de margem na nuvem e reforço de competitividade por meio de chips próprios, o Google pode se tornar, no longo prazo, um dos principais vencedores do mercado de infraestrutura de IA
História do TPU e contexto de desenvolvimento
- Em 2013, o Google concluiu que precisaria de o dobro da capacidade de datacenter por causa do aumento no uso da busca por voz
- CPUs e GPUs existentes tinham dificuldade para processar com eficiência operações de deep learning (multiplicações de matrizes em larga escala)
- Diante disso, o Google decidiu desenvolver um ASIC dedicado para redes neurais do TensorFlow e colocou o silício em produção nos datacenters em apenas 15 meses
- Em 2015, o TPU já era usado em serviços importantes como Google Maps, Photos e Translate
- Foi apresentado oficialmente no Google I/O de 2016 e, desde então, evoluiu como infraestrutura central para reduzir o custo de inferência em IA
Diferenças estruturais entre TPU e GPU
- A GPU é um processador paralelo de uso geral, enquanto o TPU é uma arquitetura especializada por domínio
- A GPU foi projetada para processamento gráfico e inclui lógicas de controle complexas, como cache e previsão de desvio
- O TPU remove esses elementos e minimiza a movimentação de dados com uma estrutura Systolic Array
- O Systolic Array do TPU carrega os dados uma vez e depois os transmite em um fluxo contínuo de computação, reduzindo o gargalo de Von Neumann
- Melhorias do Ironwood (7ª geração)
- Reforço do SparseCore para melhorar a eficiência no processamento de embeddings em larga escala
- HBM de 192 GB e largura de banda de 7.370 GB/s
- Melhora no desempenho do Inter-Chip Interconnect (ICI), com até 1,2 TB/s de largura de banda
- O Google monta grandes TPU Pods com Optical Circuit Switch (OCS) e rede 3D torus
- A eficiência energética é alta, mas a flexibilidade é menor que a do InfiniBand
Comparação de desempenho: TPU vs GPU
- TPUv7 (BF16 4.614 TFLOPS) vs TPUv5p (459 TFLOPS), cerca de 10x de ganho de desempenho
- Resumo de entrevistas do setor
- O TPU leva vantagem em eficiência energética por desempenho e em custo-benefício
- Em certas aplicações, alcança 1,4x mais desempenho por dólar
- O TPUv6 tem vantagem de 60% a 65% em eficiência frente às GPUs; a geração anterior tinha de 40% a 45%
- O TPU gera menos calor e consome menos energia, com menor impacto ambiental
- Alguns clientes conseguem reduzir custos para 1/5 ao usar um TPU Pod
- Graças à estrutura ASIC, há menção a redução de 30% no tamanho e 50% no consumo de energia
- Segundo materiais internos do Google, o TPUv7 dobra o desempenho por watt em relação ao TPUv6e
- O CEO da Nvidia, Jensen Huang, também chamou o TPU de um “caso especial”, reconhecendo sua relevância
Problemas que dificultam a adoção do TPU
- A primeira barreira é o ecossistema (domínio do CUDA)
- Tanto universidades quanto a indústria ensinam e desenvolvem majoritariamente em torno de CUDA
- O TPU gira mais em torno de JAX e TensorFlow, e o suporte a PyTorch foi fortalecido relativamente tarde
- A expansão da estratégia multicloud também impõe limitações
- Como a maioria das empresas distribui seus dados entre AWS, Azure e GCP, os custos de movimentação de dados (egress) são altos, o que torna workloads baseados em GPU mais flexíveis
- O TPU é exclusivo do GCP, enquanto a Nvidia está disponível nas três grandes nuvens
- Se uma empresa adota TPU e depois os preços mudam ou o ambiente se altera, o custo de reescrita pode ser muito alto
- Só recentemente o Google começou a ampliar sua organização para vendas externas e expansão, e alguns ex-funcionários e funcionários atuais mencionam a possibilidade futura de fornecimento externo via neoclouds, entre outros
Valor estratégico do TPU para o Google Cloud
- Na era da IA, a indústria de nuvem está migrando de uma estrutura de alta margem (50% a 70%) para baixa margem (20% a 35%)
- A causa é a pressão de custos gerada pela margem de 75% da Nvidia
- Apenas operadores com ASIC próprio, especialmente TPU, podem voltar às margens tradicionais de nuvem (na faixa dos 50%)
- Vantagens do Google
- O TPU é o ASIC para nuvem mais maduro
- O Google executa internamente a maior parte do frontend do projeto de chips, incluindo RTL
- A Broadcom cuida apenas do projeto físico (backend), e como sua estrutura de margem é menor que a da Nvidia, isso fortalece a competitividade de custo do TPU
- O Google controla toda a stack de otimização de software, maximizando o desempenho do hardware
- Com base no TPU, modelos importantes como o Gemini 3 realizam treinamento e inferência
- O uso de TPU está se expandindo por toda a oferta interna de serviços de IA
- A SemiAnalysis avaliou que “o TPU de 7ª geração do Google está no mesmo nível do Nvidia Blackwell”
- O TPU é visto como a vantagem competitiva de longo prazo do GCP e como a principal força por trás da expansão de participação no mercado de infraestrutura de IA
1 comentários
Comentários do Hacker News
A verdadeira arma do Google não é o silício do TPU em si, mas a escalabilidade massivamente paralela por meio da interconexão OCS (Optical Circuit Switch)
Segundo citação do The Next Platform, é possível conectar 9.216 TPUs Ironwood para usar 1,77 PB de memória HBM. Isso é uma escala esmagadoramente maior que os sistemas em rack baseados em GPUs Blackwell da Nvidia (20,7 TB de HBM)
A Nvidia é excelente no nível de chip único, mas em treinamento ou inferência distribuídos em larga escala não tem nada comparável à escalabilidade com comutação óptica do Google
A maioria das empresas não precisa comprar hardware nem treinar modelos por conta própria; basta usar algo como uma app store de IA oferecida pelo Google
Por exemplo, modelos Mixture of Experts exigem muita comunicação all-to-all, então o lado do NVLink é muito mais eficiente
Link para o tweet oficial da Nvidia
Para paralelização de modelo, redes pequenas e rápidas são vantajosas; para paralelização de dados, redes grandes são melhores. É esse equilíbrio que faz a Nvidia vencer
O Gemini 3 Pro já está perto de parecer antigo. Embora o Google tenha muito mais recursos que a Anthropic, se o hardware fosse a arma secreta, ele já deveria ter dominado o mercado
Mas a realidade é outra
Há quem diga que o CUDA é importante para treinamento, mas menos importante na fase de inferência
Já a inferência é um processo simples de aplicar repetidamente pesos fixos, então o TPU pode ser mais eficiente
Não existe motivo para a Nvidia não conseguir fazer chips especializados como os TPUs
A Nvidia terceiriza a fabricação para a TSMC e vende caro, enquanto o Google economiza margem ao usar internamente
Há uma reportagem da Reuters dizendo que a Meta está em negociação para investir bilhões de dólares nos chips do Google
ASICs para LLM são muito mais complexos do que ASICs para criptomoedas. Cripto só precisa processar algoritmos de hash fixos, mas LLMs continuam evoluindo
Fica confuso entender o que o TPU significa nesse contexto
Seria bom haver mais opções de TPU independente para uso pessoal. Hoje, a única escolha é o Coral de 2019
Esse debate é tão acadêmico quanto RISC vs CISC. No fim, as GPUs da Nvidia também estão sendo projetadas para fazer o mesmo trabalho dos TPUs
Mesmo dentro do Google, daqui a 5 anos pode não haver grande diferença
O Google lucra com TPUs, mas para desenvolvedores externos não há benefício direto
O Maia da Microsoft, chips de datacenter da AMD/NVIDIA e até aquisições de empresas especializadas em rede mostram que todos estão indo na mesma direção
O Google está na frente, mas no fim isso deve virar uma competição por convergência
Modelos esparsos (sparse models) podem reduzir em 16 vezes a quantidade de computação e espaço de armazenamento mantendo a mesma qualidade
TPUs são fracos no processamento de matrizes esparsas, mas fortes no treinamento de modelos densos (dense)
Documento de arquitetura de sistema TPU
Introdução ao SparseCore no OpenXLA
No fim, fica a pergunta: onde está a linha de chegada dessa disputa, ou onde está o piso?