7 pontos por GN⁺ 2025-11-28 | 1 comentários | Compartilhar no WhatsApp
  • O Google TPU é um chip ASIC dedicado projetado para lidar com cargas massivas de inferência de IA, garantindo mais eficiência e competitividade de custo em relação às GPUs
  • O principal diferencial é a arquitetura Systolic Array, que minimiza o acesso à memória e maximiza a eficiência computacional (Operations per Joule)
  • O mais recente TPUv7 (Ironwood) trouxe um salto enorme em desempenho e largura de banda de memória em relação à geração anterior, alcançando um nível de performance semelhante ao da GPU Nvidia Blackwell
  • As limitações do ecossistema do TPU e sua estrutura de oferta exclusiva no GCP são os principais obstáculos para sua adoção mais ampla, mas o Google está reorganizando equipes e reforçando o suporte para expandir a base de clientes externos
  • Com recuperação de margem na nuvem e reforço de competitividade por meio de chips próprios, o Google pode se tornar, no longo prazo, um dos principais vencedores do mercado de infraestrutura de IA

História do TPU e contexto de desenvolvimento

  • Em 2013, o Google concluiu que precisaria de o dobro da capacidade de datacenter por causa do aumento no uso da busca por voz
    • CPUs e GPUs existentes tinham dificuldade para processar com eficiência operações de deep learning (multiplicações de matrizes em larga escala)
  • Diante disso, o Google decidiu desenvolver um ASIC dedicado para redes neurais do TensorFlow e colocou o silício em produção nos datacenters em apenas 15 meses
  • Em 2015, o TPU já era usado em serviços importantes como Google Maps, Photos e Translate
  • Foi apresentado oficialmente no Google I/O de 2016 e, desde então, evoluiu como infraestrutura central para reduzir o custo de inferência em IA

Diferenças estruturais entre TPU e GPU

  • A GPU é um processador paralelo de uso geral, enquanto o TPU é uma arquitetura especializada por domínio
    • A GPU foi projetada para processamento gráfico e inclui lógicas de controle complexas, como cache e previsão de desvio
    • O TPU remove esses elementos e minimiza a movimentação de dados com uma estrutura Systolic Array
  • O Systolic Array do TPU carrega os dados uma vez e depois os transmite em um fluxo contínuo de computação, reduzindo o gargalo de Von Neumann
  • Melhorias do Ironwood (7ª geração)
    • Reforço do SparseCore para melhorar a eficiência no processamento de embeddings em larga escala
    • HBM de 192 GB e largura de banda de 7.370 GB/s
    • Melhora no desempenho do Inter-Chip Interconnect (ICI), com até 1,2 TB/s de largura de banda
  • O Google monta grandes TPU Pods com Optical Circuit Switch (OCS) e rede 3D torus
    • A eficiência energética é alta, mas a flexibilidade é menor que a do InfiniBand

Comparação de desempenho: TPU vs GPU

  • TPUv7 (BF16 4.614 TFLOPS) vs TPUv5p (459 TFLOPS), cerca de 10x de ganho de desempenho
  • Resumo de entrevistas do setor
    • O TPU leva vantagem em eficiência energética por desempenho e em custo-benefício
    • Em certas aplicações, alcança 1,4x mais desempenho por dólar
    • O TPUv6 tem vantagem de 60% a 65% em eficiência frente às GPUs; a geração anterior tinha de 40% a 45%
    • O TPU gera menos calor e consome menos energia, com menor impacto ambiental
  • Alguns clientes conseguem reduzir custos para 1/5 ao usar um TPU Pod
  • Graças à estrutura ASIC, há menção a redução de 30% no tamanho e 50% no consumo de energia
  • Segundo materiais internos do Google, o TPUv7 dobra o desempenho por watt em relação ao TPUv6e
  • O CEO da Nvidia, Jensen Huang, também chamou o TPU de um “caso especial”, reconhecendo sua relevância

Problemas que dificultam a adoção do TPU

  • A primeira barreira é o ecossistema (domínio do CUDA)
    • Tanto universidades quanto a indústria ensinam e desenvolvem majoritariamente em torno de CUDA
    • O TPU gira mais em torno de JAX e TensorFlow, e o suporte a PyTorch foi fortalecido relativamente tarde
  • A expansão da estratégia multicloud também impõe limitações
    • Como a maioria das empresas distribui seus dados entre AWS, Azure e GCP, os custos de movimentação de dados (egress) são altos, o que torna workloads baseados em GPU mais flexíveis
    • O TPU é exclusivo do GCP, enquanto a Nvidia está disponível nas três grandes nuvens
  • Se uma empresa adota TPU e depois os preços mudam ou o ambiente se altera, o custo de reescrita pode ser muito alto
  • Só recentemente o Google começou a ampliar sua organização para vendas externas e expansão, e alguns ex-funcionários e funcionários atuais mencionam a possibilidade futura de fornecimento externo via neoclouds, entre outros

Valor estratégico do TPU para o Google Cloud

  • Na era da IA, a indústria de nuvem está migrando de uma estrutura de alta margem (50% a 70%) para baixa margem (20% a 35%)
    • A causa é a pressão de custos gerada pela margem de 75% da Nvidia
  • Apenas operadores com ASIC próprio, especialmente TPU, podem voltar às margens tradicionais de nuvem (na faixa dos 50%)
  • Vantagens do Google
    • O TPU é o ASIC para nuvem mais maduro
    • O Google executa internamente a maior parte do frontend do projeto de chips, incluindo RTL
    • A Broadcom cuida apenas do projeto físico (backend), e como sua estrutura de margem é menor que a da Nvidia, isso fortalece a competitividade de custo do TPU
    • O Google controla toda a stack de otimização de software, maximizando o desempenho do hardware
  • Com base no TPU, modelos importantes como o Gemini 3 realizam treinamento e inferência
    • O uso de TPU está se expandindo por toda a oferta interna de serviços de IA
  • A SemiAnalysis avaliou que “o TPU de 7ª geração do Google está no mesmo nível do Nvidia Blackwell”
  • O TPU é visto como a vantagem competitiva de longo prazo do GCP e como a principal força por trás da expansão de participação no mercado de infraestrutura de IA

1 comentários

 
GN⁺ 2025-11-28
Comentários do Hacker News
  • A verdadeira arma do Google não é o silício do TPU em si, mas a escalabilidade massivamente paralela por meio da interconexão OCS (Optical Circuit Switch)
    Segundo citação do The Next Platform, é possível conectar 9.216 TPUs Ironwood para usar 1,77 PB de memória HBM. Isso é uma escala esmagadoramente maior que os sistemas em rack baseados em GPUs Blackwell da Nvidia (20,7 TB de HBM)
    A Nvidia é excelente no nível de chip único, mas em treinamento ou inferência distribuídos em larga escala não tem nada comparável à escalabilidade com comutação óptica do Google

    • O Google possui toda a pilha verticalmente integrada. Graças a isso, consegue oferecer serviços de IA em escala de nuvem de forma muito mais barata e lucrativa
      A maioria das empresas não precisa comprar hardware nem treinar modelos por conta própria; basta usar algo como uma app store de IA oferecida pelo Google
    • Na verdade, os dois sistemas têm arquiteturas de rede totalmente diferentes. O NVLink da Nvidia é um fabric comutado all-to-all, enquanto o TPU usa uma estrutura de torus 3D
      Por exemplo, modelos Mixture of Experts exigem muita comunicação all-to-all, então o lado do NVLink é muito mais eficiente
    • A Nvidia ainda publica tweets afirmando que sua tecnologia é melhor
      Link para o tweet oficial da Nvidia
    • Se a alegação do Google fosse verdadeira, ele deveria dominar os benchmarks do MLPerf, mas isso não acontece
      Para paralelização de modelo, redes pequenas e rápidas são vantajosas; para paralelização de dados, redes grandes são melhores. É esse equilíbrio que faz a Nvidia vencer
    • Para igualar a mesma capacidade de memória, o Google precisa de 100 vezes mais chips
  • O Gemini 3 Pro já está perto de parecer antigo. Embora o Google tenha muito mais recursos que a Anthropic, se o hardware fosse a arma secreta, ele já deveria ter dominado o mercado
    Mas a realidade é outra

    1. É difícil usar o hardware com eficiência, e quando a otimização termina, o trabalho já migrou para o próximo modelo
    2. Para a maioria das empresas, dá para resolver com dinheiro. O H100 já funciona bem o suficiente
    3. Só novas técnicas de pesquisa já conseguem elevar bastante o desempenho dos modelos
    4. O desenvolvimento de modelos ainda envolve muito trabalho humano, como curadoria de datasets e avaliação
    5. Hardware customizado cria problemas customizados. Não dá para achar resposta para problemas de cluster TPU no Stack Overflow
  • Há quem diga que o CUDA é importante para treinamento, mas menos importante na fase de inferência

    • Os chips da NVIDIA são mais genéricos. Durante o treinamento, são necessárias várias funções como operações especiais de sin e cos, armazenamento de cálculos intermediários, tratamento de gradientes etc.
      Já a inferência é um processo simples de aplicar repetidamente pesos fixos, então o TPU pode ser mais eficiente
    • O mercado de chips para treinamento pode ser uma bolha, mas o mercado de inferência é muito maior. Quando o desempenho dos modelos for bom o bastante, a demanda por treinamento pode cair, e sistemas de inferência energeticamente eficientes devem se tornar predominantes
    • O motivo de o CUDA ser importante é a dependência do ecossistema. A maior parte do software de treinamento foi construída sobre CUDA
    • Treinamento é o processo de dividir um problema enorme e gerenciar dependências de dados; inferência é um conjunto de pequenos problemas independentes
    • O CUDA oferece uma experiência para desenvolvedores muito melhor. Quando a produtividade em pesquisa importa, isso é decisivo
  • Não existe motivo para a Nvidia não conseguir fazer chips especializados como os TPUs

    • A Nvidia provavelmente acabará fazendo isso também. A diferença é que o Google é ao mesmo tempo projetista de chips e empresa de IA, então captura todo o lucro
      A Nvidia terceiriza a fabricação para a TSMC e vende caro, enquanto o Google economiza margem ao usar internamente
    • A DeepMind colabora diretamente com a equipe de TPU para projetar chips sob medida para projetos. A OpenAI também anunciou o desenvolvimento de seus próprios chips pelo mesmo motivo, mas isso exige muito capital
    • O TPU é mais barato que GPUs da NVidia e é verticalmente integrado para uso interno do Google
    • O risco para a Nvidia não é tanto uma crise existencial, mas sim queda nas margens. Mesmo que as vendas de chips aumentem 100 vezes, se a margem cair para 5%, o valor de mercado encolhe
    • Na prática, a Nvidia já está evoluindo na mesma direção com os Tensor Cores
  • Há uma reportagem da Reuters dizendo que a Meta está em negociação para investir bilhões de dólares nos chips do Google

  • ASICs para LLM são muito mais complexos do que ASICs para criptomoedas. Cripto só precisa processar algoritmos de hash fixos, mas LLMs continuam evoluindo
    Fica confuso entender o que o TPU significa nesse contexto

    • Em LLMs, largura de banda de memória e de interconexão é crucial. Já em cripto, o foco é 100% computação
    • A maioria dos LLMs gira em torno de multiplicação de matrizes, e o TPU acelera isso. O PyTorch também tem suporte a TPU
    • Mesmo um ASIC pode ser programável. Como o TPU precisa executar vários modelos diferentes, ele é diferente de um chip hardcoded
    • A arquitetura dos LLMs muda, mas os componentes comuns (operações matriciais, tipos de ponto flutuante) permanecem iguais. Portanto, o TPU é, na prática, um ASIC para LLMs
    • Criptomoedas também mudam. Por exemplo, o Monero usa uma estrutura em nível de CPU para bloquear ASICs
  • Seria bom haver mais opções de TPU independente para uso pessoal. Hoje, a única escolha é o Coral de 2019

  • Esse debate é tão acadêmico quanto RISC vs CISC. No fim, as GPUs da Nvidia também estão sendo projetadas para fazer o mesmo trabalho dos TPUs
    Mesmo dentro do Google, daqui a 5 anos pode não haver grande diferença
    O Google lucra com TPUs, mas para desenvolvedores externos não há benefício direto

    • É verdade que o Google não vende TPUs, mas outras empresas também estão desenvolvendo seus próprios chips
      O Maia da Microsoft, chips de datacenter da AMD/NVIDIA e até aquisições de empresas especializadas em rede mostram que todos estão indo na mesma direção
      O Google está na frente, mas no fim isso deve virar uma competição por convergência
  • Modelos esparsos (sparse models) podem reduzir em 16 vezes a quantidade de computação e espaço de armazenamento mantendo a mesma qualidade
    TPUs são fracos no processamento de matrizes esparsas, mas fortes no treinamento de modelos densos (dense)

  • No fim, fica a pergunta: onde está a linha de chegada dessa disputa, ou onde está o piso?