Entendendo a Tensor Processing Unit do Google

(considerthebulldog.com)

26 pontos por GN⁺ 2025-12-15 | 3 comentários | Compartilhar no WhatsApp

TPU é o acelerador de domínio específico do Google que elimina sem hesitar tudo o que não for cálculo essencial para deep learning
Começou em 2013, motivada pelos limites de expansão dos data centers, e evoluiu em 12 anos até a 7ª geração, a ‘Ironwood’
Com o fim da era em que o desempenho dos semicondutores melhorava automaticamente, a estratégia de projetar por conta própria em vez de esperar virou uma escolha central
A TPU não é um único chip, mas sim um sistema co-projetado de hardware, compilador, rede e software operacional
A cada geração, o foco do projeto saiu da disputa por desempenho e migrou para energia, implantação e custo operacional (TCO)
A competitividade da TPU não vem de uma única tecnologia, mas da soma de mais de 10 anos de experiência acumulada em projeto e operação

Something New

A TPU não é uma arma secreta, e sim o resultado refinado ao longo do tempo com pesquisa pública e iteração interna
Em vez de continuar ampliando os data centers, o Google escolheu mudar de forma fundamental o modo de computar
Por volta de 2013, a pressão para dobrar a capacidade do data center e as limitações de tempo levaram ao nascimento da TPU em apenas 15 meses
Em abril de 2025, no Google Cloud Next, o Google apresentou a TPU Ironwood de 7ª geração, com 9.216 chips por pod, 42,5 Exaflops e 10 MW
A GPU não foi criada para deep learning, enquanto a TPU foi projetada desde o início tendo o cálculo de redes neurais como premissa
Essa escolha garantiu vantagens estruturais não só em desempenho computacional, mas também em eficiência energética e estabilidade operacional
O resultado não veio por “acaso”, mas do acúmulo de restrições, trade-offs e co-projeto repetidos

Slowing Down

Com o enfraquecimento da Moore’s Law e do Dennard Scaling, antes bastava esperar pela nova CPU para o programa ficar mais rápido, mas essa premissa ruiu
O número de transistores continua aumentando, mas os limites de energia e calor bloqueiam os ganhos de desempenho
Ao mesmo tempo, as redes neurais passaram a exigir mais dados e modelos maiores, fazendo a demanda por computação explodir
Por isso, em vez de “um chip que faz um pouco de tudo”, passou a ser necessário “um chip que faz uma única coisa extremamente bem”
O fato de que o núcleo do cálculo em redes neurais é feito de operações repetitivas centradas em multiplicação de matrizes tornou possível um projeto especializado

The Inference Chip

A primeira TPU focava não em treinamento, mas em inferência (Inference), ou seja, na execução de modelos já treinados
A TPUv1 removeu cache, predição de desvios e multithreading para minimizar o custo de controle
Em vez disso, concentrou todos os recursos no Systolic Array (MXU), capaz de processar grandes multiplicações de matrizes sem parar
Em vez de tomar decisões durante a execução, ela segue a ordem de execução definida no momento da compilação
Como resultado, com a mesma energia ela processa muito mais trabalho de inferência do que GPU e CPU

The Training Chip

O treinamento exige muito mais computação do que a inferência e uma faixa de representação numérica mais ampla
A partir da TPUv2, a arquitetura deixou de ser apenas para inferência e ganhou flexibilidade para treinamento
A principal mudança foi a separação dos papéis de matriz (MXU), vetor (VPU) e controle (Scalar Unit)
O fluxo de execução é calculado e definido antecipadamente pelo compilador XLA, e o chip apenas o executa
Um interconnect dedicado de alta velocidade (ICI) também foi projetado para que várias TPUs funcionem como um único dispositivo

Scaling Up

À medida que o sistema cresce, a pergunta deixa de ser “quão rápido é?” e passa a ser “por quanto tempo e a que custo dá para operar isso?”
Para isso, uma grande memória on-chip (CMEM) é colocada perto das unidades de computação para reduzir acessos lentos à DRAM
Para tarefas com muitos dados esparsos, como sistemas de recomendação, também foram introduzidas unidades dedicadas como o SparseCore
Ao separar a comunicação dentro do chip da comunicação entre chips, foi possível aliviar estruturalmente a complexidade do cabeamento e os gargalos
A eficiência operacional, mais do que os números de desempenho, passou a ditar todo o projeto

Island Hopping

Em ambientes com milhares de TPUs, falhas não são exceção, mas premissa
O objetivo é um sistema que não pare, isto é, uma estrutura capaz de absorver falhas parciais
As tarefas são distribuídas entre várias TPUs, mas gerenciadas para parecer um único programa
Quando surge um problema, em vez de parar tudo, escolhe-se realocação e reinício rápidos
Esse processo complexo é em grande parte tratado automaticamente pelo software operacional

Expansão da Datacenter Network

Quando um único conjunto de TPUs já não basta, é preciso conectar vários conjuntos
Como redes comuns têm limites, foi introduzido o switching óptico (OCS)
Com isso, torna-se possível configurar o data center inteiro como um único recurso computacional gigantesco
Coexistem tanto a abordagem de ampliar o modelo de execução existente quanto um modelo de execução assíncrono totalmente novo (Pathways)
Isso permite lidar com modelos maiores e padrões de comunicação mais complexos

Ceci n’est pas une TPU

As TPUs mais recentes impressionam pelos números, mas os princípios centrais continuam os mesmos do início
Mantém-se a direção de focar no cálculo necessário e remover a complexidade desnecessária
Não é possível replicar esse sistema apenas com especificações de hardware
Compilador (XLA), interconnect dedicado (ICI), switching óptico (OCS) e scheduler operacional precisam funcionar em conjunto
A TPU não é o resultado de uma única invenção, mas do acúmulo de centenas de decisões comuns

Algumas tecnologias-chave que vale lembrar

Systolic Array (MXU): o coração da TPU para processar multiplicação de matrizes com alta eficiência
Compilador XLA: calcula antecipadamente a ordem de execução e elimina o custo de controle
BF16: formato numérico que reduz o custo de hardware mantendo a faixa necessária para treinamento
ICI / OCS: estrutura de comunicação dedicada que une chip, rack e data center como um só
Projeto orientado a TCO: forma de pensar que otimiza o custo operacional de longo prazo acima do desempenho instantâneo

3 comentários

crawler 2025-12-15

Tenho um desejo pessoal
Tomara que as TPUs se popularizem muito e chegue o dia em que as empresas não usem GPUs.
Assim, a Nvidia volte a focar novamente em GPUs para consumidores finais.....

xguru 2025-12-15

Como o texto original é técnico demais, se eu o resumisse tal como está, ele acabaria sendo apenas uma sequência de termos técnicos; então organizei o conteúdo de um jeito que facilite um pouco a compreensão da evolução. Quem tiver curiosidade sobre os detalhes técnicos pode consultar o texto original, que explica tudo com imagens.

GN⁺ 2025-12-15

Comentários no Hacker News

O livro Scaling ML também tem uma excelente seção sobre TPUs — How to Think About TPUs
- Eu também li este texto junto com a análise aprofundada de TPU, do Henry Ko, e achei muito interessante. O que XLA e o escalonador fazem é realmente impressionante. É uma estrutura muito mais complexa do que a do Itanium, e mesmo assim é surpreendente que o software consiga de fato aproveitar esse chip monstruoso. Gostaria que o XLA fosse adotado de forma mais ampla. É open source, então é uma pena ver a falta de interesse da indústria. A Nvidia agora parece estar seguindo uma direção parecida com Tiles. Ainda assim, pelo que sei, o XLA ainda não é muito útil para escalonamento entre várias máquinas
Gostei da explicação estrutural deste texto. A maioria dos textos sobre TPU pula a parte prática, mas este conectou os conceitos com a implementação real, então tudo ficou muito mais claro
O grau em que a arquitetura de TPU é projetada para seu propósito não termina em uma única geração de design. Ironwood é a TPU de 7ª geração, e o processo de evolução dela é muito importante
Eu ainda acho que a Lei de Moore não morreu. Se considerarmos que, de 1965 a 2025, houve uma duplicação a cada dois anos durante 60 anos, isso dá 30 duplicações. Em teoria, para 2025 seriam esperados cerca de 107 bilhões de transistores, e de fato o Apple M1 Ultra tem 114 bilhões
- Algumas pessoas interpretam a Lei de Moore no sentido mais forte, como se a “velocidade de duplicação fosse constante”, mas isso já acabou há muito tempo. Ainda assim, se você tratar essa velocidade como uma constante que varia lentamente, ela continua válida. O problema é que, se você olhar apenas para os valores-limite e tirar uma média simples, não vai refletir a tendência recente de mudança
Surpreende que a perspectiva de a China conseguir produzir TPUs em larga escala dentro de alguns anos não tenha virado uma notícia maior. Isso poderia ser um grande golpe para Google, NVIDIA e outras. Houve também o caso em 2022~2023 de um chinês que vazou documentos de TPUv4 e v6. Já existe inclusive uma startup chinesa criando seu próprio cluster de TPU e gerando receita
- Mas a fabricação em si é a parte mais difícil. A China tem conhecimento suficiente de design, mas não capacidade suficiente para fabricar os chips de fato. A manufatura de semicondutores exige a “capacidade mágica” que a TSMC tem. Intel e Samsung também conseguem até certo ponto, mas ainda existe uma grande diferença
- Metade do artigo tratava das dependências de software entre TPU, Borb, lilpunet, redes ópticas de comutação e outros componentes. Sistemas complexos assim são difíceis de replicar apenas com tecnologia de fabricação
- O Google usa TPUs para seus próprios serviços, então mesmo que outras empresas criem chips parecidos, o impacto não seria tão grande. Na verdade, é mais realista imaginar a quebra do monopólio de mercado da NVIDIA. Unidades FMA/MAC têm design simples, então Apple, Qualcomm, AMD, Amazon, Huawei e quase todas as empresas já estão colocando sua própria “TPU”. Mesmo que os EUA treinem 600 mil estudantes chineses, o verdadeiro ponto central continua sendo a fabricação e a tecnologia de processo
- Não entendi a história de “bases nucleares e mão de obra”. Não sei o que bases nucleares têm a ver com fabricação de semicondutores. E também não é como se todos os 600 mil estudantes estivessem aprendendo design de chips
- Dizer que tem medo de que as TPUs fiquem mais baratas soa um pouco como sarcasmo
Fico curioso se, ao usar TPUs no GCP, ainda se fica preso àquele sistema estranho de buckets do Google. Na época isso era realmente muito incômodo