- TPU é o acelerador de domínio específico do Google que elimina sem hesitar tudo o que não for cálculo essencial para deep learning
- Começou em 2013, motivada pelos limites de expansão dos data centers, e evoluiu em 12 anos até a 7ª geração, a ‘Ironwood’
- Com o fim da era em que o desempenho dos semicondutores melhorava automaticamente, a estratégia de projetar por conta própria em vez de esperar virou uma escolha central
- A TPU não é um único chip, mas sim um sistema co-projetado de hardware, compilador, rede e software operacional
- A cada geração, o foco do projeto saiu da disputa por desempenho e migrou para energia, implantação e custo operacional (TCO)
- A competitividade da TPU não vem de uma única tecnologia, mas da soma de mais de 10 anos de experiência acumulada em projeto e operação
Something New
- A TPU não é uma arma secreta, e sim o resultado refinado ao longo do tempo com pesquisa pública e iteração interna
- Em vez de continuar ampliando os data centers, o Google escolheu mudar de forma fundamental o modo de computar
- Por volta de 2013, a pressão para dobrar a capacidade do data center e as limitações de tempo levaram ao nascimento da TPU em apenas 15 meses
- Em abril de 2025, no Google Cloud Next, o Google apresentou a TPU Ironwood de 7ª geração, com 9.216 chips por pod, 42,5 Exaflops e 10 MW
- A GPU não foi criada para deep learning, enquanto a TPU foi projetada desde o início tendo o cálculo de redes neurais como premissa
- Essa escolha garantiu vantagens estruturais não só em desempenho computacional, mas também em eficiência energética e estabilidade operacional
- O resultado não veio por “acaso”, mas do acúmulo de restrições, trade-offs e co-projeto repetidos
Slowing Down
- Com o enfraquecimento da Moore’s Law e do Dennard Scaling, antes bastava esperar pela nova CPU para o programa ficar mais rápido, mas essa premissa ruiu
- O número de transistores continua aumentando, mas os limites de energia e calor bloqueiam os ganhos de desempenho
- Ao mesmo tempo, as redes neurais passaram a exigir mais dados e modelos maiores, fazendo a demanda por computação explodir
- Por isso, em vez de “um chip que faz um pouco de tudo”, passou a ser necessário “um chip que faz uma única coisa extremamente bem”
- O fato de que o núcleo do cálculo em redes neurais é feito de operações repetitivas centradas em multiplicação de matrizes tornou possível um projeto especializado
The Inference Chip
- A primeira TPU focava não em treinamento, mas em inferência (Inference), ou seja, na execução de modelos já treinados
- A TPUv1 removeu cache, predição de desvios e multithreading para minimizar o custo de controle
- Em vez disso, concentrou todos os recursos no Systolic Array (MXU), capaz de processar grandes multiplicações de matrizes sem parar
- Em vez de tomar decisões durante a execução, ela segue a ordem de execução definida no momento da compilação
- Como resultado, com a mesma energia ela processa muito mais trabalho de inferência do que GPU e CPU
The Training Chip
- O treinamento exige muito mais computação do que a inferência e uma faixa de representação numérica mais ampla
- A partir da TPUv2, a arquitetura deixou de ser apenas para inferência e ganhou flexibilidade para treinamento
- A principal mudança foi a separação dos papéis de matriz (MXU), vetor (VPU) e controle (Scalar Unit)
- O fluxo de execução é calculado e definido antecipadamente pelo compilador XLA, e o chip apenas o executa
- Um interconnect dedicado de alta velocidade (ICI) também foi projetado para que várias TPUs funcionem como um único dispositivo
Scaling Up
- À medida que o sistema cresce, a pergunta deixa de ser “quão rápido é?” e passa a ser “por quanto tempo e a que custo dá para operar isso?”
- Para isso, uma grande memória on-chip (CMEM) é colocada perto das unidades de computação para reduzir acessos lentos à DRAM
- Para tarefas com muitos dados esparsos, como sistemas de recomendação, também foram introduzidas unidades dedicadas como o SparseCore
- Ao separar a comunicação dentro do chip da comunicação entre chips, foi possível aliviar estruturalmente a complexidade do cabeamento e os gargalos
- A eficiência operacional, mais do que os números de desempenho, passou a ditar todo o projeto
Island Hopping
- Em ambientes com milhares de TPUs, falhas não são exceção, mas premissa
- O objetivo é um sistema que não pare, isto é, uma estrutura capaz de absorver falhas parciais
- As tarefas são distribuídas entre várias TPUs, mas gerenciadas para parecer um único programa
- Quando surge um problema, em vez de parar tudo, escolhe-se realocação e reinício rápidos
- Esse processo complexo é em grande parte tratado automaticamente pelo software operacional
Expansão da Datacenter Network
- Quando um único conjunto de TPUs já não basta, é preciso conectar vários conjuntos
- Como redes comuns têm limites, foi introduzido o switching óptico (OCS)
- Com isso, torna-se possível configurar o data center inteiro como um único recurso computacional gigantesco
- Coexistem tanto a abordagem de ampliar o modelo de execução existente quanto um modelo de execução assíncrono totalmente novo (Pathways)
- Isso permite lidar com modelos maiores e padrões de comunicação mais complexos
Ceci n’est pas une TPU
- As TPUs mais recentes impressionam pelos números, mas os princípios centrais continuam os mesmos do início
- Mantém-se a direção de focar no cálculo necessário e remover a complexidade desnecessária
- Não é possível replicar esse sistema apenas com especificações de hardware
- Compilador (XLA), interconnect dedicado (ICI), switching óptico (OCS) e scheduler operacional precisam funcionar em conjunto
- A TPU não é o resultado de uma única invenção, mas do acúmulo de centenas de decisões comuns
Algumas tecnologias-chave que vale lembrar
- Systolic Array (MXU): o coração da TPU para processar multiplicação de matrizes com alta eficiência
- Compilador XLA: calcula antecipadamente a ordem de execução e elimina o custo de controle
- BF16: formato numérico que reduz o custo de hardware mantendo a faixa necessária para treinamento
- ICI / OCS: estrutura de comunicação dedicada que une chip, rack e data center como um só
- Projeto orientado a TCO: forma de pensar que otimiza o custo operacional de longo prazo acima do desempenho instantâneo
3 comentários
Tenho um desejo pessoal
Tomara que as TPUs se popularizem muito e chegue o dia em que as empresas não usem GPUs.
Assim, a Nvidia volte a focar novamente em GPUs para consumidores finais.....
Como o texto original é técnico demais, se eu o resumisse tal como está, ele acabaria sendo apenas uma sequência de termos técnicos; então organizei o conteúdo de um jeito que facilite um pouco a compreensão da evolução. Quem tiver curiosidade sobre os detalhes técnicos pode consultar o texto original, que explica tudo com imagens.
Comentários no Hacker News