26 pontos por GN⁺ 2025-12-15 | 3 comentários | Compartilhar no WhatsApp
  • TPU é o acelerador de domínio específico do Google que elimina sem hesitar tudo o que não for cálculo essencial para deep learning
  • Começou em 2013, motivada pelos limites de expansão dos data centers, e evoluiu em 12 anos até a 7ª geração, a ‘Ironwood’
  • Com o fim da era em que o desempenho dos semicondutores melhorava automaticamente, a estratégia de projetar por conta própria em vez de esperar virou uma escolha central
  • A TPU não é um único chip, mas sim um sistema co-projetado de hardware, compilador, rede e software operacional
  • A cada geração, o foco do projeto saiu da disputa por desempenho e migrou para energia, implantação e custo operacional (TCO)
  • A competitividade da TPU não vem de uma única tecnologia, mas da soma de mais de 10 anos de experiência acumulada em projeto e operação

Something New

  • A TPU não é uma arma secreta, e sim o resultado refinado ao longo do tempo com pesquisa pública e iteração interna
  • Em vez de continuar ampliando os data centers, o Google escolheu mudar de forma fundamental o modo de computar
  • Por volta de 2013, a pressão para dobrar a capacidade do data center e as limitações de tempo levaram ao nascimento da TPU em apenas 15 meses
  • Em abril de 2025, no Google Cloud Next, o Google apresentou a TPU Ironwood de 7ª geração, com 9.216 chips por pod, 42,5 Exaflops e 10 MW
  • A GPU não foi criada para deep learning, enquanto a TPU foi projetada desde o início tendo o cálculo de redes neurais como premissa
  • Essa escolha garantiu vantagens estruturais não só em desempenho computacional, mas também em eficiência energética e estabilidade operacional
  • O resultado não veio por “acaso”, mas do acúmulo de restrições, trade-offs e co-projeto repetidos

Slowing Down

  • Com o enfraquecimento da Moore’s Law e do Dennard Scaling, antes bastava esperar pela nova CPU para o programa ficar mais rápido, mas essa premissa ruiu
  • O número de transistores continua aumentando, mas os limites de energia e calor bloqueiam os ganhos de desempenho
  • Ao mesmo tempo, as redes neurais passaram a exigir mais dados e modelos maiores, fazendo a demanda por computação explodir
  • Por isso, em vez de “um chip que faz um pouco de tudo”, passou a ser necessário “um chip que faz uma única coisa extremamente bem”
  • O fato de que o núcleo do cálculo em redes neurais é feito de operações repetitivas centradas em multiplicação de matrizes tornou possível um projeto especializado

The Inference Chip

  • A primeira TPU focava não em treinamento, mas em inferência (Inference), ou seja, na execução de modelos já treinados
  • A TPUv1 removeu cache, predição de desvios e multithreading para minimizar o custo de controle
  • Em vez disso, concentrou todos os recursos no Systolic Array (MXU), capaz de processar grandes multiplicações de matrizes sem parar
  • Em vez de tomar decisões durante a execução, ela segue a ordem de execução definida no momento da compilação
  • Como resultado, com a mesma energia ela processa muito mais trabalho de inferência do que GPU e CPU

The Training Chip

  • O treinamento exige muito mais computação do que a inferência e uma faixa de representação numérica mais ampla
  • A partir da TPUv2, a arquitetura deixou de ser apenas para inferência e ganhou flexibilidade para treinamento
  • A principal mudança foi a separação dos papéis de matriz (MXU), vetor (VPU) e controle (Scalar Unit)
  • O fluxo de execução é calculado e definido antecipadamente pelo compilador XLA, e o chip apenas o executa
  • Um interconnect dedicado de alta velocidade (ICI) também foi projetado para que várias TPUs funcionem como um único dispositivo

Scaling Up

  • À medida que o sistema cresce, a pergunta deixa de ser “quão rápido é?” e passa a ser “por quanto tempo e a que custo dá para operar isso?”
  • Para isso, uma grande memória on-chip (CMEM) é colocada perto das unidades de computação para reduzir acessos lentos à DRAM
  • Para tarefas com muitos dados esparsos, como sistemas de recomendação, também foram introduzidas unidades dedicadas como o SparseCore
  • Ao separar a comunicação dentro do chip da comunicação entre chips, foi possível aliviar estruturalmente a complexidade do cabeamento e os gargalos
  • A eficiência operacional, mais do que os números de desempenho, passou a ditar todo o projeto

Island Hopping

  • Em ambientes com milhares de TPUs, falhas não são exceção, mas premissa
  • O objetivo é um sistema que não pare, isto é, uma estrutura capaz de absorver falhas parciais
  • As tarefas são distribuídas entre várias TPUs, mas gerenciadas para parecer um único programa
  • Quando surge um problema, em vez de parar tudo, escolhe-se realocação e reinício rápidos
  • Esse processo complexo é em grande parte tratado automaticamente pelo software operacional

Expansão da Datacenter Network

  • Quando um único conjunto de TPUs já não basta, é preciso conectar vários conjuntos
  • Como redes comuns têm limites, foi introduzido o switching óptico (OCS)
  • Com isso, torna-se possível configurar o data center inteiro como um único recurso computacional gigantesco
  • Coexistem tanto a abordagem de ampliar o modelo de execução existente quanto um modelo de execução assíncrono totalmente novo (Pathways)
  • Isso permite lidar com modelos maiores e padrões de comunicação mais complexos

Ceci n’est pas une TPU

  • As TPUs mais recentes impressionam pelos números, mas os princípios centrais continuam os mesmos do início
  • Mantém-se a direção de focar no cálculo necessário e remover a complexidade desnecessária
  • Não é possível replicar esse sistema apenas com especificações de hardware
  • Compilador (XLA), interconnect dedicado (ICI), switching óptico (OCS) e scheduler operacional precisam funcionar em conjunto
  • A TPU não é o resultado de uma única invenção, mas do acúmulo de centenas de decisões comuns

Algumas tecnologias-chave que vale lembrar

  • Systolic Array (MXU): o coração da TPU para processar multiplicação de matrizes com alta eficiência
  • Compilador XLA: calcula antecipadamente a ordem de execução e elimina o custo de controle
  • BF16: formato numérico que reduz o custo de hardware mantendo a faixa necessária para treinamento
  • ICI / OCS: estrutura de comunicação dedicada que une chip, rack e data center como um só
  • Projeto orientado a TCO: forma de pensar que otimiza o custo operacional de longo prazo acima do desempenho instantâneo

3 comentários

 
crawler 2025-12-15

Tenho um desejo pessoal
Tomara que as TPUs se popularizem muito e chegue o dia em que as empresas não usem GPUs.
Assim, a Nvidia volte a focar novamente em GPUs para consumidores finais.....

 
xguru 2025-12-15

Como o texto original é técnico demais, se eu o resumisse tal como está, ele acabaria sendo apenas uma sequência de termos técnicos; então organizei o conteúdo de um jeito que facilite um pouco a compreensão da evolução. Quem tiver curiosidade sobre os detalhes técnicos pode consultar o texto original, que explica tudo com imagens.

 
GN⁺ 2025-12-15
Comentários no Hacker News
  • O livro Scaling ML também tem uma excelente seção sobre TPUs — How to Think About TPUs
    • Eu também li este texto junto com a análise aprofundada de TPU, do Henry Ko, e achei muito interessante. O que XLA e o escalonador fazem é realmente impressionante. É uma estrutura muito mais complexa do que a do Itanium, e mesmo assim é surpreendente que o software consiga de fato aproveitar esse chip monstruoso. Gostaria que o XLA fosse adotado de forma mais ampla. É open source, então é uma pena ver a falta de interesse da indústria. A Nvidia agora parece estar seguindo uma direção parecida com Tiles. Ainda assim, pelo que sei, o XLA ainda não é muito útil para escalonamento entre várias máquinas
  • Gostei da explicação estrutural deste texto. A maioria dos textos sobre TPU pula a parte prática, mas este conectou os conceitos com a implementação real, então tudo ficou muito mais claro
  • O grau em que a arquitetura de TPU é projetada para seu propósito não termina em uma única geração de design. Ironwood é a TPU de 7ª geração, e o processo de evolução dela é muito importante
  • Eu ainda acho que a Lei de Moore não morreu. Se considerarmos que, de 1965 a 2025, houve uma duplicação a cada dois anos durante 60 anos, isso dá 30 duplicações. Em teoria, para 2025 seriam esperados cerca de 107 bilhões de transistores, e de fato o Apple M1 Ultra tem 114 bilhões
    • Algumas pessoas interpretam a Lei de Moore no sentido mais forte, como se a “velocidade de duplicação fosse constante”, mas isso já acabou há muito tempo. Ainda assim, se você tratar essa velocidade como uma constante que varia lentamente, ela continua válida. O problema é que, se você olhar apenas para os valores-limite e tirar uma média simples, não vai refletir a tendência recente de mudança
  • Surpreende que a perspectiva de a China conseguir produzir TPUs em larga escala dentro de alguns anos não tenha virado uma notícia maior. Isso poderia ser um grande golpe para Google, NVIDIA e outras. Houve também o caso em 2022~2023 de um chinês que vazou documentos de TPUv4 e v6. Já existe inclusive uma startup chinesa criando seu próprio cluster de TPU e gerando receita
    • Mas a fabricação em si é a parte mais difícil. A China tem conhecimento suficiente de design, mas não capacidade suficiente para fabricar os chips de fato. A manufatura de semicondutores exige a “capacidade mágica” que a TSMC tem. Intel e Samsung também conseguem até certo ponto, mas ainda existe uma grande diferença
    • Metade do artigo tratava das dependências de software entre TPU, Borb, lilpunet, redes ópticas de comutação e outros componentes. Sistemas complexos assim são difíceis de replicar apenas com tecnologia de fabricação
    • O Google usa TPUs para seus próprios serviços, então mesmo que outras empresas criem chips parecidos, o impacto não seria tão grande. Na verdade, é mais realista imaginar a quebra do monopólio de mercado da NVIDIA. Unidades FMA/MAC têm design simples, então Apple, Qualcomm, AMD, Amazon, Huawei e quase todas as empresas já estão colocando sua própria “TPU”. Mesmo que os EUA treinem 600 mil estudantes chineses, o verdadeiro ponto central continua sendo a fabricação e a tecnologia de processo
    • Não entendi a história de “bases nucleares e mão de obra”. Não sei o que bases nucleares têm a ver com fabricação de semicondutores. E também não é como se todos os 600 mil estudantes estivessem aprendendo design de chips
    • Dizer que tem medo de que as TPUs fiquem mais baratas soa um pouco como sarcasmo
  • Fico curioso se, ao usar TPUs no GCP, ainda se fica preso àquele sistema estranho de buckets do Google. Na época isso era realmente muito incômodo