- O Google anunciou dois TPUs de 8ª geração, consolidando mais de 10 anos de desenvolvimento de TPU, e adotou arquiteturas especializadas para TPU 8t, dedicado ao treinamento de modelos em larga escala, e TPU 8i, dedicado à inferência de alta velocidade
- O TPU 8t escala um único superpod para até 9.600 chips e 121 ExaFlops, com desempenho de computação por pod cerca de 3 vezes maior que o da geração anterior
- O TPU 8i foi redesenhado para inferência agentiva com foco em otimização de largura de banda de memória e latência, e alcança melhoria de 80% no desempenho por custo com ampliação do SRAM on-chip, host de CPU Axion e melhorias de rede para suporte a MoE
- Ambos os chips rodam em hosts de CPU Axion baseada em ARM projetados pelo próprio Google, com até 2 vezes mais desempenho por watt em relação à geração anterior
- Como estratégia de infraestrutura que separa e otimiza treinamento e inferência para a era em que agentes de IA raciocinam, planejam e executam continuamente, os chips estarão disponíveis de forma geral no segundo semestre deste ano e poderão ser usados como parte do Google AI Hypercomputer
Visão geral do TPU de 8ª geração
- No Google Cloud Next, o Google apresentou a 8ª geração do Tensor Processor Unit(TPU), composta por duas arquiteturas: TPU 8t para treinamento e TPU 8i para inferência
- Foi projetado para operar supercomputadores customizados e abranger treinamento de modelos de ponta, desenvolvimento de agentes e cargas de trabalho de inferência em larga escala
- O Google já vem operando modelos fundacionais importantes, incluindo o Gemini, em TPUs há anos, e a 8ª geração oferece simultaneamente escala, eficiência e desempenho em treinamento, serving e workloads agentivos
- Na era dos agentes de IA, os modelos precisam raciocinar sobre problemas, executar fluxos de trabalho em múltiplas etapas e aprender com suas próprias ações em um loop contínuo, criando novas exigências para a infraestrutura
- Foi projetado em colaboração com o Google DeepMind para lidar com as cargas de trabalho de IA mais exigentes e se adaptar à evolução das arquiteturas de modelos
Mais de 10 anos de filosofia de projeto
- O TPU vem definindo o padrão de componentes de supercomputação para ML, como computação numérica customizada, resfriamento líquido e interconexão customizada, e a 8ª geração consolida mais de 10 anos de desenvolvimento
- Princípio central de projeto: alcançar avanços dramáticos tanto em eficiência energética quanto em desempenho absoluto por meio do co-design do silício com hardware, rede e software, incluindo arquitetura de modelos e requisitos de aplicação
- O texto cita o caso da Citadel Securities, que escolheu TPUs para suas cargas de trabalho de IA, como exemplo de organização líder
Por que separar treinamento e inferência
- Como o ciclo de desenvolvimento de hardware é muito mais longo que o de software, cada geração de TPU precisa prever com antecedência a tecnologia e a demanda do momento em que será lançada
- Há anos o Google já previa o aumento da demanda por inferência decorrente da implantação em produção de modelos de IA de fronteira
- Com a ascensão dos agentes de IA, as exigências de treinamento e serving se tornaram diferentes, e o Google concluiu que chips especializados individualmente beneficiariam a comunidade
- O TPU 8t é otimizado para treinamento em larga escala com maior throughput computacional e maior largura de banda para scale-up
- O TPU 8i é otimizado para workloads de inferência sensíveis à latência com mais largura de banda de memória, porque interações entre agentes amplificam até pequenas ineficiências quando operam em grande escala
- Ambos os chips podem executar cargas de trabalho variadas, mas a especialização trouxe ganhos expressivos de eficiência
TPU 8t: potência dedicada ao treinamento
- O objetivo é encurtar o ciclo de desenvolvimento de modelos de fronteira de meses para semanas
- Combina throughput computacional de alto nível, memória compartilhada e largura de banda entre chips com eficiência energética ideal e alto tempo de computação produtiva
- Em comparação com a geração anterior, oferece cerca de 3 vezes mais desempenho computacional por pod
-
Escala massiva(Massive Scale)
- Um único superpod TPU 8t escala para até 9.600 chips e 2 petabytes de HBM compartilhada
- Largura de banda entre chips 2 vezes maior que a da geração anterior
- Entrega 121 ExaFlops de desempenho computacional, permitindo que os modelos mais complexos usem um único grande pool de memória
-
Utilização máxima(Maximum Utilization)
- Integra acesso a storage 10 vezes mais rápido
- Com TPUDirect, os dados são transferidos diretamente para o TPU, garantindo a máxima utilização de ponta a ponta do sistema
-
Escalabilidade quase linear(Near-Linear Scaling)
- A combinação da nova Virgo Network com os softwares JAX e Pathways permite escalabilidade quase linear em um único cluster lógico para até 1 milhão de chips
-
Confiabilidade e disponibilidade
- Meta de goodput(tempo útil de computação produtiva) acima de 97%
- Inclui recursos abrangentes de RAS(Reliability, Availability, Serviceability)
- Telemetria em tempo real em dezenas de milhares de chips
- Detecção automática de links ICI com falha e roteamento alternativo sem interrupção da tarefa
- OCS(Optical Circuit Switching) para reconfigurar hardware em torno de falhas sem intervenção humana
- Em escala de treinamento de fronteira, falhas de hardware, latência de rede e reinicialização por checkpoint são tempo não produtivo, e uma diferença de 1 ponto percentual pode se traduzir em vários dias de treinamento
TPU 8i: motor de inferência
- Na era agentiva, os usuários esperam poder fazer perguntas, delegar tarefas e receber resultados, então o chip foi otimizado para trabalhos em que vários agentes especializados colaboram em swarming dentro de fluxos complexos
- Para eliminar o “efeito sala de espera”, a pilha foi redesenhada com quatro inovações centrais
-
Rompendo a barreira da memória(Breaking the Memory Wall)
- Vem com 288GB de HBM e 384MB de SRAM on-chip(3 vezes mais que a geração anterior)
- Mantém todo o conjunto de trabalho ativo do modelo on-chip para evitar ociosidade do processador
-
Eficiência baseada em Axion
- Dobra o número de hosts físicos de CPU por servidor e adota a CPU Axion baseada em ARM do Google
- Otimiza o desempenho do sistema como um todo com isolamento NUMA(Non-Uniform Memory Architecture)
-
Escala para modelos MoE
- Para os modelos mais recentes de Mixture of Expert(MoE), dobra a largura de banda ICI para 19,2 Tb/s
- A nova arquitetura Boardfly reduz o diâmetro máximo da rede em mais de 50%, operando como uma única unidade coesa de baixa latência
-
Eliminação de latência(Eliminating Lag)
- O novo CAE(Collectives Acceleration Engine) on-chip descarrega operações globais e reduz a latência on-chip em até 5 vezes
-
Desempenho por custo
- Em comparação com a geração anterior, há 80% mais desempenho por dólar, permitindo atender quase o dobro do volume de clientes com o mesmo custo
Co-design com o Gemini, aberto para todos
- O TPU de 8ª geração é a expressão mais recente da filosofia de co-design que define todas as especificações para resolver os maiores desafios da IA
- Topologia Boardfly: projetada para atender aos requisitos de comunicação dos melhores modelos de inferência atuais
- Capacidade de SRAM do TPU 8i: dimensionada de acordo com a pegada do cache KV de modelos de inferência em escala de produção
- Meta de largura de banda da Virgo Network: derivada dos requisitos de paralelização do treinamento com trilhões de parâmetros
- Pela primeira vez, ambos os chips rodam em hosts de CPU Axion baseada em ARM do próprio Google, permitindo otimização do sistema inteiro, não apenas do chip
-
Frameworks e acessibilidade
- Suporte nativo a JAX, MaxText, PyTorch, SGLang, vLLM
- Oferece acesso bare metal, permitindo acesso direto ao hardware sem overhead de virtualização
- Contribuições open source como a implementação de referência MaxText e o Tunix para aprendizado por reforço dão suporte ao caminho crítico do desenvolvimento até a implantação em produção
Projeto com eficiência energética em larga escala
- Hoje, nos datacenters, não é apenas o fornecimento de chips que importa: a energia é a principal restrição limitante
- A eficiência é otimizada em toda a pilha, com gestão integrada de energia que ajusta dinamicamente o consumo conforme a demanda em tempo real
- Tanto o TPU 8t quanto o TPU 8i oferecem até 2 vezes mais desempenho por watt em relação à geração anterior(Ironwood)
- Eficiência não é apenas uma métrica em nível de chip, mas um compromisso em nível de sistema do silício ao datacenter
- A conexão de rede foi integrada ao mesmo chip de computação, reduzindo significativamente o custo energético da movimentação de dados dentro dos pods TPU
- O datacenter também foi co-projetado com o TPU, e o poder computacional por unidade de energia aumentou 6 vezes em relação a cinco anos atrás
- Ambos os chips são suportados por tecnologia de resfriamento líquido de 4ª geração, mantendo densidade de desempenho impossível com refrigeração a ar
- Ao controlar toda a pilha, do host Axion ao acelerador, o Google alcança otimização de eficiência energética em nível de sistema que seria impossível ao projetar host e chip separadamente
Infraestrutura para a era agentiva
- Toda grande transição computacional exige inovação em infraestrutura, e a era agentiva não é exceção
- A infraestrutura precisa evoluir para atender às demandas de agentes autônomos que executam loops contínuos de raciocínio, planejamento, execução e aprendizado
- O TPU 8t e o TPU 8i são a resposta a esse desafio: duas arquiteturas especializadas que redefinem a construção dos melhores modelos de IA, enxames de agentes perfeitamente orquestrados e o gerenciamento das tarefas de inferência mais complexas
- Ambos os chips têm disponibilidade geral prevista para o segundo semestre deste ano
- Poderão ser usados como parte do AI Hypercomputer do Google
- Uma pilha integrada que combina hardware específico(computação, storage, rede), software aberto(frameworks, motores de inferência) e modelos flexíveis de consumo(orquestração, gerenciamento de cluster, modelos de entrega)
1 comentários
Comentários no Hacker News
Tive a impressão de que o Gemini 3 já mostrou até onde dá para ir com treinamento focado em eficiência. Eu estimaria que o Pro e o Flash parecem ser algo como 5 a 10 vezes menores do que modelos do nível do Opus ou do GPT-5 As chamadas de ferramenta quebram com frequência e, em tarefas agentic, no geral ele é fraco, então ainda parece faltar refinamento em raciocínio e execução. Mesmo assim, olhando só para resolução pura de problemas, sem ferramentas nem busca, a impressão é que ele bate de frente com Opus e GPT, mas com tamanho muito menor Quando o Google finalmente sair da fase de prototipagem em preview e lançar um modelo formal de verdade, acho que vai surpreender todo mundo com algo uma geração à frente do SOTA atual. Até agora, os modelos lançados pareceram mais protótipos empurrados às pressas para GA para mostrar a investidores e servir como prova de conceito no portfólio de produtos
Hoje, para fazer IA em grande escala, acho que na prática você precisa comprar da NVidia ou alugar do Google. E o Google consegue projetar chip, engine e sistema a partir de uma visão do datacenter como um todo, então pode otimizar até partes que um vendor de chip não consegue centralizar Por isso, imagino que, quanto maior a escala, os sistemas do Google sempre serão mais eficientes em custo. Para constar, estou comprado em GOOG, inclusive por esse motivo
Enquanto outras empresas dominam o ciclo de notícias, o Google parece estar discretamente entrando num fluxo de fortalecimento gradual e acumulando participação no mercado consumidor Talvez por ter sido verticalmente integrado em IA desde o início, quase não parece ter problemas de infraestrutura; em certo momento parecia uma empresa acabada, mas agora dá a sensação de estar crescendo em todas as direções como uma maré cheia
Usando Gemini, ChatGPT e Claude, senti que o Gemini usa consistentemente muito menos tokens do que os outros dois No fim, parece que o fato de o Gemini estar parado nesse nível agora se deve a um thinking budget menor O Google provavelmente tem mais compute e a estrutura de custo mais baixa, então me pergunto por que não força mais o compute de raciocínio como fazem os outros dois. Não sei se é por causa da carga de outros serviços ou por uma estratégia centrada em treinamento, mas acho um ponto bem interessante
A explicação de que um superpod TPU 8t escala para 9.600 chips e até 2PB de memória compartilhada de alta largura de banda foi impressionante Não sou especialista na área, mas pelo menos aos meus olhos isso parece uma vantagem competitiva bem grande do Google
A afirmação de que o TPU 8t e o TPU 8i oferecem até 2x mais desempenho por watt do que a geração anterior foi bem impressionante Fica ainda mais interessante porque a geração anterior é recente a ponto de ser produto de 2025. Também chamou atenção o fato de separarem hardware de treinamento e de inferência, e fiquei curioso se empresas que usam hardware da NV fazem o mesmo ou se é algo mais generalista
Estou usando Gemini com o Junie da JetBrains, e, embora o próprio Junie não seja tão bom quanto o Claude Code, ele me parece muito à frente das ferramentas atuais do Google Com essa combinação, tenho conseguido resultados consistentes com custo bem baixo
Entre os grandes provedores de inferência, sinto que o Google está entre os mais incômodos em política de descontinuação de modelos Exatamente 1 ano após o lançamento, eles removem o modelo e forçam a migração para a geração seguinte; como usam silício próprio, eu esperaria mais estabilidade, mas foi o contrário. O rate limiting também é muito mais rígido do que na OpenAI, então fico em dúvida se isso é culpa dos TPUs ou apenas uma decisão de política estranha
Se houver um vencedor final na IA, imagino que será o Google, por ter a stack completa, ou a Apple, por conseguir implantar o maior número de edge sites capazes de IA; tenho dificuldade de visualizar outro cenário
Este link tinha uma explicação mais detalhada da arquitetura. https://cloud.google.com/blog/products/compute/tpu-8t-and-tpu-8i-technical-deep-dive