Dois chips para a era dos agentes: o TPU de 8ª geração do Google

(blog.google)

6 pontos por GN⁺ 2026-04-23 | 1 comentários | Compartilhar no WhatsApp

O Google anunciou dois TPUs de 8ª geração, consolidando mais de 10 anos de desenvolvimento de TPU, e adotou arquiteturas especializadas para TPU 8t, dedicado ao treinamento de modelos em larga escala, e TPU 8i, dedicado à inferência de alta velocidade
O TPU 8t escala um único superpod para até 9.600 chips e 121 ExaFlops, com desempenho de computação por pod cerca de 3 vezes maior que o da geração anterior
O TPU 8i foi redesenhado para inferência agentiva com foco em otimização de largura de banda de memória e latência, e alcança melhoria de 80% no desempenho por custo com ampliação do SRAM on-chip, host de CPU Axion e melhorias de rede para suporte a MoE
Ambos os chips rodam em hosts de CPU Axion baseada em ARM projetados pelo próprio Google, com até 2 vezes mais desempenho por watt em relação à geração anterior
Como estratégia de infraestrutura que separa e otimiza treinamento e inferência para a era em que agentes de IA raciocinam, planejam e executam continuamente, os chips estarão disponíveis de forma geral no segundo semestre deste ano e poderão ser usados como parte do Google AI Hypercomputer

Visão geral do TPU de 8ª geração

No Google Cloud Next, o Google apresentou a 8ª geração do Tensor Processor Unit(TPU), composta por duas arquiteturas: TPU 8t para treinamento e TPU 8i para inferência
Foi projetado para operar supercomputadores customizados e abranger treinamento de modelos de ponta, desenvolvimento de agentes e cargas de trabalho de inferência em larga escala
O Google já vem operando modelos fundacionais importantes, incluindo o Gemini, em TPUs há anos, e a 8ª geração oferece simultaneamente escala, eficiência e desempenho em treinamento, serving e workloads agentivos
Na era dos agentes de IA, os modelos precisam raciocinar sobre problemas, executar fluxos de trabalho em múltiplas etapas e aprender com suas próprias ações em um loop contínuo, criando novas exigências para a infraestrutura
Foi projetado em colaboração com o Google DeepMind para lidar com as cargas de trabalho de IA mais exigentes e se adaptar à evolução das arquiteturas de modelos

Mais de 10 anos de filosofia de projeto

O TPU vem definindo o padrão de componentes de supercomputação para ML, como computação numérica customizada, resfriamento líquido e interconexão customizada, e a 8ª geração consolida mais de 10 anos de desenvolvimento
Princípio central de projeto: alcançar avanços dramáticos tanto em eficiência energética quanto em desempenho absoluto por meio do co-design do silício com hardware, rede e software, incluindo arquitetura de modelos e requisitos de aplicação
O texto cita o caso da Citadel Securities, que escolheu TPUs para suas cargas de trabalho de IA, como exemplo de organização líder

Por que separar treinamento e inferência

Como o ciclo de desenvolvimento de hardware é muito mais longo que o de software, cada geração de TPU precisa prever com antecedência a tecnologia e a demanda do momento em que será lançada
Há anos o Google já previa o aumento da demanda por inferência decorrente da implantação em produção de modelos de IA de fronteira
Com a ascensão dos agentes de IA, as exigências de treinamento e serving se tornaram diferentes, e o Google concluiu que chips especializados individualmente beneficiariam a comunidade
O TPU 8t é otimizado para treinamento em larga escala com maior throughput computacional e maior largura de banda para scale-up
O TPU 8i é otimizado para workloads de inferência sensíveis à latência com mais largura de banda de memória, porque interações entre agentes amplificam até pequenas ineficiências quando operam em grande escala
Ambos os chips podem executar cargas de trabalho variadas, mas a especialização trouxe ganhos expressivos de eficiência

TPU 8t: potência dedicada ao treinamento

O objetivo é encurtar o ciclo de desenvolvimento de modelos de fronteira de meses para semanas
Combina throughput computacional de alto nível, memória compartilhada e largura de banda entre chips com eficiência energética ideal e alto tempo de computação produtiva
Em comparação com a geração anterior, oferece cerca de 3 vezes mais desempenho computacional por pod
Escala massiva(Massive Scale)
- Um único superpod TPU 8t escala para até 9.600 chips e 2 petabytes de HBM compartilhada
- Largura de banda entre chips 2 vezes maior que a da geração anterior
- Entrega 121 ExaFlops de desempenho computacional, permitindo que os modelos mais complexos usem um único grande pool de memória
Utilização máxima(Maximum Utilization)
- Integra acesso a storage 10 vezes mais rápido
- Com TPUDirect, os dados são transferidos diretamente para o TPU, garantindo a máxima utilização de ponta a ponta do sistema
Escalabilidade quase linear(Near-Linear Scaling)
- A combinação da nova Virgo Network com os softwares JAX e Pathways permite escalabilidade quase linear em um único cluster lógico para até 1 milhão de chips
Confiabilidade e disponibilidade
- Meta de goodput(tempo útil de computação produtiva) acima de 97%
- Inclui recursos abrangentes de RAS(Reliability, Availability, Serviceability)
  - Telemetria em tempo real em dezenas de milhares de chips
  - Detecção automática de links ICI com falha e roteamento alternativo sem interrupção da tarefa
  - OCS(Optical Circuit Switching) para reconfigurar hardware em torno de falhas sem intervenção humana
- Em escala de treinamento de fronteira, falhas de hardware, latência de rede e reinicialização por checkpoint são tempo não produtivo, e uma diferença de 1 ponto percentual pode se traduzir em vários dias de treinamento

TPU 8i: motor de inferência

Na era agentiva, os usuários esperam poder fazer perguntas, delegar tarefas e receber resultados, então o chip foi otimizado para trabalhos em que vários agentes especializados colaboram em swarming dentro de fluxos complexos
Para eliminar o “efeito sala de espera”, a pilha foi redesenhada com quatro inovações centrais
Rompendo a barreira da memória(Breaking the Memory Wall)
- Vem com 288GB de HBM e 384MB de SRAM on-chip(3 vezes mais que a geração anterior)
- Mantém todo o conjunto de trabalho ativo do modelo on-chip para evitar ociosidade do processador
Eficiência baseada em Axion
- Dobra o número de hosts físicos de CPU por servidor e adota a CPU Axion baseada em ARM do Google
- Otimiza o desempenho do sistema como um todo com isolamento NUMA(Non-Uniform Memory Architecture)
Escala para modelos MoE
- Para os modelos mais recentes de Mixture of Expert(MoE), dobra a largura de banda ICI para 19,2 Tb/s
- A nova arquitetura Boardfly reduz o diâmetro máximo da rede em mais de 50%, operando como uma única unidade coesa de baixa latência
Eliminação de latência(Eliminating Lag)
- O novo CAE(Collectives Acceleration Engine) on-chip descarrega operações globais e reduz a latência on-chip em até 5 vezes
Desempenho por custo
- Em comparação com a geração anterior, há 80% mais desempenho por dólar, permitindo atender quase o dobro do volume de clientes com o mesmo custo

Co-design com o Gemini, aberto para todos

O TPU de 8ª geração é a expressão mais recente da filosofia de co-design que define todas as especificações para resolver os maiores desafios da IA
Topologia Boardfly: projetada para atender aos requisitos de comunicação dos melhores modelos de inferência atuais
Capacidade de SRAM do TPU 8i: dimensionada de acordo com a pegada do cache KV de modelos de inferência em escala de produção
Meta de largura de banda da Virgo Network: derivada dos requisitos de paralelização do treinamento com trilhões de parâmetros
Pela primeira vez, ambos os chips rodam em hosts de CPU Axion baseada em ARM do próprio Google, permitindo otimização do sistema inteiro, não apenas do chip
Frameworks e acessibilidade
- Suporte nativo a JAX, MaxText, PyTorch, SGLang, vLLM
- Oferece acesso bare metal, permitindo acesso direto ao hardware sem overhead de virtualização
- Contribuições open source como a implementação de referência MaxText e o Tunix para aprendizado por reforço dão suporte ao caminho crítico do desenvolvimento até a implantação em produção

Projeto com eficiência energética em larga escala

Hoje, nos datacenters, não é apenas o fornecimento de chips que importa: a energia é a principal restrição limitante
A eficiência é otimizada em toda a pilha, com gestão integrada de energia que ajusta dinamicamente o consumo conforme a demanda em tempo real
Tanto o TPU 8t quanto o TPU 8i oferecem até 2 vezes mais desempenho por watt em relação à geração anterior(Ironwood)
Eficiência não é apenas uma métrica em nível de chip, mas um compromisso em nível de sistema do silício ao datacenter
- A conexão de rede foi integrada ao mesmo chip de computação, reduzindo significativamente o custo energético da movimentação de dados dentro dos pods TPU
- O datacenter também foi co-projetado com o TPU, e o poder computacional por unidade de energia aumentou 6 vezes em relação a cinco anos atrás
Ambos os chips são suportados por tecnologia de resfriamento líquido de 4ª geração, mantendo densidade de desempenho impossível com refrigeração a ar
Ao controlar toda a pilha, do host Axion ao acelerador, o Google alcança otimização de eficiência energética em nível de sistema que seria impossível ao projetar host e chip separadamente

Infraestrutura para a era agentiva

Toda grande transição computacional exige inovação em infraestrutura, e a era agentiva não é exceção
A infraestrutura precisa evoluir para atender às demandas de agentes autônomos que executam loops contínuos de raciocínio, planejamento, execução e aprendizado
O TPU 8t e o TPU 8i são a resposta a esse desafio: duas arquiteturas especializadas que redefinem a construção dos melhores modelos de IA, enxames de agentes perfeitamente orquestrados e o gerenciamento das tarefas de inferência mais complexas
Ambos os chips têm disponibilidade geral prevista para o segundo semestre deste ano
Poderão ser usados como parte do AI Hypercomputer do Google
- Uma pilha integrada que combina hardware específico(computação, storage, rede), software aberto(frameworks, motores de inferência) e modelos flexíveis de consumo(orquestração, gerenciamento de cluster, modelos de entrega)

1 comentários

GN⁺ 2026-04-23

Comentários no Hacker News

Tive a impressão de que o Gemini 3 já mostrou até onde dá para ir com treinamento focado em eficiência. Eu estimaria que o Pro e o Flash parecem ser algo como 5 a 10 vezes menores do que modelos do nível do Opus ou do GPT-5 As chamadas de ferramenta quebram com frequência e, em tarefas agentic, no geral ele é fraco, então ainda parece faltar refinamento em raciocínio e execução. Mesmo assim, olhando só para resolução pura de problemas, sem ferramentas nem busca, a impressão é que ele bate de frente com Opus e GPT, mas com tamanho muito menor Quando o Google finalmente sair da fase de prototipagem em preview e lançar um modelo formal de verdade, acho que vai surpreender todo mundo com algo uma geração à frente do SOTA atual. Até agora, os modelos lançados pareceram mais protótipos empurrados às pressas para GA para mostrar a investidores e servir como prova de conceito no portfólio de produtos
- Sou cético com essa estimativa de 5 a 10 vezes. Especialmente no caso do Pro; para mim, também pode ser mais uma questão de o hardware do Google permitir rodar um modelo maior de forma mais barata e rápida O Gemini 3 Pro me pareceu, no geral, o modelo mais próximo de uma inteligência humana. Especialmente nas humanidades ele é forte, e a capacidade de produzir texto natural em muitos idiomas humanos eu colocaria praticamente em 1º lugar. Essa diferença aumenta ainda mais em línguas de nicho, e isso me parece sugerir um modelo maior, não menor Matemática e tarefas agentic são claramente pontos fracos, e o próprio app Gemini também parece atrasado, a ponto de não ser muito diferente do ChatGPT inicial de 3 anos atrás, o que acaba piorando a percepção de desempenho
- Também concordo com essa parte. O Gemini-cli realmente parece bem ruim em comparação com CC ou Codex Ainda assim, acho que a prioridade do Google é construir a melhor IA para reforçar ou substituir a busca tradicional. Esse é o negócio principal deles, e a posição para monetização é muito melhor do que a de qualquer outro. Na minha visão, eles já têm uma enorme vantagem de distribuição em base de usuários e volume de queries Queria que também aumentassem a prioridade do Gemini-cli e apertassem mais a competição nessa área
- Pelo que lembro, quando o Gemini 3 Pro saiu pela primeira vez, ele era visto como praticamente equivalente à versão do Claude da época. Mas o Gemini 3 atual já passa uma sensação de bastante defasado Nesse meio-tempo surgiram muitos modelos chineses e o Claude também recebeu várias atualizações, então agora parece que o Google ficou meio estagnado nessa área. Claro, ainda acho possível que eles surpreendam em breve com uma melhora grande
- Acho que a nomenclatura de preview do Google é bem arbitrária. Parece uma forma de evitar compromisso com disponibilidade ou continuidade, e uma tática de PR que permite justificar falhas dizendo que era qualidade beta
- Sempre me perguntei o que estou deixando passar no Gemini. Para mim, no melhor dos casos ele parece um modelo de segunda linha Para coleta de informação até funciona mais ou menos, mas em tarefas agentic é quase inútil e sempre parece meio bêbado. Quando meus créditos do Claude acabam no Antigravity, sinto que o dia basicamente terminou Achei engraçada a ideia de que ele usa muito menos tokens, porque na minha experiência ele entra com frequência em loops mortais sem nem conseguir resolver o problema
Hoje, para fazer IA em grande escala, acho que na prática você precisa comprar da NVidia ou alugar do Google. E o Google consegue projetar chip, engine e sistema a partir de uma visão do datacenter como um todo, então pode otimizar até partes que um vendor de chip não consegue centralizar Por isso, imagino que, quanto maior a escala, os sistemas do Google sempre serão mais eficientes em custo. Para constar, estou comprado em GOOG, inclusive por esse motivo
- Eu também apostaria no Google se a experiência do Gemini CLI chegasse perto do nível de Codex ou Claude Não importa quão bom seja o hardware; se o agente de codificação principal entra em loop procurando token de fim de turno, o valor disso cai bastante
- Fiquei curioso se a Amazon também não está fazendo algo parecido, com seus próprios chips tipo TPU
- Isso me lembrou a ideia de não construir um castelo em terreno alheio No fim, comprar da NVidia parece a única opção realista, e nem isso eu considero ideal
- Na verdade, fico mais perto do lado oposto dessa hipótese. Por dois motivos: primeiro, o Google parece ter limitado artificialmente a produção Segundo, a TSMC tende a favorecer quem pode pagar mais por capacidade, então imagino que os primeiros slots de um novo processo fiquem com a Nvidia Além disso, a GCP tem margem operacional mais alta que Hetzner ou lambdalabs, e há locadoras de GPU efetivamente mais baratas, então estudantes e pesquisadores pequenos acabam ficando no lado das GPUs
- Eu teria apostado no Google se a liderança fosse um pouco mais inspiradora A Apple sob Tim Cook já era mais branda do que na era Jobs, mas o Google parece ter despencado de um penhasco. Se a OpenAI não tivesse lançado o ChatGPT, acho que talvez eles ainda estivessem guardando essa tecnologia só para experimentos internos. Agora, ironicamente, isso parece ter virado o motor que empurra todo o P&D de chips
Enquanto outras empresas dominam o ciclo de notícias, o Google parece estar discretamente entrando num fluxo de fortalecimento gradual e acumulando participação no mercado consumidor Talvez por ter sido verticalmente integrado em IA desde o início, quase não parece ter problemas de infraestrutura; em certo momento parecia uma empresa acabada, mas agora dá a sensação de estar crescendo em todas as direções como uma maré cheia
- Mas o subreddit do Google Antigravity parece uma bagunça total https://www.reddit.com/r/GoogleAntigravityIDE/
- Acho que em 1 ou 2 anos vai chegar um momento em que Google e Apple os dois saem ganhando no fim Eles não estão jogando esse jogo de velocidade de lançar produto cru todo mês para dobrar o valuation; espero que tenham tempo de observar, pensar e então lançar produtos realmente bem acabados
- Acho que os modelos abertos mais recentes do Google são bem competitivos em relação a outros modelos abertos Especialmente nos tamanhos pequenos, como 2~4GB, há inovação, e parece que eles estão ajudando a reduzir a distância até uma inferência de qualidade realista em celulares e dispositivos ainda menores
- Tirando o exagero, OpenAI e Anthropic parecem duas empresas jogando dinheiro no fogo e tentando fazer uma fogueira maior uma que a outra
- A adoção de IA não parece uma questão tão existencial para o Google quanto é para OpenAI ou Anthropic Além disso, qualquer coisa que o Google diga tem mais dificuldade de gerar hype como as outras duas; no fim, soa facilmente como texto corporativo de marketing
Usando Gemini, ChatGPT e Claude, senti que o Gemini usa consistentemente muito menos tokens do que os outros dois No fim, parece que o fato de o Gemini estar parado nesse nível agora se deve a um thinking budget menor O Google provavelmente tem mais compute e a estrutura de custo mais baixa, então me pergunto por que não força mais o compute de raciocínio como fazem os outros dois. Não sei se é por causa da carga de outros serviços ou por uma estratégia centrada em treinamento, mas acho um ponto bem interessante
- Usei o Gemini Pro por alguns meses com uma assinatura do Google One na faixa dos 20 dólares, e senti que ele também fazia buscas na web com menos frequência para validar informações do que o ChatGPT 5.4 Pro Eu até queria comparar em programação, mas não consegui porque o add-in do Gemini para VSCode não funcionava Também havia muitos bugs no Android e no app web, incluindo um problema em que o histórico de chat sumia ao alternar entre threads, então pretendo cancelar a assinatura do Google One neste mês
- Não vejo bem qual seria a vantagem competitiva de usar Gemini no lugar de Claude ou ChatGPT A qualidade de saída me parece claramente abaixo dos dois
- A plataforma agentic enterprise anunciada hoje talvez possa virar o poço gravitacional onde as Fortune 500 vão concentrar workloads de raciocínio
- Estou meio convencido de que um dos principais motivos de o GLM-5 ter melhorado em relação ao GLM-4.7 foi ter ficado mais agressivo no uso de tokens No 4.7 era difícil demais fazê-lo ler o código-fonte o suficiente, embora, depois de ler, ele fosse bastante competente Frugalidade é uma virtude, mas também pode significar não refletir o bastante, não considerar elementos o suficiente e não ler o código-fonte o suficiente. No fim, ainda parece uma área em que ninguém sabe ao certo qual é o ponto ideal entre economizar tokens e usar muitos
A explicação de que um superpod TPU 8t escala para 9.600 chips e até 2PB de memória compartilhada de alta largura de banda foi impressionante Não sou especialista na área, mas pelo menos aos meus olhos isso parece uma vantagem competitiva bem grande do Google
- Também acho isso correto. Mesmo assim, sem um avanço na separação entre instruction e data, não acho que isso vá produzir AGI
A afirmação de que o TPU 8t e o TPU 8i oferecem até 2x mais desempenho por watt do que a geração anterior foi bem impressionante Fica ainda mais interessante porque a geração anterior é recente a ponto de ser produto de 2025. Também chamou atenção o fato de separarem hardware de treinamento e de inferência, e fiquei curioso se empresas que usam hardware da NV fazem o mesmo ou se é algo mais generalista
- É bem conhecido que treinamento é compute-bound e inferência é memory-bound, mas, pelo que sei, implantações da Nvidia normalmente não são especializadas em um dos dois Muitas clouds e neoclouds não são donas do próprio workload, então generalidade é importante, e, depois de investir em H200 caro com networking, elas precisam vender isso para vários clientes Ainda assim, já estão aparecendo aceleradores especializados para inferência, como o Grok LPU da Vera Rubin e a Cerebras, então acho que essa tendência de especialização já começou
- Não posso afirmar com certeza sobre o lado da NVIDIA, mas a AWS tem chips próprios separados para treinamento e inferência Pelo que ouvi, porém, o chip de inferência é fraco demais, então algumas empresas acabam rodando inferência nos chips de treinamento
- Hardware dedicado costuma entregar desempenho mais rápido, então acho que, à medida que uma área amadurece, sistemas complexos e caros tendem a descer para chips comuns de 1 dólar, baratos e abundantes Por isso, sinto que o Google entende muito melhor a própria stack do que as empresas que estão em cima da NVidia. O Google controla tudo, do teclado ao silício, então parece já ter aprendido por repetição como separar funções que competem pelos mesmos recursos
- Chips de treinamento provavelmente também servem muito bem para inferência em larga escala com throughput alto, mesmo que sejam lentos Em usos menos sensíveis a latência, imagino que essa abordagem vai se popularizar bastante
- Só o fato de a Vera Rubin incluir chips Groq rápidos para inferência já mostra uma tendência Com a demanda energética nesse nível, parece natural buscar toda otimização possível
Estou usando Gemini com o Junie da JetBrains, e, embora o próprio Junie não seja tão bom quanto o Claude Code, ele me parece muito à frente das ferramentas atuais do Google Com essa combinação, tenho conseguido resultados consistentes com custo bem baixo
- Mesmo dentro do contexto de IDE e ferramentas da JetBrains, você acha que o Junie está no mesmo nível dos concorrentes?
Entre os grandes provedores de inferência, sinto que o Google está entre os mais incômodos em política de descontinuação de modelos Exatamente 1 ano após o lançamento, eles removem o modelo e forçam a migração para a geração seguinte; como usam silício próprio, eu esperaria mais estabilidade, mas foi o contrário. O rate limiting também é muito mais rígido do que na OpenAI, então fico em dúvida se isso é culpa dos TPUs ou apenas uma decisão de política estranha
- A postura do Google de encerrar releases antigos do Gemini com tanta facilidade foi bem frustrante Minha leitura é que, como a maioria das ferramentas usa apenas o modelo mais recente, o modelo novo rapidamente passa a responder por mais de 90% do volume, e então entra a análise de custo-benefício do Google, fazendo o antigo ser desligado sem muita cerimônia Fiquei até surpreso quando eles estenderam recentemente a data de EOL do Gemini 2.5; o Google nunca foi exatamente uma empresa obcecada pelo cliente
- O Flash 2 ainda nem chegou ao EOL em junho, mas no fim de semana fiquei recebendo 429 e vi taxa de erro de 90% Então acabei migrando para o GPT 5.4 nano
Se houver um vencedor final na IA, imagino que será o Google, por ter a stack completa, ou a Apple, por conseguir implantar o maior número de edge sites capazes de IA; tenho dificuldade de visualizar outro cenário
- Acho que o vencedor pode acabar sendo um wrapper de modelos locais que execute bem tarefas específicas Algo desenhado para fazer de fato o trabalho, como busca, em vez de agir como um bajulador antropomorfizado tentando agradar humanos, me parece mais promissor
- Também considero bem possível que o Google continue errando feio no lado de produto Com o poder de distribuição gigantesco, ele ainda pode sobreviver, mas, se surgir um produto melhor, ainda existe espaço para uma mudança disruptiva como IE para Chrome
Este link tinha uma explicação mais detalhada da arquitetura. https://cloud.google.com/blog/products/compute/tpu-8t-and-tpu-8i-technical-deep-dive

Dois chips para a era dos agentes: o TPU de 8ª geração do Google

Visão geral do TPU de 8ª geração

Mais de 10 anos de filosofia de projeto

Por que separar treinamento e inferência

TPU 8t: potência dedicada ao treinamento

Escala massiva(Massive Scale)

Utilização máxima(Maximum Utilization)

Escalabilidade quase linear(Near-Linear Scaling)

Confiabilidade e disponibilidade

TPU 8i: motor de inferência

Rompendo a barreira da memória(Breaking the Memory Wall)

Eficiência baseada em Axion

Escala para modelos MoE

Eliminação de latência(Eliminating Lag)

Desempenho por custo

Co-design com o Gemini, aberto para todos

Frameworks e acessibilidade

Projeto com eficiência energética em larga escala

Infraestrutura para a era agentiva

Leituras relacionadas

1 comentários

Comentários no Hacker News