Ironwood - o primeiro TPU do Google para a era da inferência

(blog.google)

6 pontos por GN⁺ 2025-04-10 | 1 comentários | Compartilhar no WhatsApp

O Google anunciou o Ironwood, a TPU (Tensor Processing Unit) de 7ª geração
O Ironwood é a primeira TPU projetada especificamente para inferência de IA e é o modelo mais poderoso e eficiente em termos de energia até hoje
Foi projetado para executar modelos de IA de alto desempenho, como grandes modelos de linguagem (LLM) e Mixture of Experts (MoE)
Pode ser expandido para até 9.216 chips e oferece 42,5 exaflops de desempenho computacional
Isso representa mais de 24 vezes o desempenho do El Capitan, o supercomputador mais rápido do mundo

Se a IA anterior respondia a solicitações dos usuários, o Ironwood fornece a base para uma era de IA que interpreta dados ativamente e gera insights
Nessa era da inferência, a IA coleta e analisa dados no lugar do usuário para produzir resultados mais aprofundados
Para atender a essas novas exigências de IA, o Ironwood conta com recursos de processamento paralelo em larga escala e acesso rápido a dados

Em uma configuração de pod de TPU com 9.216 chips, oferece 42,5 exaflops de desempenho
Com 4.614 TFLOPs por chip, dá suporte ao treinamento e à inferência de LLMs e modelos MoE em larga escala
Com melhorias no SparseCore, acelera o processamento de embeddings ultragrandes e pode ser aplicado a áreas como finanças e ciência
Por meio do software Pathways, é possível gerenciar com eficiência dezenas de milhares de chips Ironwood

A relação entre desempenho e eficiência energética foi melhorada em 2 vezes em comparação com a geração anterior
- Cerca de 30 vezes mais eficiência energética em comparação com o Trillium
- Mantém desempenho estável mesmo sob cargas altas contínuas graças à tecnologia avançada de resfriamento líquido
A capacidade de memória de alta largura de banda (HBM) foi ampliada significativamente
- 192 GB por chip, 6 vezes mais do que o Trillium
- Favorável para processar modelos e conjuntos de dados grandes
Melhoria na largura de banda da memória HBM
- 7,2 TBps por chip, aumento de 4,5 vezes em relação ao Trillium
Melhoria na largura de banda do Inter-Chip Interconnect (ICI)
- 1,2 Tbps bidirecional, 1,5 vez melhor que o Trillium
- A comunicação rápida entre chips o torna adequado para treinamento e inferência distribuídos em larga escala

O Ironwood é um componente central da arquitetura Google Cloud Hypercomputer e foi otimizado para as demandas da próxima geração de IA generativa
Modelos de IA mais recentes, como Gemini 2.5 e AlphaFold, também estão sendo executados com base em TPUs
Os clientes do Google Cloud poderão processar cargas de trabalho de IA com alto desempenho, baixa latência e maior eficiência energética por meio do Ironwood
A expectativa é que esteja disponível para clientes ainda em 2025 e sirva de base para novas inovações em pesquisa de IA e aplicações práticas

1 comentários

iwanhae 2025-04-10

Pelo visto havia um motivo para o Gemini estar com uma velocidade de time to first token tão absurdamente rápida ultimamente...