- O Google anunciou o Ironwood, a TPU (Tensor Processing Unit) de 7ª geração
- O Ironwood é a primeira TPU projetada especificamente para inferência de IA e é o modelo mais poderoso e eficiente em termos de energia até hoje
- Foi projetado para executar modelos de IA de alto desempenho, como grandes modelos de linguagem (LLM) e Mixture of Experts (MoE)
- Pode ser expandido para até 9.216 chips e oferece 42,5 exaflops de desempenho computacional
- Isso representa mais de 24 vezes o desempenho do El Capitan, o supercomputador mais rápido do mundo
A era da inferência viabilizada pelo Ironwood
- Se a IA anterior respondia a solicitações dos usuários, o Ironwood fornece a base para uma era de IA que interpreta dados ativamente e gera insights
- Nessa era da inferência, a IA coleta e analisa dados no lugar do usuário para produzir resultados mais aprofundados
- Para atender a essas novas exigências de IA, o Ironwood conta com recursos de processamento paralelo em larga escala e acesso rápido a dados
Configuração de hardware e desempenho do Ironwood
- Em uma configuração de pod de TPU com 9.216 chips, oferece 42,5 exaflops de desempenho
- Com 4.614 TFLOPs por chip, dá suporte ao treinamento e à inferência de LLMs e modelos MoE em larga escala
- Com melhorias no SparseCore, acelera o processamento de embeddings ultragrandes e pode ser aplicado a áreas como finanças e ciência
- Por meio do software Pathways, é possível gerenciar com eficiência dezenas de milhares de chips Ironwood
Principais características técnicas do Ironwood
- A relação entre desempenho e eficiência energética foi melhorada em 2 vezes em comparação com a geração anterior
- Cerca de 30 vezes mais eficiência energética em comparação com o Trillium
- Mantém desempenho estável mesmo sob cargas altas contínuas graças à tecnologia avançada de resfriamento líquido
- A capacidade de memória de alta largura de banda (HBM) foi ampliada significativamente
- 192 GB por chip, 6 vezes mais do que o Trillium
- Favorável para processar modelos e conjuntos de dados grandes
- Melhoria na largura de banda da memória HBM
- 7,2 TBps por chip, aumento de 4,5 vezes em relação ao Trillium
- Melhoria na largura de banda do Inter-Chip Interconnect (ICI)
- 1,2 Tbps bidirecional, 1,5 vez melhor que o Trillium
- A comunicação rápida entre chips o torna adequado para treinamento e inferência distribuídos em larga escala
Impacto e possibilidades de uso do Ironwood
- O Ironwood é um componente central da arquitetura Google Cloud Hypercomputer e foi otimizado para as demandas da próxima geração de IA generativa
- Modelos de IA mais recentes, como Gemini 2.5 e AlphaFold, também estão sendo executados com base em TPUs
- Os clientes do Google Cloud poderão processar cargas de trabalho de IA com alto desempenho, baixa latência e maior eficiência energética por meio do Ironwood
- A expectativa é que esteja disponível para clientes ainda em 2025 e sirva de base para novas inovações em pesquisa de IA e aplicações práticas
1 comentários
Pelo visto havia um motivo para o Gemini estar com uma velocidade de time to first token tão absurdamente rápida ultimamente...