6 pontos por GN⁺ 2025-04-10 | 1 comentários | Compartilhar no WhatsApp
  • O Google anunciou o Ironwood, a TPU (Tensor Processing Unit) de 7ª geração
  • O Ironwood é a primeira TPU projetada especificamente para inferência de IA e é o modelo mais poderoso e eficiente em termos de energia até hoje
  • Foi projetado para executar modelos de IA de alto desempenho, como grandes modelos de linguagem (LLM) e Mixture of Experts (MoE)
  • Pode ser expandido para até 9.216 chips e oferece 42,5 exaflops de desempenho computacional
  • Isso representa mais de 24 vezes o desempenho do El Capitan, o supercomputador mais rápido do mundo

A era da inferência viabilizada pelo Ironwood

  • Se a IA anterior respondia a solicitações dos usuários, o Ironwood fornece a base para uma era de IA que interpreta dados ativamente e gera insights
  • Nessa era da inferência, a IA coleta e analisa dados no lugar do usuário para produzir resultados mais aprofundados
  • Para atender a essas novas exigências de IA, o Ironwood conta com recursos de processamento paralelo em larga escala e acesso rápido a dados

Configuração de hardware e desempenho do Ironwood

  • Em uma configuração de pod de TPU com 9.216 chips, oferece 42,5 exaflops de desempenho
  • Com 4.614 TFLOPs por chip, dá suporte ao treinamento e à inferência de LLMs e modelos MoE em larga escala
  • Com melhorias no SparseCore, acelera o processamento de embeddings ultragrandes e pode ser aplicado a áreas como finanças e ciência
  • Por meio do software Pathways, é possível gerenciar com eficiência dezenas de milhares de chips Ironwood

Principais características técnicas do Ironwood

  • A relação entre desempenho e eficiência energética foi melhorada em 2 vezes em comparação com a geração anterior
    • Cerca de 30 vezes mais eficiência energética em comparação com o Trillium
    • Mantém desempenho estável mesmo sob cargas altas contínuas graças à tecnologia avançada de resfriamento líquido
  • A capacidade de memória de alta largura de banda (HBM) foi ampliada significativamente
    • 192 GB por chip, 6 vezes mais do que o Trillium
    • Favorável para processar modelos e conjuntos de dados grandes
  • Melhoria na largura de banda da memória HBM
    • 7,2 TBps por chip, aumento de 4,5 vezes em relação ao Trillium
  • Melhoria na largura de banda do Inter-Chip Interconnect (ICI)
    • 1,2 Tbps bidirecional, 1,5 vez melhor que o Trillium
    • A comunicação rápida entre chips o torna adequado para treinamento e inferência distribuídos em larga escala

Impacto e possibilidades de uso do Ironwood

  • O Ironwood é um componente central da arquitetura Google Cloud Hypercomputer e foi otimizado para as demandas da próxima geração de IA generativa
  • Modelos de IA mais recentes, como Gemini 2.5 e AlphaFold, também estão sendo executados com base em TPUs
  • Os clientes do Google Cloud poderão processar cargas de trabalho de IA com alto desempenho, baixa latência e maior eficiência energética por meio do Ironwood
  • A expectativa é que esteja disponível para clientes ainda em 2025 e sirva de base para novas inovações em pesquisa de IA e aplicações práticas

1 comentários

 
iwanhae 2025-04-10

Pelo visto havia um motivo para o Gemini estar com uma velocidade de time to first token tão absurdamente rápida ultimamente...