- A AWS anunciou o Trainium3 UltraServer com chip Trainium3 de processo de 3 nanômetros, ampliando significativamente o desempenho de treinamento e inferência de IA
- O novo sistema oferece 4x mais velocidade e 4x mais memória em relação à geração anterior, além de 40% de maior eficiência energética
- Pode conectar até 1 milhão de chips Trainium3, sendo ideal para processar aplicações de IA em grande escala
- Clientes como Anthropic, Karakuri, SplashMusic e Decart já estão utilizando, com redução comprovada de custos de inferência
- A AWS revelou que o chip de próxima geração Trainium4 suportará Nvidia NVLink Fusion, tornando possível a interoperabilidade com GPUs Nvidia, o que é visto como uma virada importante na competição por infraestrutura de IA
Lançamento do Trainium3
- A AWS anunciou oficialmente o Trainium3 UltraServer no evento re:Invent 2025
- Este sistema é impulsionado por chip Trainium3 de 3 nanômetros e pela tecnologia de rede proprietária da AWS
- É apresentado como um desempenho muito melhor em comparação com a segunda geração, tanto para treinamento quanto para inferência de IA
- A AWS afirmou que o sistema Trainium3 oferece 4x mais velocidade de processamento e 4x mais capacidade de memória
- Cada UltraServer contém 144 chips
- Ao conectar milhares de servidores, é possível usar até 1 milhão de chips em uma única aplicação
- O novo chip tem eficiência energética melhorada em 40%, contribuindo para reduzir o consumo de energia em data centers em grande escala
- A AWS enfatizou que isso também permite redução de custos para clientes de nuvem de IA
Principais clientes e casos de uso
- Anthropic, o LLM japonês Karakuri, SplashMusic e Decart já utilizam o Trainium3
- A AWS explicou que esses clientes reduziram significativamente os custos de inferência
- A AWS observou que essa melhora de desempenho e eficiência de custos se torna a base para aumentar a escalabilidade de aplicações de IA
Roteiro do chip de próxima geração Trainium4
- A AWS anunciou que o Trainium4 já está em desenvolvimento e que deverá suportar a tecnologia de interconexão de alta velocidade Nvidia NVLink Fusion
- Isso permitirá interoperabilidade com GPUs Nvidia e possibilitará combinar com a tecnologia de gabinete de servidor de baixo custo da AWS
- Em um cenário em que Nvidia CUDA é padrão para os principais aplicativos de IA, o sistema Trainium4 tem potencial para facilitar a migração para a nuvem AWS de aplicativos baseados em GPUs Nvidia
- O cronograma de lançamento do Trainium4 não foi divulgado e há chance de mais informações surgirem no próximo re:Invent do ano seguinte
Significado estratégico de eficiência energética e redução de custos
- A AWS está construindo “sistemas que consomem menos” em um contexto de crescimento acelerado do consumo de energia em data centers
- Essa abordagem é vista como uma tentativa de atingir simultaneamente dois objetivos: redução de custos operacionais e garantia de sustentabilidade
- A estratégia de redução de custos da AWS pode aumentar seu poder de atração de clientes na competição de infraestrutura de IA
Resumo
- O Trainium3 é um chip de IA de terceira geração com melhora significativa em desempenho, memória e eficiência
- O Trainium4 visa expandir o ecossistema da AWS por meio da compatibilidade com a Nvidia
- A AWS busca simultaneamente uma infraestrutura de IA de alto desempenho, baixo custo e sustentável, mirando fortalecer sua competitividade no mercado de nuvem de IA
1 comentários
Opinião no Hacker News
porque não há evidência convincente de compatibilidade estável com bibliotecas padrão como Transformers ou PyTorch
A AWS diz que funciona bem, mas isso só vale no “caminho feliz” com a AMI específica deles e o neuron SDK
Na prática, quando usamos nossas próprias dependências, tudo quebra na hora
Até os TPUs da GCP só ficaram realmente utilizáveis depois que o Google investiu pesado em suporte de software
Não tenho tempo para virar beta tester só para usar chips da AWS
Poucos são estáveis, o resto ainda tem muitas arestas
É difícil imaginar a Amazon fazendo um investimento nesse nível
A versão do vLLM não é atualizada há 6 meses, e endpoints comuns são inutilizáveis por causa de um timeout de 60 segundos decidido há 8 anos
Só de imaginar o sofrimento de um desenvolvedor tentando usar silício customizado nesse cenário já dá arrepios
Quem usou de verdade diz que desistiu por causa da dor de implantação e operação
Parece que usam bastante internamente, mas a adoção externa é quase nula
Mesmo assim, vejo de forma positiva a Amazon investir em chips próprios
O Trn1 ainda não chegou nesse ponto, então aparentemente alguém está usando
Provavelmente com apoio total da AWS
Se não investirem mais em SDK e tooling, ninguém vai usar esse tipo de nuvem
A IA está forçando mudanças em tipos de dados básicos que não mudavam havia décadas
Artigo da Wikipédia sobre block floating point
Para mais detalhes, veja a newsletter da Semianalysis
Parece que a Amazon quer buscar redução de custos em IA como faz na logística
Mas a confiança parece baixa, e isso soa como uma estratégia de aparência para manter a relação com a Nvidia
A Intel também está participando, e isso parece um momento de transição tipo PCI → AGP
A AMD quase aproveitou a oportunidade na era do antigo HyperTransport, mas o Infinity Fabric atual ficou restrito ao uso interno
UALink e CXL também estão chamando atenção, mas ainda existe o limite de velocidade do PCIe
No ideal, a integração de rede deveria vir embutida no chip por padrão
Como quando o antigo Intel Xeon oferecia 100Gb Omni-Path praticamente de graça
Dá para entender a Intel, que está desesperada, mas ver a AWS indo pelo mesmo caminho não parece bom
Se fosse a AMD, eu acharia melhor colocar a SolarFlare NIC no die de I/O
Assim como dá para alternar entre PCIe/SATA, talvez desse para alternar entre PCIe/Ethernet, mas a UEC pode acabar sendo nichada demais