2 pontos por GN⁺ 2025-12-03 | 1 comentários | Compartilhar no WhatsApp
  • A AWS anunciou o Trainium3 UltraServer com chip Trainium3 de processo de 3 nanômetros, ampliando significativamente o desempenho de treinamento e inferência de IA
  • O novo sistema oferece 4x mais velocidade e 4x mais memória em relação à geração anterior, além de 40% de maior eficiência energética
  • Pode conectar até 1 milhão de chips Trainium3, sendo ideal para processar aplicações de IA em grande escala
  • Clientes como Anthropic, Karakuri, SplashMusic e Decart já estão utilizando, com redução comprovada de custos de inferência
  • A AWS revelou que o chip de próxima geração Trainium4 suportará Nvidia NVLink Fusion, tornando possível a interoperabilidade com GPUs Nvidia, o que é visto como uma virada importante na competição por infraestrutura de IA

Lançamento do Trainium3

  • A AWS anunciou oficialmente o Trainium3 UltraServer no evento re:Invent 2025
    • Este sistema é impulsionado por chip Trainium3 de 3 nanômetros e pela tecnologia de rede proprietária da AWS
    • É apresentado como um desempenho muito melhor em comparação com a segunda geração, tanto para treinamento quanto para inferência de IA
  • A AWS afirmou que o sistema Trainium3 oferece 4x mais velocidade de processamento e 4x mais capacidade de memória
    • Cada UltraServer contém 144 chips
    • Ao conectar milhares de servidores, é possível usar até 1 milhão de chips em uma única aplicação
  • O novo chip tem eficiência energética melhorada em 40%, contribuindo para reduzir o consumo de energia em data centers em grande escala
    • A AWS enfatizou que isso também permite redução de custos para clientes de nuvem de IA

Principais clientes e casos de uso

  • Anthropic, o LLM japonês Karakuri, SplashMusic e Decart já utilizam o Trainium3
    • A AWS explicou que esses clientes reduziram significativamente os custos de inferência
  • A AWS observou que essa melhora de desempenho e eficiência de custos se torna a base para aumentar a escalabilidade de aplicações de IA

Roteiro do chip de próxima geração Trainium4

  • A AWS anunciou que o Trainium4 já está em desenvolvimento e que deverá suportar a tecnologia de interconexão de alta velocidade Nvidia NVLink Fusion
    • Isso permitirá interoperabilidade com GPUs Nvidia e possibilitará combinar com a tecnologia de gabinete de servidor de baixo custo da AWS
  • Em um cenário em que Nvidia CUDA é padrão para os principais aplicativos de IA, o sistema Trainium4 tem potencial para facilitar a migração para a nuvem AWS de aplicativos baseados em GPUs Nvidia
  • O cronograma de lançamento do Trainium4 não foi divulgado e há chance de mais informações surgirem no próximo re:Invent do ano seguinte

Significado estratégico de eficiência energética e redução de custos

  • A AWS está construindo “sistemas que consomem menos” em um contexto de crescimento acelerado do consumo de energia em data centers
  • Essa abordagem é vista como uma tentativa de atingir simultaneamente dois objetivos: redução de custos operacionais e garantia de sustentabilidade
  • A estratégia de redução de custos da AWS pode aumentar seu poder de atração de clientes na competição de infraestrutura de IA

Resumo

  • O Trainium3 é um chip de IA de terceira geração com melhora significativa em desempenho, memória e eficiência
  • O Trainium4 visa expandir o ecossistema da AWS por meio da compatibilidade com a Nvidia
  • A AWS busca simultaneamente uma infraestrutura de IA de alto desempenho, baixo custo e sustentável, mirando fortalecer sua competitividade no mercado de nuvem de IA

1 comentários

 
GN⁺ 2025-12-03
Opinião no Hacker News
  • Nossa equipe já disse várias vezes ao pessoal da AWS que não tem interesse em instâncias Trainium ou Inferentia
    porque não há evidência convincente de compatibilidade estável com bibliotecas padrão como Transformers ou PyTorch
    A AWS diz que funciona bem, mas isso só vale no “caminho feliz” com a AMI específica deles e o neuron SDK
    Na prática, quando usamos nossas próprias dependências, tudo quebra na hora
    Até os TPUs da GCP só ficaram realmente utilizáveis depois que o Google investiu pesado em suporte de software
    Não tenho tempo para virar beta tester só para usar chips da AWS
    • Fora dos serviços principais da AWS (S3, Dynamo, Lambda, ECS etc.), está cheio de serviços beta
      Poucos são estáveis, o resto ainda tem muitas arestas
    • O Google fez um esforço enorme para integrar os TPUs ao ecossistema
      É difícil imaginar a Amazon fazendo um investimento nesse nível
    • Spoiler: não funciona a menos que você escreva bastante código customizado
  • Tentei construir os contêineres LMI diretamente no SageMaker e foi um inferno
    A versão do vLLM não é atualizada há 6 meses, e endpoints comuns são inutilizáveis por causa de um timeout de 60 segundos decidido há 8 anos
    Só de imaginar o sofrimento de um desenvolvedor tentando usar silício customizado nesse cenário já dá arrepios
  • A AWS fala muito do Trainium, mas não aparece um único cliente no palco para elogiar
    Quem usou de verdade diz que desistiu por causa da dor de implantação e operação
    Parece que usam bastante internamente, mas a adoção externa é quase nula
    Mesmo assim, vejo de forma positiva a Amazon investir em chips próprios
    • As instâncias spot Inf1/Inf2 são tão impopulares que custam 10% a 20% menos que instâncias de CPU
      O Trn1 ainda não chegou nesse ponto, então aparentemente alguém está usando
    • Ouvi dizer que a Anthropic também usa bastante Trainium
      Provavelmente com apoio total da AWS
      Se não investirem mais em SDK e tooling, ninguém vai usar esse tipo de nuvem
  • O conceito de block floating point (MXFP8/4) é interessante
    A IA está forçando mudanças em tipos de dados básicos que não mudavam havia décadas
    Artigo da Wikipédia sobre block floating point
  • É curioso que a matéria em nenhum momento explique o que esse chip faz
    • O ponto central é uma arquitetura com vários arrays sistólicos 128x128
      Para mais detalhes, veja a newsletter da Semianalysis
    • Como o nome diz, é um chip para treinamento
    • No fim das contas, é um chip que faz operações vetoriais
    • Parece que acharam que a missão real desse chip era agradar aos acionistas, então não precisavam explicar aos desenvolvedores
  • Não há qualquer menção a desempenho ou benchmarks
    • Dizem “4 vezes mais”, mas isso não significa 4 vezes mais rápido, e também falam em 4 vezes mais memória sem dizer em relação a quê
  • A verdadeira notícia é a parte do “roteiro amigável à Nvidia
    Parece que a Amazon quer buscar redução de custos em IA como faz na logística
    Mas a confiança parece baixa, e isso soa como uma estratégia de aparência para manter a relação com a Nvidia
  • É interessante ver o NVLink se espalhando
    A Intel também está participando, e isso parece um momento de transição tipo PCI → AGP
    A AMD quase aproveitou a oportunidade na era do antigo HyperTransport, mas o Infinity Fabric atual ficou restrito ao uso interno
    UALink e CXL também estão chamando atenção, mas ainda existe o limite de velocidade do PCIe
    No ideal, a integração de rede deveria vir embutida no chip por padrão
    Como quando o antigo Intel Xeon oferecia 100Gb Omni-Path praticamente de graça
    • NVLink Fusion no fim parece uma armadilha de dependência da Nvidia
      Dá para entender a Intel, que está desesperada, mas ver a AWS indo pelo mesmo caminho não parece bom
      Se fosse a AMD, eu acharia melhor colocar a SolarFlare NIC no die de I/O
      Assim como dá para alternar entre PCIe/SATA, talvez desse para alternar entre PCIe/Ethernet, mas a UEC pode acabar sendo nichada demais
  • Post oficial da Amazon: Apresentando o Trainium 3 UltraServer