O futuro da IA da AMD é o ‘Helios’ em escala de rack

(morethanmoore.substack.com)

1 pontos por GN⁺ 2025-06-16 | 1 comentários | Compartilhar no WhatsApp

A GPU AMD Instinct MI355X oferece o dobro do desempenho em operações de IA, mais memória HBM e uma eficiência de tokens/$ 40% melhor que a da NVIDIA
O software ROCm 7 enfatiza melhorias de desempenho e suporte Day-0, ao mesmo tempo em que se concentra na expansão do ecossistema de IA
A solução integrada em escala de rack fornece uma infraestrutura de IA turnkey que combina CPU + GPU + rede da AMD
Roadmap: em 2026, a AMD prevê revelar arquitetura de próxima geração com desempenho 4x, HBM4, escalabilidade e o rack Helios
Eficiência energética: meta de melhorar a eficiência em 20x na base de rack scale até 2030, promovendo inovação conjunta em hardware e software

Resumo geral

Movimento da AMD com base no crescimento da IA em escala de rack

Com o forte aumento da demanda por hardware de IA, todas as principais empresas de semicondutores do setor estão focadas em ampliar participação de mercado e acelerar o crescimento
A AMD entrou rapidamente no mercado de GPUs para servidores de IA com a Instinct MI300X e, com base na experiência recente de lançar sua primeira arquitetura totalmente focada em recursos centrais e desempenho, registrou receita bem-sucedida de alta margem
Com isso, anunciou uma estratégia para expandir continuamente sua presença com hardware de próxima geração para servidores de IA

Inovações detalhadas do acelerador Instinct MI350

Grande salto no desempenho de computação para IA

A série Instinct MI350 é baseada na nova arquitetura CDNA4 e foi projetada para oferecer mais que o dobro da taxa de processamento de operações matriciais (operações tensoriais) por clock em relação à MI300X
Passa a oferecer suporte completo a processamento de ponto flutuante de baixa precisão, como FP6 e FP4, reduzindo a carga de inferência e aumentando significativamente o volume total de computação
No caso de operações FP6, foi projetada para processar ao dobro da velocidade da NVIDIA Blackwell, buscando vantagem de desempenho
A configuração de memória também foi bastante ampliada, com 288GB de memória HBM3E (8 stacks) e largura de banda de 8TB/sec
É um chip gigantesco com 185 bilhões de transistores, baseado no processo TSMC N3P e implementado com uma estrutura eficiente de empilhamento de dies

Diversos SKUs e tendência de alto desempenho/alto consumo

Divide-se entre a MI355X exclusiva para refrigeração líquida (2.4GHz, 5PFLOPS) e a MI350X com refrigeração a ar (2.2GHz, 4.6PFLOPS)
O consumo de energia aumentou em relação à MI300X: o modelo com refrigeração a ar consome 1000W, e o modelo com refrigeração líquida, 1400W
Com 128 unidades da MI355X em um único rack, apenas as GPUs podem consumir energia na faixa de 180kW
A competitividade de preço também é destacada, com expectativa de vantagem de mais de 40% em tokens/$ em relação à NVIDIA (30% mais barato)
O fornecimento para parceiros começa no 3º trimestre de 2024, embora o ritmo real de entrega possa variar

Estratégia de software do ROCm 7

Suporte Day-0 e maximização de desempenho

O ROCm 7 promove melhorias amplas em suporte à CDNA4 e à série MI350, além de desempenho e gerenciamento corporativo
O objetivo é oferecer suporte Day-0 para frameworks importantes como Pytorch
No 3º trimestre de 2024, também começa o suporte a Pytorch nativo no Windows, runtime do ONNX e GPUs RDNA 4/3
Somente com otimizações de software, o desempenho da geração MI300X no ROCm 7 melhora em até 3.8x em relação ao ROCm 6
Por meio do ROCm Enterprise AI, a AMD oferece ferramentas voltadas ao ambiente corporativo para operar grandes clusters de IA e fazer fine-tuning de modelos

Ecossistema de rede completo: Pollara 400 AI NIC

Após a aquisição da Pensando, a AMD lançou sua primeira placa de rede, a Pollara 400 AI NIC (Ethernet 400G, processo TSMC N4)
Com escalabilidade e recursos de NIC P4 programável, ela dá suporte à montagem de racks de supercomputadores baseados em AMD
É a primeira AI NIC compatível com o Ultra Ethernet Consortium, estabelecendo a base para redes escaláveis de próxima geração

Roadmap futuro em escala de rack baseado na MI400

MI400 (2026): aplicação de arquitetura de nova geração (CDNA Next) com meta de dobrar o desempenho de IA em FP8 e oferecer HBM4 com 432GB/19.6TB/sec de largura de banda
Com o Ultra Accelerator Link, a expansão scale-up vai de 8 GPUs para 1024 GPUs, dando suporte a processamento paralelo em grande escala
Sistema de rack Helios: combinação de MI400, EPYC Venice (6ª geração) e Vulcano (NIC de 800G), com ênfase em vantagem de memória e rede frente à próxima geração rival (NVIDIA Vera Rubin)
Por meio de um roadmap aberto, a AMD apresenta planos de inovação anual para arquiteturas centrais de CPU, GPU e sistemas de rack
A meta é alcançar 20x de eficiência energética em escala de rack e 100x de eficiência total até 2030, concentrando-se na otimização de hardware e software

Conclusão

A AMD busca garantir liderança diferenciada no mercado de infraestrutura de IA com a série Instinct MI350~Helios, CDNA 4~Next e soluções turnkey em escala de rack
No curto prazo, a nova MI350, a arquitetura CDNA4 e o software ROCm 7 devem ser os principais pilares
A estratégia é reforçar desempenho, custo, escalabilidade e eficiência na competição com a NVIDIA no mercado de servidores de IA

1 comentários

GN⁺ 2025-06-16

Comentários do Hacker News

A sensação é que usar ROCm varia absurdamente de caso para caso, e que o suporte para placas de vídeo de consumidor, sinceramente, ainda está num nível difícil de confiar; eu queria que fosse uma alternativa viável, mas depois que migrei para CUDA consegui reduzir bastante os problemas irritantes e o tempo desperdiçado, especialmente por causa da lentidão absurda para rodar benchmarks do MiOpen no HIP
Desde mais ou menos 2010, quando CUDA começou a ganhar força em computação científica, parece que estamos ouvindo a mesma história se repetir; não entendo como, 15 anos depois, a AMD ainda não conseguiu replicar essa fórmula de sucesso, e agora que a NVIDIA já dominou completamente o ecossistema de software, a sensação é de que já está bem tarde
Gostaria que alguém que realmente entendesse bem o software oferecido pela AMD explicasse a visão geral; queria saber qual SDK de fato permite fazer inferência ou treinamento de redes neurais, porque há opções demais e, mesmo procurando por um tempo, a impressão é que a direção está espalhada demais, então é difícil entender para onde a empresa está indo
Fica a sensação de que o Jensen realmente sabe o que está fazendo com a stack CUDA e com o segmento de workstations; a AMD precisa não só aumentar o tamanho do hardware, mas superar essa stack como um todo, e a realidade é que a maioria do mercado não quer passar muito tempo estudando uma stack complexa para uma estrutura com menos de 10% de participação de mercado
Quase ninguém chama a API do CUDA diretamente, então o ponto principal para a AMD deveria ser conectar direito o backend ROCm ao XLA e ao PyTorch; só isso já poderia abrir um mercado considerável. E, como a Nvidia fez há mais de 10 anos, a AMD deveria distribuir GPUs de graça para universidades e cultivar o ecossistema de pesquisa; hoje, com a escassez de recursos computacionais para IA, a maioria das universidades acaba usando hardware de 2 ou 3 gerações atrás. Se a AMD oferecesse GPUs estáveis por metade do preço, estudantes de doutorado entrariam naturalmente no ecossistema AMD, e essa experiência poderia se refletir depois na indústria
Quando as pessoas falam de CUDA, geralmente pensam só em C, mas na prática C++ é o padrão desde o CUDA 3.0, com suporte a Fortran também incluído; a NVIDIA dá bastante suporte para que várias linguagens usem o ambiente PTX, e em 2025 planeja introduzir também um Python CUDA JIT DSL. Mesmo sem usar a versão mais recente, o CUDA SDK roda até em notebooks de entrada, então dá para aprender aos poucos mesmo com hardware fraco
Ouvi muita coisa ruim sobre o suporte de software em hardware de entrada, e isso reforça como é importante ter uma porta de entrada com baixa barreira. Por outro lado, se a empresa enfatizar hardware de datacenter, pode enxugar o portfólio e ainda garantir acesso mais amplo por meio de provedores de nuvem. Seria ótimo ver algo como uma workstation MI350-A voltada a iniciantes, mas na prática isso parece difícil de acontecer
Neste momento, me parece que a AMD tem problemas internos sérios que estão deixando a stack de software para trás; já houve tempo de sobra para ouvir os clientes e ampliar as equipes em vários pontos, mas o progresso concreto parece pequeno. Os incentivos financeiros são grandes e, ainda assim, a mudança é pouca. Concordo que a CEO Lisa Su é excelente gestora, mas fico pensando se, por vir de hardware, ela não acaba sendo menos agressiva em inovação de software
Há quem diga que suporte a ROCm ainda não é uma grande questão para o usuário comum de IA, porque graças à API Vulkan incluída há cerca de 10 anos nos drivers padrão da AMD, apps populares de LLM com um clique, como llama.cpp e LM Studio, já funcionam; é mais lento, mas ainda assim utilizável na prática
Sobre a futura disputa entre NVIDIA e AMD, houve um comentário em tom de piada: "quando esse futuro distante virar realidade, nós entramos em contato primeiro"
Uma dúvida curta: "O Bob Page está liderando isso?"
Comentário dizendo que a fala de jogo "Atropos log, abandoning Helios" provoca uma reação emocional, e que ela sempre vem à cabeça quando surgem notícias relacionadas
Esperança de que a AMD produza um chip de treinamento que supere o H100
No ano passado houve alguns problemas ao treinar com o MI300X, e mesmo quando funcionava ele ficava 20% a 30% mais lento que o H100; mais recentemente, testando treinamento DPO com OpenRLHF (baseado em transformers/DeepSpeed) em setup atualizado com ROCm e PyTorch, em trabalhos curtos de 12 horas o desempenho por hora de GPU tem saído quase igual ao do H200. Antes os testes eram em um nó com 8 GPUs, e agora os experimentos estão sendo feitos com uma única MI300X, então a comparação não é totalmente justa; treinamento multi-GPU ou multinó ainda é uma incógnita, então vale tratar isso como uma amostra isolada
Considerando que o H100 já foi lançado há 3 anos, a diferença parece ainda maior; isso dá uma noção da velocidade da inovação
A interpretação é de que estão falando de um chip relativamente mais lento; na verdade, a linha MI300 já estaria à frente do H100 e o MI400 pode estar próximo de ser lançado
O que realmente importa é: entre os principais pontos de "Software++: ROCm 7 Released", quanto disso eu posso usar num notebook comum de consumidor, como faço com CUDA?
Sinceramente, foi difícil ler a matéria, e o autor mereceria até ganhar uma mi355 pelo esforço; não há motivo nenhum para confiar na AMD no nível que a matéria sugere. Foi especialmente decepcionante ver a linha RDNA4 ficar meses sem suporte no ROCm. A postura da AMD parece irresponsável ao dizer que consegue entregar suporte só no day 120, e os benchmarks também não deixam claro de onde exatamente vem o desempenho; há uma suspeita forte de que estejam comparando desempenho em FP4 com FP8 ou 16 e depois citando isso de forma equivocada
Ainda é chocante e frustrante ver a AMD sem investir direito no ROCm para o consumidor e demorando para dar suporte, mas recentemente a empresa anunciou oficialmente que pretende oferecer suporte day 1 também em placas cliente. Claro, o essencial é cumprir a promessa, mas parece que a AMD finalmente entendeu como é importante sustentar bem o ROCm em toda a stack. É quase estranho pensar que estamos falando de uma empresa que faz tanto Ryzen quanto Radeon. Acho que a Radeon foi bem neste ano, então foi uma pena o suporte oficial ao ROCm no RDNA4 ter demorado tanto. Ainda assim, a primeira impressão no lado consumidor, graças à 9070 XT e ao FSR4, não foi ruim, e ao contrário de momentos anteriores em que a AMD parecia fugir da oportunidade, agora há sinais de movimento, então fico muito cautelosamente otimista. Tomara que essas promessas durem, link relacionado
A realidade é que a AMD parece ter pouco interesse em suporte a computação nas GPUs de consumidor, enquanto nas GPUs de datacenter oferece uma stack de software e um suporte consideravelmente melhores
Em resposta ao comentário original de que "este texto está dando crédito demais à AMD", alguém pergunta se isso talvez se refira ao Ryan Smith, conhecido do AnandTech, link
Afirmação de que a AMD virou uma empresa de marketing, com a ideia de que hoje ela compete mais pelo marketing do que pela competência técnica

O futuro da IA da AMD é o ‘Helios’ em escala de rack

Resumo geral

Movimento da AMD com base no crescimento da IA em escala de rack

Inovações detalhadas do acelerador Instinct MI350

Grande salto no desempenho de computação para IA

Diversos SKUs e tendência de alto desempenho/alto consumo

Estratégia de software do ROCm 7

Suporte Day-0 e maximização de desempenho

Ecossistema de rede completo: Pollara 400 AI NIC

Roadmap futuro em escala de rack baseado na MI400

Conclusão

Leituras relacionadas

1 comentários

Comentários do Hacker News