APU chiplet da AMD: visão geral do Strix Halo

(chipsandcheese.com)

1 pontos por GN⁺ 2025-10-20 | 1 comentários | Compartilhar no WhatsApp

Strix Halo é o maior APU chiplet para clientes já apresentado pela AMD, projetado para processar de forma integrada tarefas de CPU e GPU de alto desempenho
Possui 16 núcleos Zen 5 e 40 unidades de computação da iGPU RDNA 3.5, com desempenho próximo ao de um CPU desktop e uma GPU externa de faixa intermediária
Aplica barramento de memória LPDDR5X-8000 e Infinity Cache de 32MB para oferecer um ambiente de alta largura de banda e baixa latência
O desempenho da iGPU supera os APU móveis anteriores e, em alguns cenários, pode competir com GPUs externas intermediárias
O desempenho em ML (machine learning) ainda aguarda suporte do ROCm, com expectativa de maior escalabilidade e potencial de evolução futura

Introdução e visão geral do produto

O Strix Halo é o primeiro APU chiplet de consumo anunciado pela AMD no CES 2025
Embora seja um processador móvel, busca alto desempenho comparável a desktop, com faixa de TDP de 55W~120W, entregando alto desempenho sem uma GPU discreta separada
Utiliza arquitetura Zen 5 de 16 núcleos (duas CCDs de 8 núcleos) e a mesma FPU de 512b dos produtos desktop
Suporta clock máximo de boost de 5,1GHz (600MHz abaixo do Ryzen 9 9950X desktop)
A iGPU RDNA 3.5 como GPU principal: 40 unidades de computação, 32MB Infinity Cache, clock boost de 2,9GHz → desempenho de computação no nível de RX 7600 XT~RX 7700
Aplica barramento de memória 256b LPDDR5X-8000 (até 256GB/s, compartilhado por todos os componentes; ligeiramente abaixo dos 288GB/s da RX 7600 XT, porém amplamente superior aos APU anteriores)

Ambiente de testes e equipamentos

Foram usados Asus ROG Flow Z13 (2025) e HP ZBook Ultra G1a 14” para medir desempenho em uso real
O ROG Flow Z13 foi usado para testes com foco em jogos, enquanto o ZBook Ultra G1a foi usado para microbenchmarks

Subsistema de memória sob a ótica da CPU

Latência de memória: Strix Point (~128ns) versus Strix Halo (~123ns) praticamente não apresenta diferença
A CPU não tem acesso direto ao Infinity Cache de 32MB no die de I/O, e isso foi confirmado oficialmente em entrevista
A CPU desktop (9950X) exibe latência bem menor, em torno de 75~80ns, em comparação com mobile
Largura de banda de memória: com 16 núcleos, em operação puramente de leitura-modificação-soma atinge mais de 175GB/s, com até 124GB/s em leitura
- A largura de banda da CCD única é de 64GB/s (leitura) e 43GB/s (gravação), com total real em torno de 103GB/s
- Assim como em desktop, o link entre CCD e die de I/O é de 2000MHz, com 32 bytes por ciclo

Desempenho da CPU

A CPU do Strix Halo alcança o mesmo desempenho de operações inteiras que o flagship desktop da geração anterior (7950X), embora a velocidade de clock tenha redução de 11,7%
O desempenho de ponto flutuante fica próximo ao flagship atual (9950X), com inversão em alguns subtestes
No SPEC CPU 2017 Integer/FP subtests, o Strix Halo fica perto do 9950X ou supera em alguns itens, mas as diferenças pequenas ocorrem devido à maior latência do barramento LPDDR5X

Estrutura de memória sob a ótica da GPU

A largura de banda de memória da GPU do Strix Halo é amplamente superior entre todos os SoCs móveis
Em comparação com o RTX 5070 Mobile, porém, a largura de banda da memória é 50% menor
O desempenho da Infinity Cache (MALL) é 40% maior que o L2 do 5070M e a capacidade é 33% maior. O cache L2 de 4MB oferece 2,5TB/s de largura de banda
A latência do cache L2 do Strix Halo é menor que a do L2 do 5070M, enquanto a latência da MALL de 32MB é semelhante à do L2 do 5070M
A latência total da memória é 35% menor que a do 5070M

Vazão de processamento da GPU (Throughput)

Vazão de operações de ponto flutuante: cerca de 2,5x do Strix Point, similar ou superior à 5070M
- Em resultados de FP16, o desempenho ficou abaixo do esperado apenas em relação à 5070M (possivelmente uma peculiaridade do benchmark)
Vazão de operações inteiras: a 5070M é superior à Radeon 8060S

Desempenho e jogos da GPU

Como iGPU, o Strix Halo supera de forma ampla as iGPUs existentes de Intel/AMD e também se aproxima da concorrência de GPUs externas
No teste com o jogo de alto delta (Cyberpunk 2077):
- Em ambiente de bateria: a Radeon 8060S tem desempenho 7,5% superior a 1080p em relação à 5070M nas mesmas condições
- Em ambiente com energia AC: em 1080p, a Radeon 8060S fica 2,5% à frente, enquanto em 1440p a 5070M fica 8,3% à frente
- Dependendo dos ajustes de detalhes e das condições de energia, ambos mantêm competitividade, com a iGPU apresentando desempenho praticamente equivalente ao de uma GPU externa
Em Fluid X3D e workloads computacionais, a Radeon 8060S supera completamente as iGPUs anteriores da Intel/AMD

Conclusão

O Strix Halo tem como objetivo ser um SoC integrado CPU-GPU de alto desempenho, com excelente desempenho em diversos cenários de uso
CPU desktop Zen 5 e GPU externa de faixa intermediária também entram na disputa, atendendo a perfis móveis e desktop
Mantém eficiência e integração (vantagem da iGPU) ao mesmo tempo que oferece alto desempenho
Não fica acima de GPUs externas dedicadas de alta especificação, mas oferece máxima flexibilidade e desempenho em dispositivos compactos e ambientes integrados
O desempenho em ML precisa de análise futura pela demora no suporte ao ROCm, com menção ao potencial de escalabilidade e de projeto de barramento de memória de alto volume (semelhante ao Apple Max/Ultra)
A abordagem de design bem-sucedida do Strix Halo tende a servir de base para a expansão futura da linha de APU de alto desempenho da AMD

1 comentários

GN⁺ 2025-10-20

Opiniões no Hacker News

Quero muito experimentar um mini PC com esse produto, mas na Europa ele é absurdamente caro ou simplesmente impossível de comprar, e importar direto da China também deixa um pé atrás por causa de suporte/garantia. Como o ROCm 7 já está funcionando na maioria das distribuições Linux, acho que isso seria excelente como workstation ou como servidor doméstico de inferência para LLM, Ollama e outros serviços.
- Encontrei um produto com envio da Alemanha e preço relativamente acessível, para referência: BOSGAME M5 AI Mini Desktop
- Você chegou a olhar o Corsair AI Workstation 300 Desktop PC? Dependendo da configuração escolhida, fica entre 2000 e 2700 euros, e considerando o IVA, parece parecido com o preço em dólar nos EUA (1700~2300 USD) Corsair AI Workstations
- Encomendei a versão framework desktop 395 128Gb por pouco menos de 1900 euros; com os adicionais, acabei pagando pouco mais de 2000 euros com frete incluído, e não achei caro.
- Pelo que entendo, o principal motivo do preço alto é a memória de alta largura de banda (embora, comparado com uma GPU realmente de alto desempenho, a largura de banda de memória não seja tão alta assim).
- O ROCm melhorou bastante, mas como tive alguns problemas num desktop com RX9070XT, por enquanto eu recomendaria soluções da Nvidia ou da Apple para trabalho com IA. Ainda assim, acho que a AMD vai alcançar logo. O melhor sistema de IA em custo-benefício continua sendo montar você mesmo um desktop com duas RTX 3090 (claro, precisa de uma placa-mãe com suporte a dual card) e simplesmente deixar rodando no armário.
Comparando com dGPU mobile e com o produto DGX Spark (que finalmente virou realidade), esse mercado ainda parece um segmento inacabado, com bastante potencial. Não sei por que o DGX Spark demorou tanto, mas isso deu à AMD a chance de ganhar participação antes. A vantagem das GPUs discretas, inclusive mobile, é a largura de banda de memória, e a desvantagem é o alto consumo de energia e a capacidade de memória limitada (vou deixar CUDA de lado, embora obviamente isso seja um fator enorme). Se você adicionar um desktop pequeno DGX Spark, dá para usar RDMA entre vários dispositivos com porta de rede simples de 200Gb ou dual de 100Gb, então talvez ele seja mais útil do que o mesmo número de Strix Halo 395. Mas no trabalho real eu provavelmente usaria um servidor com GPUs ou uma workstation Threadripper com GPU em vez de quatro DGX Spark. E o fato de o DGX Spark não caber em um laptop também favorece o Strix Halo. No geral, acho que esse é um novo nicho, e estou curioso para ver como ele vai se consolidar ao longo das próximas gerações.
- Na próxima geração, a AMD deve lançar o Medusa Halo, que supostamente virá com barramento LPDDR6 de 384 bits. Nesse caso, ele pode chegar ao dobro da memória e 1,7x a largura de banda do Strix Halo. Como o Strix Halo está tendo sucesso como plataforma de inferência, parece que esse segmento vai continuar crescendo.
- Só para corrigir: não é dual 200Gb, e sim 200Gb simples ou dual 100Gb.
- “dGPU” normalmente significa GPU discreta. Você não quis dizer “iGPU” (gráfico integrado)? Os produtos com Strix Halo até estão sendo divulgados para jogos, mas o desempenho real parece meio desalinhado: a CPU é rápida até demais, enquanto a iGPU fica relativamente para trás. Mas o desempenho em multiplicação de matrizes (matmul) certamente parece forte.
- O principal propósito do DGX Spark parece ser desenvolvimento e teste local de modelos de IA. O Strix Halo é uma iGPU baseada em amd64, então também serve para tarefas tradicionais de PC e funciona bem como dispositivo local para IA. Na minha opinião, o Strix Halo parece o começo do fim da era das GPUs discretas em laptops. A Nvidia parece ter percebido isso e estaria tentando criar uma solução de iGPU em parceria com a Intel.
O lado frustrante é que, mesmo seis meses após o lançamento, só existem dois laptops utilizáveis, e entre eles o único modelo realmente potente é o Z13. Também existe o produto da Framework, mas ele não pode ser comprado em muitos países e me parece voltado a um público bem específico. Eu gosto muito do Z13, mas ele também é claramente nichado. Não sei se há problemas na fabricação do chip, e também fico curioso se a Apple está ficando com toda a produção.
- O preço do HP ZBook Ultra nos EUA era absurdamente alto, mas na Europa pareceu razoável, parecido com um laptop comum. O que me arrepende é não ter esperado pela versão de 128GB quando fiz o pedido no primeiro dia. Mas em bateria e desempenho, ainda não vi concorrente à altura para qualquer carga pesada que já usei. E além dos laptops, empresas como a Beelink também estão fazendo NUCs com preço razoável. Concordo que a escassez de oferta dificulta avaliar a oportunidade.
- O HP ZBook Ultra G1a é uma boa opção porque pode ser configurado com até 128GB de RAM.
- Beelink, GMKtec, Minisforum e Corsair também estão lançando produtos.
- Em grande parte da Europa, não dá para comprar o Z13 com mais de 32GB de RAM, e garantia de 2~3 anos também não costuma ser oferecida, o que é decepcionante. No fim, isso me deixa tentado a comprar um Framework 13, mesmo com RAM/CPU/GPU mais fracas, o que é frustrante.
O High Yield publicou um vídeo fazendo uma análise profunda do chip 395 em nível de silício, vale a pena ver: High Yield - 395 Chip Deep Dive
Fico curioso se no framework desktop dá para usar um TDP (limite de energia) mais alto. Esse desktop parece ter refrigeração muito melhor que os laptops com o mesmo chip, então talvez exista diferença real de desempenho.
- Dá para configurar 140W sustentados e 160W em burst (por cerca de 10 segundos).
- Não medi o consumo de energia, mas estou usando a placa-mãe da Framework num gabinete ITX maior para melhorar a refrigeração. Meu PC principal com 7950X3D e essa unidade Strix têm o mesmo número de núcleos/threads, e nos benchmarks quase não há diferença. Ou seja, é impressionante que esse nível de desempenho de computação de desktop seja possível num notebook.
Li em algum lugar que a principal razão de essa APU não ser tão eficiente energeticamente quanto os produtos da Apple seria uma decisão tomada para compartilhar arquitetura com a linha Epyc. A alegação é que isso trouxe um trade-off que piora a eficiência em baixa potência. Gostaria de saber se alguém consegue confirmar isso.
- No review do Hardware Canucks há um teste comparando o M4 Pro (3nm de segunda geração) e o 395+ (4nm) a 50W, e o desempenho é bem parecido, então isso pode ser explicado pela diferença entre processo de 3nm e 4nm Review no YouTube
- A APU é legal, mas nunca vai chegar perto da largura de banda de memória de algo como o m3 ultra. Em compensação, é muito mais barata. Estou pensando em substituir meu desktop antigo, e para mim é importante poder pegar emprestada por um tempo uma GPU externa (como uma A6000) no trabalho e configurar tudo sem perder muito tempo.
Comprei um framework desktop para testar e, apesar do tamanho pequeno, é uma máquina realmente impressionante. Espero que produtos assim atraiam mais interesse e participação da comunidade de engenharia. Um ecossistema com bom suporte a vulkan e rocm seria ótimo para todo mundo.
Tenho uma dúvida relacionada: se eu montar um desktop com CPU Zen 5 para desktop + RX 7600 XT + memória, daria para criar algo barato no estilo do compartilhamento de largura de banda de memória entre sistema e GPU que existe no Strix Halo ou no Apple Silicon? E isso permitiria rodar LLMs grandes localmente por um preço razoável? Além disso, não tenho certeza, mas pelo que sei esse compartilhamento de memória só existe em APU e não em GPU discreta. Confere?
- A memória não é “unificada” quando a GPU é fisicamente separada. Nesse caso, o acesso acontece pelo barramento PCIe, o que cria um gargalo considerável de largura de banda. O máximo do PCIe 5.0 x16 é 64GB/s, e nem todas as GPUs suportam isso.
Queria saber se o desempenho gráfico fica em nível competitivo com uma 5070M. Se o preço e o consumo forem razoáveis, isso parece muito atraente.
- O consumo de energia fica em torno de 75W. Dá para aumentar manualmente, mas em qualquer caso permanece abaixo de 100W (informação que obtive pesquisando o Z13). O chip em si suporta potências maiores, e a ASUS costuma colocar mais de 130W em laptops, então esse número de 75W me pareceu meio inesperado.
Fico curioso sobre como o desempenho da GPU se compara ao das GPUs dos Macs com chip da série M.

APU chiplet da AMD: visão geral do Strix Halo

Introdução e visão geral do produto

Ambiente de testes e equipamentos

Subsistema de memória sob a ótica da CPU

Desempenho da CPU

Estrutura de memória sob a ótica da GPU

Vazão de processamento da GPU (Throughput)

Desempenho e jogos da GPU

Conclusão

Leituras relacionadas

1 comentários

Opiniões no Hacker News