- Com a demanda explosiva por aprendizado por reforço e inferência de IA agêntica, o papel da CPU nos data centers volta a ganhar destaque rapidamente, provocando mudanças no fluxo de investimentos antes centrado em GPUs
- A Intel viveu um aumento inesperado na demanda por CPUs de servidor no fim de 2025 e está expandindo os investimentos em capacidade de foundry para 2026, além de redirecionar wafers de PCs para servidores
- O AMD Venice, baseado no processo N2 da TSMC, adota CCD Zen6c de 256 núcleos e rede mesh, com perspectiva de ampliar a vantagem sobre a Intel tanto em desempenho quanto em eficiência energética
- NVIDIA, AWS, Microsoft, Google, ARM e outros ampliam de forma decisiva o campo das CPUs ARM próprias de hiperescaladores, desmontando rapidamente a estrutura de domínio exclusivo do x86
- Incluindo o Huawei Kunpeng 950, 2026 será um ano de competição sem precedentes, em que todos os fornecedores lançarão CPUs de nova geração simultaneamente
Mudança e evolução do papel das CPUs de data center
-
Da era do PC à era ponto-com
- Nos anos 1990, a melhora de desempenho dos processadores para PC gerou demanda para substituir mainframes e workstations, e a Intel entrou no mercado de servidores com o Pentium Pro (1995) e a marca Xeon (1998)
- Na era da internet dos anos 2000, com a expansão da Web 2.0, do comércio eletrônico e dos smartphones, as CPUs de data center cresceram e se tornaram um mercado de dezenas de bilhões de dólares
- Após o fim da disputa por GHz, avançaram inovações de projeto como CPUs multicore, integração do controlador de memória (AMD) e conexão direta por PCIe
- O SMT (Simultaneous Multi-Threading) foi adotado tanto pela Intel quanto pela AMD, elevando o desempenho em processamento paralelo
-
A era dos hiperescaladores com virtualização e computação em nuvem
- No fim dos anos 2000, com o surgimento da nuvem pública como a AWS, houve a transição do modelo de CapEx para OpEx, evoluindo até a computação serverless (como AWS Lambda)
- A virtualização por hardware da CPU tornou-se a base central da nuvem, com hipervisores (como VMware ESXi) operando múltiplas VMs independentes em uma única CPU
- Em 2018, as vulnerabilidades Spectre e Meltdown trouxeram à tona a necessidade de desativar o SMT, causando perdas de desempenho de até 30%
- Ataques usando recursos de predição de desvio tornaram reais as ameaças à segurança da nuvem
-
A era da integração entre GPUs de IA e CPUs
- Nos cinco anos anteriores ao lançamento do ChatGPT (novembro de 2022), a Intel embarcou mais de 100 milhões de CPUs Xeon Scalable
- O treinamento e a inferência de modelos de IA são executados de forma 100 a 1000 vezes mais eficiente nas grandes unidades vetoriais das GPUs e nos Tensor Cores
- Em comparação com as GPUs, as CPUs têm desempenho extremamente baixo em operações matriciais e foram rebaixadas a um papel de suporte, com prioridade de energia dada às GPUs
- O uso das CPUs se dividiu em duas frentes:
- Head node: alimenta e gerencia os dados das GPUs, exigindo alto desempenho por núcleo, cache de grande capacidade e memória de alta largura de banda (NVIDIA Grace, Venice+MI455X, Graviton5+Trainium3 etc.)
- Consolidação de sockets cloud-native: para maximizar a eficiência energética, servidores antigos são substituídos por CPUs mais recentes em uma proporção superior a 10:1, e milhões de servidores Intel Cascade Lake comprados durante a COVID estão sendo desativados
-
A era do aprendizado por reforço e dos agentes
- No data center "Fairwater" da Microsoft para a OpenAI, um edifício de CPU e armazenamento de 48 MW dá suporte a um cluster de GPUs de 295 MW, com dezenas de milhares de CPUs processando dados em escala de petabytes
- Em ambientes de aprendizado por reforço (RL), são necessárias grandes quantidades de CPU para compilar código, validar, interpretar e usar ferramentas a fim de executar as ações geradas pelo modelo e calcular recompensas
- Como o avanço de desempenho das GPUs supera com folga o das CPUs, a proporção futura de energia de CPU para GPU na geração Rubin pode se ampliar para mais de 1:6
- Modelos RAG e modelos agênticos realizam em grande escala chamadas de API, buscas na internet e consultas a bancos de dados, impulsionando fortemente a demanda por CPUs de uso geral
- AWS e Azure estão implantando em grande volume seus próprios CPUs Graviton e Cobalt, além de servidores x86
- Laboratórios de Frontier AI enfrentam escassez de CPUs para treinamento com RL e competem diretamente com provedores de nuvem para garantir servidores x86 de uso geral
- A Intel, diante de um esgotamento inesperado de estoques, avalia aumentar os preços do Xeon e está garantindo ferramentas adicionais de produção
- A AMD está ampliando sua capacidade de fornecimento e projeta que o TAM de CPUs de servidor em 2026 terá crescimento de "fortes dois dígitos"
História dos interconectores de CPUs multicore
-
Projetos iniciais de crossbar e seus limites
- Nos primeiros dual-core (Intel Pentium D, AMD Athlon 64 X2, 2005), conexão baseada em FSB (Front Side Bus) ou NoC on-die
- O método crossbar faz o número de conexões disparar com o aumento de núcleos (2 núcleos=1, 4 núcleos=6, 6 núcleos=15, 8 núcleos=28), de modo que 4 núcleos eram o limite prático
- O AMD Istanbul (2009) expandiu para crossbar de 6 vias, o Magny-Cours (2010) para 12 núcleos em dual-die, e o Interlagos para 16 núcleos
-
Arquitetura ring bus da Intel
- A Intel introduziu o ring bus no Nehalem-EX (2010), integrando 8 núcleos em um único die com IMC e links QPI
- Anéis duplos em rotação inversa reduziram latência e congestionamento, mas a latência de acesso entre núcleos era não uniforme (NUMA)
- Ivy Bridge-EX: atingiu 15 núcleos com arranjo de 3 colunas por 5 linhas e 3 "anéis virtuais"
- Haswell/Broadwell: dual ring bus independente para 18~24 núcleos, mas ao passar por buffered switches entre anéis a latência ultrapassava 100 ns
- Com a configuração "Cluster on Die", era possível separar 2 nós NUMA
-
Arquitetura mesh da Intel
- Em 2016, a Intel introduziu o interconector mesh no Xeon Phi "Knights Landing", expandindo-o em 2017 para o Xeon Scalable Skylake-X (28 núcleos)
- Em uma malha 2D, núcleos, slices de cache L3, PCIe IO, IMC e aceleradores são posicionados em cada parada da mesh
- O modo Sub-NUMA Clustering (SNC) divide a mesh em quadrantes para reduzir a latência média
- Skylake-X: mesh 6x6, com clock da mesh de 2,4 GHz, alcançando latência média semelhante à do dual ring do Broadwell
- Ice Lake: com a transição para 10 nm, escalou para uma mesh 8x7 e até 40 núcleos (limite de retículo)
-
Mesh distribuída via EMIB
- Sapphire Rapids: no nó Intel 7, um único die monolítico ficou limitado a 34 núcleos, com aumento da área por núcleo devido à adição do motor AMX
- Com o empacotamento avançado EMIB, conectou 4 dies, formando uma mesh 8x12 e chegando a 60 núcleos (cerca de 1600 mm² de silício)
- A latência média núcleo a núcleo piorou de 47 ns (Skylake) para 59 ns
- O cache L2 privado de cada núcleo aumentou para 2 MB (L2 total > L3: 120 MB vs 112,5 MB)
- O produto avançou até o stepping E5 e sofreu anos de atraso; originalmente previsto para 2021, foi lançado no início de 2023
- Emerald Rapids (fim de 2023): reduziu o número de dies para 2, elevou os núcleos para 66 (máximo de 64 ativos) e aumentou o cache L3 para 320 MB, quase o triplo
-
O design distribuído heterogêneo do Xeon 6
- Na plataforma Xeon 6 de 2024, I/O e computação foram separados de forma heterogênea: o die de I/O em Intel 7 e o die de computação em Intel 3
- É possível combinar configurações com P-core Granite Rapids e E-core Sierra Forest
- Granite Rapids-AP Xeon 6900P: com 3 dies de computação, usa uma mesh 10x19, com 132 núcleos (máximo de 128 ativos)
- Sierra Forest: agrupa 4 E-cores por cluster para formar uma mesh 8x6 com 144 núcleos, mas a adoção foi limitada porque hyperscalers já haviam adotado CPUs AMD e ARM próprias
- O Sierra Forest-AP dual-die de 288 núcleos (Xeon 6900E) ficou restrito a produção em pequeno volume
-
Limites do Clearwater Forest
- Xeon 6+ Clearwater Forest-AP: usa o Foveros Direct da Intel com hybrid bonding, empilhando dies de núcleo em 18A sobre um die base em Intel 3, alcançando 288 núcleos
- Projeto complexo composto por 12 dies de computação de 24 núcleos
- Problemas de integração do Foveros Direct causaram atraso do H2 2025 para o H1 2026
- A largura de banda de acesso ao L3 e à mesh do die base por cluster de 4 núcleos é de apenas 35 GB/s
- Mesmo com um intervalo de 2 anos, o ganho de desempenho ficou em apenas 17% em relação ao Sierra Forest para a mesma contagem de núcleos
- A Intel quase não mencionou o Clearwater Forest no anúncio de resultados do Q4 2025, e há possibilidade de que ele seja usado mais como veículo de aprendizado de rendimento do Foveros Direct do que para produção em alto volume
Arquitetura de interconexão AMD Zen
-
EPYC Naples (2017)
- Marcou o retorno da AMD ao data center, atingindo 32 núcleos com um MCM de 4 dies "Zeppelin"
- Cada die tinha 2 CCX (4 núcleos + 8 MB de L3, conectados por crossbar), com links Infinity Fabric on Package (IFOP) entre dies
- A ausência de cache L3 unificado e os múltiplos domínios NUMA (intra-CCX, inter-CCX, die-to-die, inter-socket) geravam grande variação de latência
- A Intel zombou dizendo que eram "4 dies de desktop colados", mas era um projeto eficiente em recursos de uma equipe pequena
-
Evolução das gerações a partir do EPYC Rome (2019)
- Rome: 8 CCDs de 8 núcleos ao redor de um die central de I/O; os CCDs eram fabricados em TSMC N7 e o die de I/O em GlobalFoundries 12 nm
- Toda a comunicação entre CCXs passava pelo die de I/O via links GMI, funcionando na prática como 16 nós NUMA de 4 núcleos
- Milan (2021): ampliou o CCX para 8 núcleos e adotou ring bus, reutilizando o die de I/O do Rome
- Genoa (2022): 12 CCDs; Turin (2024): até 16 CCDs e 128 núcleos (EPYC 9755), com upgrade para DDR5 e PCIe 5
- Principal vantagem do design em chiplets: com um único tape-out de CCD, é possível compor toda a linha de contagem de núcleos, além de obter vantagens em rendimento e velocidade de lançamento com dies menores
- Com variantes compactas de núcleo Zen 4c/Zen 5c, a mesma plataforma também oferece Bergamo (Zen 4c) e Turin-Dense (192 núcleos)
Arquitetura Intel Diamond Rapids
- Estrutura em que 4 dies CBB (Core Building Block) cercam 2 dies IMH (I/O and Memory Hub), externamente semelhante ao design da AMD
- Em cada CBB, 32 módulos dual-core (DCM) são fabricados em Intel 18A-P e unidos por hybrid bonding a um die base em Intel 3-PT
- Os 2 núcleos compartilham um cache L2 comum, em um design que lembra a geração Dunnington de 2008
- Total de 256 núcleos, mas espera-se que os SKUs mainstream ativem no máximo 192 núcleos
- Dies IMH: 16 canais DDR5, PCIe 6 (com suporte a CXL 3), e aceleradores de caminho de dados da Intel (QAT, DLB, IAA, DSA)
- Em vez de EMIB, a conexão entre dies usa trilhas de longa distância sobre o substrato do pacote, permitindo que cada CBB acesse diretamente ambos os IMHs
- Ainda assim, espera-se uma forte piora de latência entre CBBs
-
Problema da remoção do SMT
- Após Spectre/Meltdown, a Intel removeu o SMT dos P-cores, começando pelo Lion Cove para clientes em 2024
- Em data centers, o throughput máximo é importante, então isso representa uma fraqueza séria para o Diamond Rapids
- Em comparação com o atual Granite Rapids de 128 núcleos/256 threads, o Diamond Rapids de 192 núcleos/192 threads deve oferecer apenas cerca de 40% de ganho de desempenho
- A plataforma mainstream Diamond Rapids-SP de 8 canais foi totalmente cancelada, deixando esse mercado sem uma nova geração pelo menos até 2028
- O resultado é perder o mercado de CPUs de computação de propósito geral necessárias para uso de ferramentas de IA e armazenamento de contexto
Arquitetura AMD Venice
- A AMD adota pela primeira vez a tecnologia de empacotamento avançado, conectando CCD e die de I/O por links curtos de alta velocidade
- Devido à shoreline adicional para os links dos CCDs, o hub central de I/O é dividido em 2 dies, gerando domínios NUMA adicionais entre os dois lados do chip
- 16 canais de memória (acima dos 12 canais do Genoa), com memória multiplexada MRDIMM-12800 e largura de banda de 1,64 TB/s (2,67 vezes a do Turin)
- Introdução de rede mesh dentro do CCD: 32 núcleos Zen6c em grade 4x8, processo N2 da TSMC
- Total de 256 núcleos com 8 CCDs, um aumento de 1/3 em relação aos 192 núcleos do Turin-Dense
- Alocação integral de 4 MB de cache L3 por núcleo no Zen6c (o Zen5c anterior tinha metade), com área de cache de 128 MB por CCD
- SKU "-F" de poucos núcleos e alto clock para nós principais de IA: usa CCD Zen6 de 12 núcleos para desktop/mobile, com até 96 núcleos
- Estabilização do fornecimento de energia com 8 pequenos IPDs (Integrated Passive Device) perto da interface DDR5 ao lado do die de I/O
-
Desempenho do Venice e novas instruções
- O modelo topo de linha de 256 núcleos entrega mais de 1,7x o desempenho por watt no SPECrate®2017_int_base em relação ao Turin de 192 núcleos
- Forte aumento de IPC (Instructions per Clock) na microarquitetura Zen 6
- Novas instruções para tipos de dados de IA: AVX512_FP16, AVX_VVNI_INT8, AVX512_BMM (multiplicação de matrizes binárias)
- BMM: armazena matrizes binárias 16x16 em registradores da FPU e realiza acumulação de BMM com operações OR e XOR
- É eficiente para simulação em Verilog e afins, mas a precisão é insuficiente para LLMs, então a adoção deve ser limitada
- Com o AMD Turin de 96 núcleos em pé de igualdade com o Intel Granite Rapids de 128 núcleos, a diferença de desempenho entre Venice e Diamond Rapids deve aumentar ainda mais
- Enquanto a Intel cancelou seu processador de 8 canais, a AMD introduz a nova plataforma Venice SP8 de 8 canais, sucessora do EPYC 8004 Siena, com até 128 núcleos Zen 6c
- Espera-se ganho de participação da AMD no mercado corporativo, área de força tradicional da Intel
NVIDIA Grace e Vera
-
CPU Grace
- Projetada para nós principais de GPU e memória expandida de GPU, com NVLink-C2C (900 GB/s bidirecional), permitindo à GPU acessar a memória da CPU com largura de banda total
- Adota memória LPDDR5X de classe mobile, com barramento de memória de 512 bits, largura de banda de 500 GB/s e até 480 GB por CPU
- 72 núcleos ARM Neoverse V2 (76 dos quais ativos), mesh 6x7, cache L3 de 117 MB
- A largura de banda bisseccionada bidirecional de 3,2 TB/s da rede mesh é especializada em fluxo de dados
- Gargalo microarquitetural: o Branch Target Buffer sofre forte queda de desempenho acima de 24 regiões; acima de 32 regiões ocorre flush completo do buffer de 64 MB
- Em código HPC não otimizado, a perda de desempenho chega a 50%, com impacto também nas cargas de IA do GB200/GB300
-
CPU Vera (2026)
- Para a plataforma Rubin, com largura de banda C2C de 1,8 TB/s, o dobro
- 1,5 TB de memória com 8 módulos SOCAMM de 128 bits, e largura de banda de 1,2 TB/s
- 91 núcleos (88 ativos) em mesh 7x13, cache L3 de 162 MB
- Empacotamento CoWoS-R: 1 die de computação de tamanho de retículo em 3 nm + 4 dies de memória LPDDR5 + 1 die de I/O PCIe6/CXL3 (6 dies no total)
- Abandona os gargalos de desempenho dos núcleos Neoverse e retorna aos núcleos Olympus de projeto próprio
- 88 núcleos/176 threads (com SMT), ARMv9.2, FPU com 6 portas de 128b (expansão em relação às 4 do Neoverse V2)
- Suporte a operações ARM SVE2 FP8, 2 MB de cache L2 por núcleo (o dobro do Grace)
- Ganho geral de desempenho de 2x
AWS Graviton5
- A AWS foi a primeira hyperscaler a implantar com sucesso uma CPU própria na nuvem, com a aquisição da Annapurna Labs e uso do ARM Neoverse CSS
- Graviton2: grandes descontos durante o boom da COVID para incentivar a migração para ARM, com 64 núcleos Neoverse N1
- Graviton3: com Neoverse V1, dobrou o desempenho de ponto flutuante por núcleo, design em chiplets EMIB, e introduziu DDR5 e PCIe5 um ano antes de AMD e Intel
- Graviton4: 96 núcleos Neoverse V2, memória de 12 canais, 96 lanes PCIe5, suporte a dual-socket
- Graviton5 (preview em dezembro de 2025): 192 núcleos Neoverse V3, TSMC 3 nm, 172 bilhões de transistores
- Cache L3 de 192 MB (grande salto em relação aos 36 MB do Graviton4), DDR5-8800 de 12 canais
- Upgrade para PCIe6, mas o número de lanes cai de 96 para 64 (otimização de custo de lanes não usadas)
- Mesh 8x12, 2 núcleos compartilham um mesh stop, múltiplos dies de computação segmentados e adoção de nova estratégia de empacotamento
- Internamente, a AWS usa milhares de CPUs Graviton em CI/CD e EDA, aproveitando-as no projeto da próxima geração de Graviton, Trainium e Nitro (dogfooding interno)
- O acelerador Trainium3 usa CPU Graviton como nó principal (1 CPU : 4 XPU)
Microsoft Cobalt 200
- Sucessor do Cobalt 100 (2023, 128 núcleos Neoverse N2), com lançamento no fim de 2025
- 132 núcleos Neoverse V3, 3 MB de cache L2 por núcleo, 2 dies de computação TSMC 3 nm
- Mesh 8x8 por die, 72 núcleos impressos/66 ativos, 192 MB de cache L3, DDR5 de 6 canais, 64 lanes PCIe6
- 50% mais desempenho que o Cobalt 100
- Voltado exclusivamente para o serviço de computação de CPU de uso geral do Azure, não usado em nós principais de IA (o Microsoft Maia 200 adota Intel Granite Rapids)
Google Axion C4A, N4A
- Anunciado em 2024 e GA em 2025, marca a entrada do Google no mercado de CPUs customizadas em silício para GCP
- Axion C4A: até 72 núcleos Neoverse V2, DDR5 de 8 canais, PCIe5, die monolítico em 5 nm (81 núcleos impressos, mesh 9x9)
- Estima-se que use um novo die em 3 nm para instâncias bare metal de 96 núcleos apresentadas em preview no fim de 2025
- Axion N4A: para scale-out com boa relação custo-benefício, 64 núcleos Neoverse N3, design full custom em 3 nm da TSMC
- O Google está migrando sua infraestrutura interna (Gmail, YouTube, Google Play etc.) para ARM, e planeja futuramente implantar o Axion também como nó principal de clusters TPU
Ampere Computing e a aquisição pela SoftBank
- Pioneira em silício ARM de mercado aberto, em parceria com a Oracle, desafiou a dominância do x86 com Altra (80 núcleos) e Altra Max (128 núcleos)
- Núcleos Neoverse N1, interconexão mesh própria (clusters de 4 núcleos), DDR4 de 8 canais, 128 lanes PCIe4, die único TSMC 7 nm
- AmpereOne: processo de 5 nm, 192 núcleos, separação em chiplet de I/O (DDR5 e PCIe), design MCM sem necessidade de interposer
- Núcleos ARM customizados (otimizados para densidade de núcleos) + 2 MB de cache L2 (para aliviar o problema de noisy neighbor)
- Reaproveitamento de chiplets para variantes planejadas como AmpereOne-M de 12 canais e AmpereOne-MX de 256 núcleos em 3 nm
- Em 2025, a SoftBank a adquiriu por US$ 6,5 bilhões, com o objetivo de garantir pessoal de projeto de CPU para o empreendimento Stargate
- Motivos do fracasso da Ampere:
- A geração Altra chegou cedo demais, quando o software nativo para ARM ainda era imaturo
- O AmpereOne, após vários atrasos, só ficou disponível no segundo semestre de 2024, quando as CPUs ARM das hyperscalers já estavam ganhando tração e a AMD já oferecia 192 núcleos com desempenho por núcleo 3 a 4 vezes maior
- Valor de compras de CPUs Ampere pela Oracle: US$ 48 milhões no FY2023 → US$ 3 milhões no FY2024 → US$ 3,7 milhões no FY2025, uma queda acentuada
ARM Phoenix
- A ARM entrará no negócio de projeto e venda completos de CPUs para data center em 2026, competindo diretamente com clientes licenciados atuais do Neoverse CSS
- Até o momento, foram implantados mais de 1 bilhão de núcleos Neoverse em CPUs e DPUs de data center, com 21 licenças CSS para 12 empresas
- A receita de royalties de data center cresceu mais de 2x em relação ao ano anterior, e a previsão é que o CSS represente mais de 50% da receita de royalties nos próximos anos
- Phoenix: 128 núcleos Neoverse V3, malha ARM CMN, 2 dies half-reticle em 3 nm da TSMC
- 12 canais DDR5 (8400MT/s), 96 lanes de PCIe Gen 6, TDP configurável entre 250~350W
- O primeiro cliente é a Meta, e OpenAI (joint venture Stargate/SoftBank) e Cloudflare também são candidatas a clientes
- Com o Accelerator Enablement Kit baseado em PCIe6, é possível conectar XPUs e memória compartilhada coerente
Huawei Kunpeng
-
Kunpeng 920 e 920B
- Geração inicial (Hi1610~Kunpeng 916): ARM Cortex A57→A72, TSMC 16 nm
- Kunpeng 920 (2019): 64 núcleos customizados TaiShan V110, 2 dies de computação em 7 nm da TSMC, empacotamento CoWoS-S (primeira aplicação de CoWoS-S em CPU)
- 8 canais DDR4, 40 lanes PCIe4, dual 100GbE integrado
- O fornecimento pela TSMC foi bloqueado por sanções dos EUA, e a próxima geração Kunpeng 930 não foi lançada
- Kunpeng 920B (2024): núcleo TaiShan V120 com suporte a SMT, 10 clusters de 4 núcleos por die (total de 80 núcleos/160 threads)
- 8 canais DDR5, die de I/O separado, redesenhado no processo SMIC N+2 (após 5 anos de intervalo)
-
Kunpeng 950 (2026)
- Novo LinxiCore de 192 núcleos (com suporte a SMT), também será produzida uma versão menor de 96 núcleos
- Configuração em rack TaiShan 950 SuperPoD: 16 servidores dual-socket, até 48 TB de DDR5 (estimados 12 canais)
- Desempenho de banco de dados OLTP 2,9x superior ao do Kunpeng 920B (com base no GaussDB Multi-Write)
- Adoção prevista no servidor de banco de dados Oracle Exadata e no setor financeiro chinês
- Estima-se produção no processo SMIC N+3
-
Kunpeng 960 (roadmap de 2028)
- Versão de alto desempenho: 96 núcleos/192 threads, para nós principais de IA e bancos de dados, com desempenho por núcleo mais de 50% superior
- Versão de alta densidade: mais de 256 núcleos para virtualização e cloud
- Previsão de conquistar participação significativa no mercado chinês de CPUs para hyperscalers
Ainda não há comentários.