Nvidia propõe um sistema de CPU monstruoso para PCs com Windows
(twitter.com/lemire)- O sistema de alto desempenho da NVIDIA para PCs com Windows traz uma configuração de chip em que CPU e GPU compartilham 128 GB de memória unificada e oferece até 6.144 núcleos CUDA
- A CPU tem 10 núcleos de desempenho e 10 núcleos de eficiência, e os núcleos de desempenho são baseados em Cortex-X925; o SVE2 fica abaixo de chips recentes da AMD, mas acima do Apple Silicon
- O principal diferencial é a memória unificada que não separa a memória de CPU e GPU; ela é mais lenta que a memória dedicada de GPU, mas foi pensada para atingir as condições de largura de banda e custo necessárias para rodar modelos locais de IA
- Há tanto a visão de que a demanda para rodar modelos locais de IA ainda é uma aplicação de nicho quanto a de que 128 GB de memória compartilhada pode ser mais importante do que os TFLOPs de pico da GPU em experimentos de escala estudantil
- Os eixos de comparação incluem AMD Strix Halo, Intel Xe3P AI GPU e o AVX-512 de processadores AMD recentes; também há a limitação de que a RAM soldada dificulta trocas posteriores
Especificações do sistema e estrutura de memória
- O sistema de CPU para PCs com Windows proposto pela Nvidia vem com 128 GB de memória compartilhada e uma configuração com até 6.144 núcleos CUDA de última geração
- A CPU é composta por 10 núcleos de desempenho e 10 núcleos de eficiência, com os núcleos de desempenho baseados em Cortex-X925
- Há a comparação de que o SVE2 do Cortex-X925, em termos de especificação, fica abaixo de chips AMD recentes, mas acima do Apple Silicon
- Processadores AMD recentes todos oferecem suporte a AVX-512, e há a comparação de que o AVX-512 é muito superior ao SVE2 do Cortex-X925, processa mais dados e é mais versátil
- A Intel, até agora, tem adotado uma postura cautelosa quanto a oferecer AVX-512 em sistemas de consumo
- Os 128 GB de memória unificada funcionam como um único pool compartilhado em vez de memórias separadas para CPU e GPU, uma estrutura igual à que a Apple adotou há alguns anos
- A memória unificada está se tornando cada vez mais popular e, embora não seja tão rápida quanto a memória dedicada de GPU, tem a vantagem de ser barata o bastante para oferecer largura de banda suficiente para executar modelos locais de IA
- Há a visão de que, com RAM unificada, não é necessário enviar dados entre CPU e GPU, e tudo fica em um único pool de memória, fazendo com que pareça uma operação de cópia zero
- Resta ver como Intel e AMD vão responder
Várias opiniões relacionadas
- Ainda é incerto qual será a demanda para rodar modelos locais de IA, e isso continua sendo uma aplicação de nicho
- Há a avaliação de que esse sistema pode ser uma boa máquina para videogames, e também o contraponto de que ele não foi feito para jogos, mas para modelos grandes, então talvez não seja tão bom para games quanto se espera
- Defende-se que, em experimentos de escala estudantil, 128 GB de memória compartilhada pode ser mais importante do que os TFLOPs de pico da GPU e pode mudar quais modelos e cargas de trabalho podem ser testados localmente
- O trade-off é que a RAM não pode ser trocada depois e é toda soldada
- Quanto à capacidade de memória, há opiniões de que 128 GB é insuficiente e de que seriam desejáveis 256 GB ou 512 GB; também há a visão de que uma “beast” para tarefas de IA precisa de pelo menos 512 GB, e até desejo por uma opção com 1 TB de memória unificada
- A resposta curta do autor para o motivo da escolha de 128 GB foi: "custo"
- Em relação ao sistema operacional, há a crítica de que ele não roda “regular Windows”, junto com frustração sobre o sistema, além da sugestão de instalar Linux
- O AMD Strix Halo é um produto semelhante, com 128 GB de memória unificada e uma iGPU grande, além de ser uma referência comparativa por trazer o AVX-512 do Zen 5 para desktop
- Na experiência de usar o AMD Strix Halo por alguns meses em um homelab local de LLM, é possível rodar LLMs de nível prosumer, mas o gargalo real é a largura de banda da memória
- Há a exigência de que o novo chip da Nvidia precise de mais de 300 GB/s de largura de banda de memória
- A RTX5090 pode ser mais barata para modelos menores e mais rápidos caso a pessoa já tenha um desktop, enquanto essa linha de placas seria mais adequada para modelos locais maiores
- As vantagens de rodar IA localmente se conectam a não enviar dados sigilosos ou de clientes para terceiros com responsabilidade pouco clara, evitar assinaturas SaaS e preços por token, e permitir que um modelo local aprenda o comportamento de uso do PC para executar tarefas
- Modelos locais podem operar como funções invisíveis ao usuário, enquanto tarefas que exigem mais inteligência ou mais contexto podem ser descarregadas remotamente
- O ponto central, mais do que o modelo local em si, é a plataforma de software que sustenta aplicações integradas de IA e uma forma de manter o desktop relevante
- Um exemplo de caso de uso de IA local pode ser a execução do Google Chrome, como mostra a documentação de built-in AI do Chrome
- O item de comparação com a Intel Xe3P AI GPU inclui 160 GB de LPDDR5X, possibilidade de até 480 GB, interface de memória de 640 bits e configuração PCIe x16: https://tomshardware.com/pc-components/gpus/…
1 comentários
Comentários do Hacker News
Pool de memória unificada parece que vai continuar sendo um verdadeiro “divisor de águas”, especialmente em arquiteturas de sistema fora dos datacenters
Jogos modernos e cargas de trabalho de consumo, na prática, não usam toda a largura de banda PCIe da GPU nem toda a largura de banda da memória GDDR, e IA local também não traz tanto benefício de memória mais rápida para o consumidor médio
A memória unificada permite otimizar a utilização conforme a necessidade e reduz o custo total de memória em dispositivos pequenos e portáteis, já que não é preciso planejar separadamente a distribuição entre GDDR e DDR
O ponto fraco é a segurança: ataques por canal lateral na memória do lado da GPU ou da CPU podem comprometer o outro lado também, então parece que o projeto de segurança de memória vai ficar mais importante daqui para frente, o que pode ser uma boa tendência para defensores de Rust
Em jogos, o essencial não é saturar o hardware, mas entregar uma saída consistente dentro do prazo de frame
Mesmo que se tentasse saturar uma 5090 com jogos, o mercado-alvo seria pequeno, e para manter a taxa de quadros o sistema real dos usuários precisa rodar bem, não só a máquina de testes
Uma das maiores diferenças entre os consoles atuais e os PCs atuais é justamente a memória unificada
Em 99% das tarefas, a memória do sistema precisa ser pelo menos uma ordem de grandeza maior que a memória da GPU, e a maioria dos sistemas quase nunca precisa de mais memória de GPU do que o necessário para vídeo e navegação
O surgimento de novos casos de uso não vira totalmente essa estrutura de cabeça para baixo; se hoje 128 GB são necessários e a IA local também precisa de 128 GB, então para continuar fazendo as duas coisas será preciso 256 GB
Na verdade, isso parece mais um argumento para não usar memória tão cara assim na GPU, e talvez faça sentido se o foco for só inferência
Numa arquitetura de memória unificada, perde-se bastante desempenho; em algumas situações isso faz sentido, mas não é uma solução universal
Não sei quantas pessoas realmente rodam modelos de IA localmente, e ainda parece algo de nicho, mas vendo os lançamentos recentes do Gemma, a chance de alguns modelos rodarem localmente aumentou até só pela questão de custo
Se considerar segurança corporativa, isso vale ainda mais, mas continuo sem entender por que esse tipo de arquitetura seria bom para jogos, então fico em dúvida sobre a frase inteira do texto original
Além disso, sair colando por todo lado frases como “top 2% dos cientistas do mundo no Stanford/Elsevier 2025, top 1000 desenvolvedores no GitHub” acaba soando contraproducente
Já distribuí em vários MacBooks M5 e ele foi realmente útil em muitas tarefas
Não substitui modelos do nível do Opus ou da geração atual do Sonnet, mas é surpreendentemente bom para o tamanho e parece estar no nível da era Sonnet 4 ou um pouco antes
Em chamadas de ferramentas, programação e tarefas com agentes, ele é muito mais estável que os modelos Gemma, e fica ainda mais rápido especialmente com MTP
Não vejo por que economias de escala não se aplicariam aqui como em outros tipos de computação
Não quero menosprezar o trabalho do autor, mas esse texto passa a impressão de ter sido escrito olhando só para a tabela de especificações, sem análise profunda de fato
Ele tem a mesma quantidade de núcleos de uma 5070 mobile, mas a largura de banda de pico compartilhada e o TDP de pico compartilhado ficam em cerca de 2/3, então o desempenho da GPU sozinha provavelmente fica mais perto de metade de uma unidade dedicada
A Apple não tem SVE2, mas tem AMX proprietário e SME, e não entendo por que SVE2 seria visto como mais rápido que SME
Fala-se do tipo de núcleo isolado, mas não da configuração completa, e como o DGX Spark se compara aos chips da Apple já é algo conhecido há um ano
A CPU fica mais ou menos no nível de um M3 Pro, o cálculo de GPU fica entre M4 Pro e M4 Max desconsiderando largura de banda, e a única vantagem realmente grande é rodar CUDA
Na época do lançamento, há grande chance de ele estar 2 a 3 gerações atrás da Apple e 1 geração atrás da AMD, e a NIC para interligação, que era outro ponto forte do DGX Spark, aqui também ficou de fora
No Spark, ele é muito mais rápido que no M5 Max, e comparando o mesmo modelo, a mesma quantização, a mesma consulta e configurações do vllm o mais parecidas possível, em tarefas com prompts grandes e baixa chance de cache, muitas vezes um único Spark termina a resposta antes de um MBP terminar o prefill
Nisso a Apple leva vantagem, mas o desempenho de cálculo da GPU do Spark é muito maior que os 17 FP32 TFLOPS do M5 Max, algo perto do dobro
Ele tem 6144 núcleos CUDA, como uma 5070 de desktop, e por causa da memória mais lenta e do TDP menor acaba ficando em cerca de 29,7 contra 31 FP32 TFLOPS da 5070
No geral, o Spark é ok, mas não é nada extraordinário
Passa a impressão de alguém descobrindo só agora um chip que a indústria já conhece há muito tempo, quase sem conhecer os concorrentes, e chamando tudo de “BEAST” e “GAME CHANGER”
E mesmo o DGX Spark, que também foi vendido como divisor de águas, no geral acabou sendo uma grande decepção, então um notebook caro da Nvidia dificilmente vai mudar o cenário
O Qualcomm Snapdragon X2 Elite Extreme supera com folga o chip da Nvidia em desempenho de CPU single-core e também vence os melhores produtos da Intel e da AMD
Também tem memória unificada e é a única CPU na mesma liga da série Apple M tanto em desempenho de CPU quanto em eficiência energética
Dá para comprar em notebook agora, não no fim do ano, e as pessoas estão subestimando a Qualcomm
Se não tiver suporte a Linux, quase não faz sentido, e as duas plataformas importantes nessa área são Linux e Darwin
A Qualcomm é como a AMD foi por décadas em GPUs: muitos anúncios e muitos fãs na internet que leram a página do produto, mas quando você tenta realmente usar vira um pesadelo
O Snapdragon X Elite não roda no Linux, então não serve como plataforma, a ponto de usuários entusiastas terem feito o M1 funcionar melhor, o que leva as pessoas a usarem Macs antigos em vez de Qualcomm
A comparação deveria ser com o X930 ou o C1 do Mediatek Dimensity 9500, ou seja, com o lado Snapdragon 8 Elite Gen 5 / X2 Elite
A Qualcomm ainda tem vantagem de desempenho, mas ela está diminuindo, e o mais importante é que a Nvidia está construindo o ecossistema muito melhor
A Nvidia tem canais de distribuição e parceiros muito melhores, construídos sobre as GPUs de PC para games, e seu relacionamento com desenvolvedores de jogos é inigualável na indústria
A Qualcomm ainda não mostrou capacidade de execução nem em CPUs para PC nem para servidor
As experiências terríveis do passado foram tantas que as pessoas inevitavelmente hesitam, e embora agora pareça estar se esforçando mais, vai levar tempo para recuperar sua reputação no mercado de PCs
O comunicado de imprensa dos dispositivos reais está aqui
https://nvidianews.nvidia.com/news/nvidia-microsoft-windows-...
Foi surpreendente que pouca gente tenha apontado que Microsoft e especialmente a NVIDIA estão, na prática, lançando dispositivos que entram em conflito com modelos de IA em nuvem cobrados por uso
Olhando para outros anúncios e sinais, como um Copilot offline melhor com BYOK e um futuro de IA ilimitada, parece que as duas empresas entenderam que IA só na nuvem não é sustentável nem intrinsicamente favorável para elas
Ainda assim, fica evidente a postura de tentar enfraquecer a OpenAI com esse tipo de produto
A Microsoft está pressionando forte pela IA local
Não tenho certeza se LLMs locais serão adotados em massa, a menos que os preços realmente subam
Faz sentido usar modelos pequenos hospedados e mais baratos, como Sonnet ou Kimi, e esses dispositivos provavelmente não vão conseguir rodar modelos no nível do Kimi, que é mais ou menos o piso para tarefas de agente que não sejam só brinquedo
Gastar $5.000 para evitar uma assinatura de $20 não parece fazer muito sentido, a menos que seja por motivos específicos de segurança
Já viu Dungeon Crawler Carl?
Parece que a maioria não está entendendo direito o que esses notebooks vão oferecer
Antes de IA local, é bem provável que usemos primeiro IA híbrida
Rodar modelos grandes localmente é inviável, mas, se você pensar em um fluxo de trabalho de agente em que parte roda na nuvem e tarefas menores rodam localmente, a combinação fica excelente
Para tarefas básicas, você não precisa de modelos como Opus/Code/DeepSeek/Kimi; modelos como Gemma4:12b/Qwen-27b podem lidar com isso localmente com latência bem menor
Se existisse um notebook que pudesse combinar um grande modelo remoto com 5 modelos locais especializados por domínio, eu usaria agora mesmo
Dá para imaginar o OpenCode decidindo quais tarefas um modelo pequeno executaria localmente e se existe um modelo local adequado para a tarefa específica ou se deve usar um modelo na nuvem
A preocupação é se esse hardware é poderoso o bastante para aguentar troca rápida de modelos locais; provavelmente não, mas eu adoraria estar errado
Os modelos de fronteira agora já estão conseguindo benchmarks melhores com apenas 200.000 tokens, e a destilação ainda tem muito espaço para evoluir
Não sei muito bem de que “monstro” estão falando
300GB/s de largura de banda de memória é só um pouco mais do que os 256GB/s do AMD Strix Halo, e nem chega à metade dos 614GB/s do M5 Max 128GB com a mesma configuração de 128GB de RAM
Como a maioria dos interessados provavelmente é entusiasta de IA, faz sentido enfatizar largura de banda de memória, ainda mais sendo Windows
Fluxos de trabalho com 256k tokens, que no M5 levariam quase metade do tempo até o primeiro token, poderiam rodar de forma realista
A AMD pode rodar tudo por ser x86, a Apple mantém a stack inteira do macOS, mas a Nvidia mal consegue acompanhar uma única release do Ubuntu por geração do Jetson, o que é até constrangedor
Seria bom se colocassem todos esses agentes dos quais vivem falando para trabalhar de verdade no suporte ao sistema operacional
Estou realmente curioso sobre a diferença para algo como o AMD Ryzen AI Max, que já dá para comprar e suporta 128GB de memória unificada
Em 2026, não sei quem ainda fica obcecado com “Windows PC”
É só um computador pessoal, e normalmente consegue rodar bem vários sistemas operacionais
A expressão “Windows PC” soa como coisa de alguém que recebeu dinheiro da Microsoft ou que fala de tecnologia como quem diz para enviar um documento do Word com imagens inseridas
Não há necessidade de forçar a graça de um dispositivo independente de sistema operacional a ficar presa a um sistema operacional medíocre
Provavelmente compra mais PCs do que todo o resto do mercado somado
Mesmo para uso pessoal, quem faz dual boot de Windows com outro sistema operacional deve ser uma minoria minúscula
“Windows PC” é uma forma bem razoável de distinguir entre “feito pela Apple” e “feito por outras empresas”, e o mercado de PCs não feitos pela Apple que não vêm com Windows por padrão é realmente pequeno
Sinceramente, parece estranho assumir uma postura tão agressiva sobre esse tema
A palavra PC é ambígua: pode significar todos os computadores pessoais no sentido original ou a linhagem IBM PC em contraste com o Mac
Basta lembrar dos anúncios “I'm a Mac, I'm a PC”
Se você disser só PC, hoje em dia as pessoas realmente ficam em dúvida sobre qual sentido é, e “IBM PC” soa antiquado, enquanto “IBM PC clone” é pior ainda
Por isso, “Windows PC” é um nome bastante aceitável, e “Non-Mac PC” também não soa muito bem
Não precisa falar disso de forma insultuosa
O motivo para usar Windows em empresas ou em alguns desktops domésticos, como para jogos, ainda é a compatibilidade de hardware e software
Usa-se porque o trabalho é feito com programas para Windows, e também há drivers que ainda não existem no Win-for-ARM
Por isso, para a maioria das pessoas, “Windows PC” ainda significa um Windows PC x64
Se a compatibilidade do Windows-Arm64 não for suficiente, o risco para a Microsoft é que, já que de qualquer forma seriam necessários software e hardware novos, as pessoas acabem abandonando o próprio Windows
Um amaldiçoado Nvidia Hackintosh seria bem engraçado, mas
para o usuário comum, existem três sistemas operacionais de computador: Windows, Apple e ChromeOS; a Nvidia não vai para o ChromeOS, e a Apple odeia a Nvidia, então o único sistema operacional normal que dá para vender no marketing é o Windows
O marketing deixa claro que esses dispositivos não são Chromebooks baratos que arruinaram a experiência de desktop de muita gente
A Qualcomm prometeu suporte a Linux e fracassou, e quem se decepcionou com essa promessa provavelmente não vai querer comprar esse hardware de novo
Se você promete um Windows PC, há menos motivo para reclamar que Linux, FreeBSD e SerenityOS não dão boot, e vendo o fracasso da Qualcomm, parece que a Nvidia provavelmente está fazendo a escolha certa