Nvidia propõe um sistema de CPU monstruoso para PCs com Windows

(twitter.com/lemire)

5 pontos por GN⁺ 2026-06-07 | 2 comentários | Compartilhar no WhatsApp

O sistema de alto desempenho da NVIDIA para PCs com Windows traz uma configuração de chip em que CPU e GPU compartilham 128 GB de memória unificada e oferece até 6.144 núcleos CUDA
A CPU tem 10 núcleos de desempenho e 10 núcleos de eficiência, e os núcleos de desempenho são baseados em Cortex-X925; o SVE2 fica abaixo de chips recentes da AMD, mas acima do Apple Silicon
O principal diferencial é a memória unificada que não separa a memória de CPU e GPU; ela é mais lenta que a memória dedicada de GPU, mas foi pensada para atingir as condições de largura de banda e custo necessárias para rodar modelos locais de IA
Há tanto a visão de que a demanda para rodar modelos locais de IA ainda é uma aplicação de nicho quanto a de que 128 GB de memória compartilhada pode ser mais importante do que os TFLOPs de pico da GPU em experimentos de escala estudantil
Os eixos de comparação incluem AMD Strix Halo, Intel Xe3P AI GPU e o AVX-512 de processadores AMD recentes; também há a limitação de que a RAM soldada dificulta trocas posteriores

Especificações do sistema e estrutura de memória

O sistema de CPU para PCs com Windows proposto pela Nvidia vem com 128 GB de memória compartilhada e uma configuração com até 6.144 núcleos CUDA de última geração
A CPU é composta por 10 núcleos de desempenho e 10 núcleos de eficiência, com os núcleos de desempenho baseados em Cortex-X925
Há a comparação de que o SVE2 do Cortex-X925, em termos de especificação, fica abaixo de chips AMD recentes, mas acima do Apple Silicon
Processadores AMD recentes todos oferecem suporte a AVX-512, e há a comparação de que o AVX-512 é muito superior ao SVE2 do Cortex-X925, processa mais dados e é mais versátil
- A Intel, até agora, tem adotado uma postura cautelosa quanto a oferecer AVX-512 em sistemas de consumo
Os 128 GB de memória unificada funcionam como um único pool compartilhado em vez de memórias separadas para CPU e GPU, uma estrutura igual à que a Apple adotou há alguns anos
A memória unificada está se tornando cada vez mais popular e, embora não seja tão rápida quanto a memória dedicada de GPU, tem a vantagem de ser barata o bastante para oferecer largura de banda suficiente para executar modelos locais de IA
- Há a visão de que, com RAM unificada, não é necessário enviar dados entre CPU e GPU, e tudo fica em um único pool de memória, fazendo com que pareça uma operação de cópia zero
Resta ver como Intel e AMD vão responder

Várias opiniões relacionadas

Ainda é incerto qual será a demanda para rodar modelos locais de IA, e isso continua sendo uma aplicação de nicho
Há a avaliação de que esse sistema pode ser uma boa máquina para videogames, e também o contraponto de que ele não foi feito para jogos, mas para modelos grandes, então talvez não seja tão bom para games quanto se espera
Defende-se que, em experimentos de escala estudantil, 128 GB de memória compartilhada pode ser mais importante do que os TFLOPs de pico da GPU e pode mudar quais modelos e cargas de trabalho podem ser testados localmente
O trade-off é que a RAM não pode ser trocada depois e é toda soldada
Quanto à capacidade de memória, há opiniões de que 128 GB é insuficiente e de que seriam desejáveis 256 GB ou 512 GB; também há a visão de que uma “beast” para tarefas de IA precisa de pelo menos 512 GB, e até desejo por uma opção com 1 TB de memória unificada
- A resposta curta do autor para o motivo da escolha de 128 GB foi: "custo"
Em relação ao sistema operacional, há a crítica de que ele não roda “regular Windows”, junto com frustração sobre o sistema, além da sugestão de instalar Linux
O AMD Strix Halo é um produto semelhante, com 128 GB de memória unificada e uma iGPU grande, além de ser uma referência comparativa por trazer o AVX-512 do Zen 5 para desktop
- Na experiência de usar o AMD Strix Halo por alguns meses em um homelab local de LLM, é possível rodar LLMs de nível prosumer, mas o gargalo real é a largura de banda da memória
- Há a exigência de que o novo chip da Nvidia precise de mais de 300 GB/s de largura de banda de memória
A RTX5090 pode ser mais barata para modelos menores e mais rápidos caso a pessoa já tenha um desktop, enquanto essa linha de placas seria mais adequada para modelos locais maiores
As vantagens de rodar IA localmente se conectam a não enviar dados sigilosos ou de clientes para terceiros com responsabilidade pouco clara, evitar assinaturas SaaS e preços por token, e permitir que um modelo local aprenda o comportamento de uso do PC para executar tarefas
Modelos locais podem operar como funções invisíveis ao usuário, enquanto tarefas que exigem mais inteligência ou mais contexto podem ser descarregadas remotamente
O ponto central, mais do que o modelo local em si, é a plataforma de software que sustenta aplicações integradas de IA e uma forma de manter o desktop relevante
Um exemplo de caso de uso de IA local pode ser a execução do Google Chrome, como mostra a documentação de built-in AI do Chrome
O item de comparação com a Intel Xe3P AI GPU inclui 160 GB de LPDDR5X, possibilidade de até 480 GB, interface de memória de 640 bits e configuração PCIe x16: https://tomshardware.com/pc-components/gpus/…

2 comentários

chcv0313 2026-06-07

A maioria das ferramentas de LLM roda nativamente em Linux com Docker, e ao usar no Windows via WSL havia muitos errinhos. Será que agora já dá para esperar ferramentas nativas para Windows?

GN⁺ 2026-06-07

Comentários do Hacker News

Pool de memória unificada parece que vai continuar sendo um verdadeiro “divisor de águas”, especialmente em arquiteturas de sistema fora dos datacenters
Jogos modernos e cargas de trabalho de consumo, na prática, não usam toda a largura de banda PCIe da GPU nem toda a largura de banda da memória GDDR, e IA local também não traz tanto benefício de memória mais rápida para o consumidor médio
A memória unificada permite otimizar a utilização conforme a necessidade e reduz o custo total de memória em dispositivos pequenos e portáteis, já que não é preciso planejar separadamente a distribuição entre GDDR e DDR
O ponto fraco é a segurança: ataques por canal lateral na memória do lado da GPU ou da CPU podem comprometer o outro lado também, então parece que o projeto de segurança de memória vai ficar mais importante daqui para frente, o que pode ser uma boa tendência para defensores de Rust
- Essa ideia de “utilizar ao máximo” a largura de banda PCIe da GPU ou a largura de banda da GDDR é um pouco confusa
  Em jogos, o essencial não é saturar o hardware, mas entregar uma saída consistente dentro do prazo de frame
  Mesmo que se tentasse saturar uma 5090 com jogos, o mercado-alvo seria pequeno, e para manter a taxa de quadros o sistema real dos usuários precisa rodar bem, não só a máquina de testes
- Do ponto de vista de um desenvolvedor de jogos, o fato de jogos modernos não conseguirem usar toda a largura de banda da GPU não é preguiça, é porque isso é realmente difícil
  Uma das maiores diferenças entre os consoles atuais e os PCs atuais é justamente a memória unificada
- Se o dispositivo não puder ser atualizado, fica conveniente para o fabricante forçar segmentação de mercado e cobrar um prêmio enorme por pequenos upgrades de RAM, como a Apple faz
- O argumento econômico não convence muito
  Em 99% das tarefas, a memória do sistema precisa ser pelo menos uma ordem de grandeza maior que a memória da GPU, e a maioria dos sistemas quase nunca precisa de mais memória de GPU do que o necessário para vídeo e navegação
  O surgimento de novos casos de uso não vira totalmente essa estrutura de cabeça para baixo; se hoje 128 GB são necessários e a IA local também precisa de 128 GB, então para continuar fazendo as duas coisas será preciso 256 GB
  Na verdade, isso parece mais um argumento para não usar memória tão cara assim na GPU, e talvez faça sentido se o foco for só inferência
- DRAM otimizada para uso de CPU e DRAM otimizada para uso de GPU são coisas bem diferentes
  Numa arquitetura de memória unificada, perde-se bastante desempenho; em algumas situações isso faz sentido, mas não é uma solução universal
Não sei quantas pessoas realmente rodam modelos de IA localmente, e ainda parece algo de nicho, mas vendo os lançamentos recentes do Gemma, a chance de alguns modelos rodarem localmente aumentou até só pela questão de custo
Se considerar segurança corporativa, isso vale ainda mais, mas continuo sem entender por que esse tipo de arquitetura seria bom para jogos, então fico em dúvida sobre a frase inteira do texto original
Além disso, sair colando por todo lado frases como “top 2% dos cientistas do mundo no Stanford/Elsevier 2025, top 1000 desenvolvedores no GitHub” acaba soando contraproducente
- Parece a versão de 2026 da fala do Ken Olsen de que “não há motivo para ter um computador em casa”
- Quando vejo esse tipo de frase em uma bio pessoal, parece só um banner dizendo para interpretar tudo no contexto de autopromoção
- Na maioria das tarefas, o Qwen 3.6 está muito à frente do Gemma
  Já distribuí em vários MacBooks M5 e ele foi realmente útil em muitas tarefas
  Não substitui modelos do nível do Opus ou da geração atual do Sonnet, mas é surpreendentemente bom para o tamanho e parece estar no nível da era Sonnet 4 ou um pouco antes
  Em chamadas de ferramentas, programação e tarefas com agentes, ele é muito mais estável que os modelos Gemma, e fica ainda mais rápido especialmente com MTP
- O público do HN em geral não é o alvo da autopromoção dele, mas claramente existe um público, e parece que isso tem algum efeito
- É difícil acreditar que rodar modelos em um notebook vá ficar mais barato do que rodá-los em um datacenter
  Não vejo por que economias de escala não se aplicariam aqui como em outros tipos de computação
Não quero menosprezar o trabalho do autor, mas esse texto passa a impressão de ter sido escrito olhando só para a tabela de especificações, sem análise profunda de fato
Ele tem a mesma quantidade de núcleos de uma 5070 mobile, mas a largura de banda de pico compartilhada e o TDP de pico compartilhado ficam em cerca de 2/3, então o desempenho da GPU sozinha provavelmente fica mais perto de metade de uma unidade dedicada
A Apple não tem SVE2, mas tem AMX proprietário e SME, e não entendo por que SVE2 seria visto como mais rápido que SME
Fala-se do tipo de núcleo isolado, mas não da configuração completa, e como o DGX Spark se compara aos chips da Apple já é algo conhecido há um ano
A CPU fica mais ou menos no nível de um M3 Pro, o cálculo de GPU fica entre M4 Pro e M4 Max desconsiderando largura de banda, e a única vantagem realmente grande é rodar CUDA
Na época do lançamento, há grande chance de ele estar 2 a 3 gerações atrás da Apple e 1 geração atrás da AMD, e a NIC para interligação, que era outro ponto forte do DGX Spark, aqui também ficou de fora
- Outra vantagem em relação à Apple é o prefill
  No Spark, ele é muito mais rápido que no M5 Max, e comparando o mesmo modelo, a mesma quantização, a mesma consulta e configurações do vllm o mais parecidas possível, em tarefas com prompts grandes e baixa chance de cache, muitas vezes um único Spark termina a resposta antes de um MBP terminar o prefill
- Esse comentário sobre cálculo de GPU parece estar pensando em tarefas que dependem de largura de banda de memória, como geração de tokens
  Nisso a Apple leva vantagem, mas o desempenho de cálculo da GPU do Spark é muito maior que os 17 FP32 TFLOPS do M5 Max, algo perto do dobro
  Ele tem 6144 núcleos CUDA, como uma 5070 de desktop, e por causa da memória mais lenta e do TDP menor acaba ficando em cerca de 29,7 contra 31 FP32 TFLOPS da 5070
- O Lemire tende a ter um interesse bem estreito em SIMD de CPU, então nesse nicho isso pode ser interessante
  No geral, o Spark é ok, mas não é nada extraordinário
- Isso aqui é claramente fluff, e o fato de esse tuíte sem valor ter ido parar na primeira página do HN parece vir do hábito de santificar certas pessoas e tratar tudo que elas dizem como se fosse profecia
  Passa a impressão de alguém descobrindo só agora um chip que a indústria já conhece há muito tempo, quase sem conhecer os concorrentes, e chamando tudo de “BEAST” e “GAME CHANGER”
  E mesmo o DGX Spark, que também foi vendido como divisor de águas, no geral acabou sendo uma grande decepção, então um notebook caro da Nvidia dificilmente vai mudar o cenário
O Qualcomm Snapdragon X2 Elite Extreme supera com folga o chip da Nvidia em desempenho de CPU single-core e também vence os melhores produtos da Intel e da AMD
Também tem memória unificada e é a única CPU na mesma liga da série Apple M tanto em desempenho de CPU quanto em eficiência energética
Dá para comprar em notebook agora, não no fim do ano, e as pessoas estão subestimando a Qualcomm
- O suporte de sistema operacional é péssimo
  Se não tiver suporte a Linux, quase não faz sentido, e as duas plataformas importantes nessa área são Linux e Darwin
  A Qualcomm é como a AMD foi por décadas em GPUs: muitos anúncios e muitos fãs na internet que leram a página do produto, mas quando você tenta realmente usar vira um pesadelo
  O Snapdragon X Elite não roda no Linux, então não serve como plataforma, a ponto de usuários entusiastas terem feito o M1 funcionar melhor, o que leva as pessoas a usarem Macs antigos em vez de Qualcomm
- O X925 do chip da Nvidia é um design de CPU Arm antigo, de dois anos atrás, então foi isso que ele venceu
  A comparação deveria ser com o X930 ou o C1 do Mediatek Dimensity 9500, ou seja, com o lado Snapdragon 8 Elite Gen 5 / X2 Elite
  A Qualcomm ainda tem vantagem de desempenho, mas ela está diminuindo, e o mais importante é que a Nvidia está construindo o ecossistema muito melhor
  A Nvidia tem canais de distribuição e parceiros muito melhores, construídos sobre as GPUs de PC para games, e seu relacionamento com desenvolvedores de jogos é inigualável na indústria
  A Qualcomm ainda não mostrou capacidade de execução nem em CPUs para PC nem para servidor
- A Microsoft está atrapalhando a portabilidade do Windows para Arm, e por isso não consegue aproveitar a Qualcomm direito
- A Qualcomm está naquela situação de “me engane uma vez, a culpa é sua; me engane duas vezes, você não me engana de novo”
  As experiências terríveis do passado foram tantas que as pessoas inevitavelmente hesitam, e embora agora pareça estar se esforçando mais, vai levar tempo para recuperar sua reputação no mercado de PCs
- Há suporte decente no Linux?
O comunicado de imprensa dos dispositivos reais está aqui
https://nvidianews.nvidia.com/news/nvidia-microsoft-windows-...
Foi surpreendente que pouca gente tenha apontado que Microsoft e especialmente a NVIDIA estão, na prática, lançando dispositivos que entram em conflito com modelos de IA em nuvem cobrados por uso
Olhando para outros anúncios e sinais, como um Copilot offline melhor com BYOK e um futuro de IA ilimitada, parece que as duas empresas entenderam que IA só na nuvem não é sustentável nem intrinsicamente favorável para elas
Ainda assim, fica evidente a postura de tentar enfraquecer a OpenAI com esse tipo de produto
- Na semana passada, no MS BUILD, unmetered intelligence foi provavelmente a expressão mais usada
  A Microsoft está pressionando forte pela IA local
- Pode ser, mas também pode ser só uma aposta nos dois lados
Não tenho certeza se LLMs locais serão adotados em massa, a menos que os preços realmente subam
Faz sentido usar modelos pequenos hospedados e mais baratos, como Sonnet ou Kimi, e esses dispositivos provavelmente não vão conseguir rodar modelos no nível do Kimi, que é mais ou menos o piso para tarefas de agente que não sejam só brinquedo
Gastar $5.000 para evitar uma assinatura de $20 não parece fazer muito sentido, a menos que seja por motivos específicos de segurança
- Em contrapartida, eu apostaria mais na possibilidade de a China continuar expandindo a produção de DRAM, derrubar os preços e arrastar junto o mercado acionário dos EUA, que está sustentado por essa escassez
- Acho que ainda nem vimos direito o que a IA generativa pode fazer por novos produtos e jogos
  Já viu Dungeon Crawler Carl?
Parece que a maioria não está entendendo direito o que esses notebooks vão oferecer
Antes de IA local, é bem provável que usemos primeiro IA híbrida
Rodar modelos grandes localmente é inviável, mas, se você pensar em um fluxo de trabalho de agente em que parte roda na nuvem e tarefas menores rodam localmente, a combinação fica excelente
Para tarefas básicas, você não precisa de modelos como Opus/Code/DeepSeek/Kimi; modelos como Gemma4:12b/Qwen-27b podem lidar com isso localmente com latência bem menor
Se existisse um notebook que pudesse combinar um grande modelo remoto com 5 modelos locais especializados por domínio, eu usaria agora mesmo
Dá para imaginar o OpenCode decidindo quais tarefas um modelo pequeno executaria localmente e se existe um modelo local adequado para a tarefa específica ou se deve usar um modelo na nuvem
A preocupação é se esse hardware é poderoso o bastante para aguentar troca rápida de modelos locais; provavelmente não, mas eu adoraria estar errado
- Pela velocidade do avanço dos modelos locais, com a trajetória atual parece possível ver, em até 2 anos, desempenho próximo ao de modelos de fronteira com 128GB de RAM unificada e quantização de 6 bits
  Os modelos de fronteira agora já estão conseguindo benchmarks melhores com apenas 200.000 tokens, e a destilação ainda tem muito espaço para evoluir
Não sei muito bem de que “monstro” estão falando
300GB/s de largura de banda de memória é só um pouco mais do que os 256GB/s do AMD Strix Halo, e nem chega à metade dos 614GB/s do M5 Max 128GB com a mesma configuração de 128GB de RAM
Como a maioria dos interessados provavelmente é entusiasta de IA, faz sentido enfatizar largura de banda de memória, ainda mais sendo Windows
- Ao contrário do M5 Max, isso talvez permita context prefill realmente utilizável
  Fluxos de trabalho com 256k tokens, que no M5 levariam quase metade do tempo até o primeiro token, poderiam rodar de forma realista
- Se a Nvidia quiser tornar CPUs ARM realmente práticas para uso em desktop além de inferência ou treinamento, ainda há muito trabalho de software a fazer
  A AMD pode rodar tudo por ser x86, a Apple mantém a stack inteira do macOS, mas a Nvidia mal consegue acompanhar uma única release do Ubuntu por geração do Jetson, o que é até constrangedor
  Seria bom se colocassem todos esses agentes dos quais vivem falando para trabalhar de verdade no suporte ao sistema operacional
Estou realmente curioso sobre a diferença para algo como o AMD Ryzen AI Max, que já dá para comprar e suporta 128GB de memória unificada
- Talvez seja por causa do suporte a CUDA ou de elementos específicos da NVIDIA
Em 2026, não sei quem ainda fica obcecado com “Windows PC”
É só um computador pessoal, e normalmente consegue rodar bem vários sistemas operacionais
A expressão “Windows PC” soa como coisa de alguém que recebeu dinheiro da Microsoft ou que fala de tecnologia como quem diz para enviar um documento do Word com imagens inseridas
Não há necessidade de forçar a graça de um dispositivo independente de sistema operacional a ficar presa a um sistema operacional medíocre
- Obviamente, é o mercado corporativo
  Provavelmente compra mais PCs do que todo o resto do mercado somado
  Mesmo para uso pessoal, quem faz dual boot de Windows com outro sistema operacional deve ser uma minoria minúscula
  “Windows PC” é uma forma bem razoável de distinguir entre “feito pela Apple” e “feito por outras empresas”, e o mercado de PCs não feitos pela Apple que não vêm com Windows por padrão é realmente pequeno
  Sinceramente, parece estranho assumir uma postura tão agressiva sobre esse tema
- Provavelmente é uma forma de deixar claro que não estão falando de Mac
  A palavra PC é ambígua: pode significar todos os computadores pessoais no sentido original ou a linhagem IBM PC em contraste com o Mac
  Basta lembrar dos anúncios “I'm a Mac, I'm a PC”
  Se você disser só PC, hoje em dia as pessoas realmente ficam em dúvida sobre qual sentido é, e “IBM PC” soa antiquado, enquanto “IBM PC clone” é pior ainda
  Por isso, “Windows PC” é um nome bastante aceitável, e “Non-Mac PC” também não soa muito bem
  Não precisa falar disso de forma insultuosa
- Isso nem é um “Windows PC” no sentido tradicional
  O motivo para usar Windows em empresas ou em alguns desktops domésticos, como para jogos, ainda é a compatibilidade de hardware e software
  Usa-se porque o trabalho é feito com programas para Windows, e também há drivers que ainda não existem no Win-for-ARM
  Por isso, para a maioria das pessoas, “Windows PC” ainda significa um Windows PC x64
  Se a compatibilidade do Windows-Arm64 não for suficiente, o risco para a Microsoft é que, já que de qualquer forma seriam necessários software e hardware novos, as pessoas acabem abandonando o próprio Windows
- Espero que quem queira rodar algo que não seja Windows em um dispositivo da Nvidia já tenha aprendido a lição
  Um amaldiçoado Nvidia Hackintosh seria bem engraçado, mas
  para o usuário comum, existem três sistemas operacionais de computador: Windows, Apple e ChromeOS; a Nvidia não vai para o ChromeOS, e a Apple odeia a Nvidia, então o único sistema operacional normal que dá para vender no marketing é o Windows
  O marketing deixa claro que esses dispositivos não são Chromebooks baratos que arruinaram a experiência de desktop de muita gente
  A Qualcomm prometeu suporte a Linux e fracassou, e quem se decepcionou com essa promessa provavelmente não vai querer comprar esse hardware de novo
  Se você promete um Windows PC, há menos motivo para reclamar que Linux, FreeBSD e SerenityOS não dão boot, e vendo o fracasso da Qualcomm, parece que a Nvidia provavelmente está fazendo a escolha certa
- Parece uma informação relevante que a Nvidia esteja apostando forte em Windows ARM