Crise de falta de RAM pode durar vários anos

(theverge.com)

2 pontos por GN⁺ 11 일 전 | 1 comentários | Compartilhar no WhatsApp

A escassez global de DRAM de uso geral deve permitir atender apenas 60% da demanda até o fim de 2027, e algumas previsões indicam que isso pode continuar até 2030
Grandes fabricantes como Samsung, SK Hynix e Micron estão promovendo expansões de novas fabs, mas a maioria não poderá entrar em operação antes de 2027–2028
Para atender à demanda, seria necessário um aumento anual de 12% na produção, mas a taxa de crescimento realmente planejada é de apenas 7,5%
As novas instalações estão concentradas na produção de HBM (memória de alta largura de banda) para data centers de IA, o que limita sua capacidade de aliviar a escassez de DRAM de uso geral para eletrônicos de consumo
Já há aumentos de preço em vários eletrônicos de consumo como smartphones, notebooks, headsets VR e handhelds gamer

Situação global da escassez no fornecimento de memória

Segundo reportagem da Nikkei Asia, apesar da expansão da produção de DRAM, os fabricantes esperam conseguir atender apenas 60% da demanda até o fim de 2027
O presidente do SK Group mencionou que a escassez de chips e wafers pode persistir até 2030

Planos de expansão de produção dos principais fabricantes

Os três maiores fabricantes de memória do mundo, Samsung, SK Hynix e Micron, estão todos avançando na construção de novas fabs
No entanto, a maior parte das novas instalações só começará a operar em 2027, ou no mais cedo em 2028
Em 2026, o único caso real de aumento de produção foi a fab de Cheongju da SK, que iniciou operação em fevereiro

Taxa de aumento de produção e lacuna de demanda

Segundo a Counterpoint Research, para acompanhar a demanda seria necessário um aumento anual de 12% na produção durante 2026–2027
A taxa de aumento de produção realmente planejada fica em apenas 7,5%
A diferença entre o planejado e o necessário é um fator central para prolongar a escassez de oferta

Prioridade ao HBM e impacto no mercado consumidor

As novas fabs estão concentradas na produção de HBM (High-Bandwidth Memory) usada em data centers de IA
Como os fabricantes já estão priorizando HBM em relação à DRAM de uso geral, o efeito de melhora no fornecimento de memória para computadores e smartphones é incerto
Por isso, não está claro se a pressão sobre os preços no setor de eletrônicos de consumo será aliviada

Casos de aumento de preços em eletrônicos de consumo

Devido à falta de RAM, já ocorreram aumentos de preços em várias categorias de produtos
- Aumento de preço em smartphones e tablets Galaxy da Samsung
- Aumento de preço da linha Surface da Microsoft
- Aumento de 100 dólares no headset VR Quest 3 / 3S da Meta
- Aumento de preço no handheld gamer de tela dupla da AYN

1 comentários

GN⁺ 11 일 전

Comentários no Hacker News

Pelo que entendo, Samsung, SK Hynix e Micron não têm capacidade de produção para dar conta da demanda, e mesmo o volume disponível está sendo priorizado para HBM em vez de DRAM. Como HBM não parece algo fácil de redirecionar para eletrônicos de consumo, o mercado consumidor em geral deve passar por dificuldades por uns 3 ou 4 anos. Além disso, a OpenAI também está presa a pressão de capital, e com as dúvidas crescendo sobre burn rate e receita, parece até possível que ela não cumpra até o fim nem mesmo os compromissos de compra que dispararam este pânico de RAM, o que no fim poderia deixar os fabricantes de memória segurando estoque
- Isso me faz lembrar da Radeon VII de 2019, que era uma GPU de consumo de 700 dólares e já entregava 1TB/s de largura de banda com HBM2. Na época a AMD colocou HBM até em linhas intermediárias, então não entendo muito bem por que uma tecnologia que antes podia ser vendida ao consumidor comum agora é tratada como algo caro e especial, quase como uma tecnologia divina
- O fator regional também pesa bastante. Na Holanda, por causa da saturação da rede elétrica, empresas que queriam construir datacenters já pagaram os custos e até receberam garantia de conexão, mas foram informadas de que será difícil conseguir acesso antes de 2030. Nesse caso, capacidade de memória teria sido reservada com base em datacenters que ainda nem foram construídos, então se a obra atrasar ou for cancelada, oferta e demanda podem acabar se enrolando ainda mais de um jeito estranho
- Minha impressão é que os fabricantes de memória sempre acabam sendo quem fica com o prejuízo no fim. Acho que já vi algo parecido acontecer pelo menos umas três vezes
- Ainda assim, desta vez os fabricantes de memória não expandiram tanto quanto antes, e acho justamente que essa foi uma escolha para evitar uma explosão de estoque
- Eu acho que, conforme as várias promessas de construção de infraestrutura do Altman forem ruindo, a balança vai pender mais para excesso de oferta mais cedo do que se imagina. Também me parece que o setor financeiro está começando a perceber que essa infraestrutura não pode ser construída tão rápido assim e que, mesmo construída, não gera lucro
A dúvida que ainda não consegui resolver é esta. Se a IA tornar mais fácil desenvolver software, os preços vão cair, mas num cenário em que o gasto com IA já é várias vezes maior que todo o gasto global com software, não entendo como as empresas de software vão bancar esse custo. Por isso, a demanda atual por RAM me parece uma base sobre areia, e no fim a chance de virar um grande excesso de oferta parece alta
- Eu não iria tão longe. Os LLMs já são úteis o bastante como ferramenta para não desaparecerem, e a questão central no fim é escalabilidade e redução de custos. Mesmo que empresas pequenas não consigam usar, as grandes podem encontrar primeiro vários usos em áreas como defesa, exploração de recursos e finanças. Por outro lado, se o custo cair o bastante, equipes pequenas também passam a usar, mas se ficar barato demais pode surgir o paradoxo de consumidores potenciais fazerem software em casa por conta própria
- Há até cálculo de analistas dizendo que seria preciso uma nova assinatura de 35 dólares por mês para cada usuário de iPhone e de 180 dólares por mês para cada assinante da Netflix. Mesmo com o aumento de preço do Claude Max, sou cético quanto à ideia de que todos os usuários da Netflix pagariam algo nesse nível. Dá para ver mais sobre isso nesta matéria da Tom's Hardware
- Todo mundo parece estar apostando no paradoxo de Jevons. É como se esperassem que a IA vire o próximo semicondutor, a próxima internet
- Eu vejo isso como um cavalo de Troia. Parece uma estratégia que aposta em fazer o mundo se acostumar e se tornar dependente dessa tecnologia
Acho que essa situação vai durar bastante. Depois da pandemia, os fabricantes aprenderam que restringir a oferta maximiza os lucros, e vendo como os preços dos carros não caem facilmente como antes, RAM pode seguir um caminho parecido. Ao contrário de grandes clientes como Apple ou OpenAI, consumidores comuns não conseguem fechar contratos grandes, então no fim parece que nós é que vamos arcar com o custo
Eu sou um pouco otimista. Espero que isso sirva de alerta para desenvolvedores que usam RAM sem cuidado, e que daqui para frente os apps sejam obrigados a ficar mais eficientes em memória
- Isso me lembra um pouco o fim da era dos motores V8 depois do choque do petróleo de 1973
- Só que hoje quem está puxando a demanda é sobretudo a inferência inference, então talvez os desenvolvedores nem tenham um incentivo tão urgente para otimizar de fato
- Eu gostaria que o Electron perdesse força com isso. Nunca entendi por que algo que poderia mostrar conteúdo simples na tela usando 500KB precisa virar um app de mais de 300MB
  - Isso realmente parece um cenário dos sonhos
- Para usar menos RAM, muitas vezes é preciso usar mais CPU, então mesmo que o preço da RAM suba, no geral isso muitas vezes não acaba sendo um bom trade-off
Fiquei surpreso que a matéria não mencione em nenhum momento o TurboQuant do Google. Foi divulgado há 26 dias e dizem que reduz a memória de cache KV em 6 vezes e ainda aumenta a velocidade em até 8 vezes, e já foi incorporado ao llama.cpp, ajudando a rodar contextos maiores sem precisar fazer concessões para modelos menores. Claro que eu também continuo cético sobre o quanto isso realmente vai aliviar o problema de RAM. Parece bem provável que a demanda seja maior que o ganho de eficiência. Dá para ver mais neste post do HN
- No setor, também há uma percepção forte de que o TurboQuant não é exatamente SOTA de ponta. Existem formas melhores de quantização KV por bitrate, com alternativas como SpectralQuant, por exemplo. Além disso, esse número de 6 vezes é uma comparação feita no estilo contra cache KV em BF16, então a história muda se comparar com métodos de 8 bits ou 4 bits que já existem
- Também vale corrigir um ponto. O paper do TurboQuant na verdade saiu no arXiv em abril de 2025, e a implementação atual entrega algo em torno de 3,8x a 4,9x de compressão, sendo que os valores mais altos exigem aceitar uma queda considerável no desempenho em GSM8K. A velocidade também fica em torno de 80% a 100% do baseline, então pode não haver melhora ou até ficar mais lento. O estado da implementação pode ser visto neste PR do vLLM, e a discussão está nesta issue do vLLM. Pessoalmente estou testando DMS, que me parece mais promissor e também pode ser combinado com outras quantizações. Economias maiores vêm de melhorias na arquitetura dos modelos, como o híbrido global SWA do Gemma 4, MLA, DSA, camadas lineares e SSM, embora eu ache que, no fim, nem isso reduza a demanda total por memória por causa do paradoxo de Jevons. Só minhas ferramentas de programação já consomem de 10 a 15 bilhões de tokens de cache por mês, e conforme agentes e uso por desenvolvedores mainstream aumentarem, parece que na prática não haverá teto para a quantidade de tokens que as pessoas vão querer
- Acho que o trabalho no lado dos modelos locais mirando baixo RAM e baixo VRAM claramente ajuda. Por exemplo, o Gemma 4 32B já roda em notebooks comuns e me parece comparável ou até melhor em inteligência do que o gpt-4o, que era SOTA há 2 anos. Quando o preço da memória estabilizar, espero que talvez até algo no nível do Opus 4.7 possa rodar localmente. Modelos grandes têm mais conhecimento embutido, mas me parece que chamadas de ferramenta como busca na web já conseguem compensar bastante disso se forem bem decididas
- Na minha visão, o efeito líquido não é fazer as mesmas coisas com menos memória, e sim fazer mais coisas com a mesma memória. As empresas vão aumentar ainda mais a janela de contexto dos produtos que oferecem, e as pessoas vão usar isso do jeito que vier. Isso me parece uma realidade um pouco amarga sobre o futuro da memória
- Ainda assim, o custo de manter o próprio modelo carregado na memória continua alto. Por exemplo, se você tem 16GB de RAM, acho que o ganho percebido não é tão grande assim
Também me surpreendeu a matéria não falar das novas fabricantes de memória da China. Isso me fez lembrar desta matéria
- Como a própria matéria diz, a CXMT está cerca de 3 anos atrás de Samsung, SK Hynix e Micron em processos avançados de DRAM, e a linha do segundo semestre de 2026 dificilmente terá grande impacto no equilíbrio global entre oferta e demanda antes de 2027. Já a matéria original projeta que a demanda superará a oferta em 2028, então o momento em que a produção chinesa alcançar o nível tecnológico atual pode acabar ficando lá por 2029. No longo prazo isso pode ajudar a baixar preços, mas por enquanto o rendimento de produção ainda não parece suficiente para evitar a escassez imediata
Recentemente fui montar um novo PC gamer, mas acabei adiando várias vezes por causa do choque de preços e dos problemas de oferta de peças específicas. Aí por acaso vi num Microcenter perto de casa um pré-montado praticamente completo no máximo, com 5090 e até fonte topo de linha, por menos de 5 mil dólares, e comprei na hora. Há uns 10 anos, pré-montado era algo que você só escolhia se tivesse dinheiro de sobra e não pudesse nem perder um dia do fim de semana, mas hoje me pareceu até uma escolha óbvia
- Eu ainda acho que a regra geral é que montar por conta própria vale mais a pena. Pré-montados incluem o custo da montagem, então estruturalmente tendem a ser mais caros, e não é raro que tenham feito concessões em componentes menos visíveis, como placa-mãe ou fonte. Claro, você pode ter achado uma ótima oferta, mas não acho que essa exceção mude a regra geral
Fico curioso se isso vai servir de gatilho para usar softwares mais eficientes em memória. Hoje em dia parece que até programas muito simples consomem centenas de MB de RAM
- Eu mesmo tive momentos, fazendo vibe-coding, em que explicitamente defini como meta reduzir o uso de RAM
Estou animado porque parece que finalmente chegou a era da otimização
- Mas eu sou um pouco cético. Os apps que uso em geral têm lock-in forte, então ou não existe vontade organizacional de otimizar, ou faltam recursos para isso. Por isso, a otimização mais realista acaba sendo eu abandonar ferramentas pesadas e migrar para ferramentas leves, esperando que muitas escolhas assim melhorem o caixa e os recursos de desenvolvimento dessas ferramentas mais leves
- Já faz muito tempo que digo que desenvolvedores de OS deveriam focar em otimizações agressivas. Mesmo sem escassez de chips, a desaceleração da miniaturização dos semicondutores já vinha acontecendo, e otimização de software ajuda qualquer hardware, embora não impulsione vendas diretamente. Nesse aspecto, o Linux é menos amarrado, e às vezes até imagino que opções como o Haiku OS possam voltar a ganhar atenção
Aos meus olhos, os fabricantes de RAM ainda parecem relutantes em aumentar a produção. Fico me perguntando se eles estão vendo antes dos investidores algum sinal de demanda de longo prazo que o mercado ainda não percebeu
- Eles já se machucaram feio várias vezes no passado. A indústria de DRAM passou por longos ciclos de boom e crise, e sempre que a demanda subia todo mundo construía fabs novas, depois o preço despencava, o investimento não se pagava e vinham falências. Foi assim nos anos 80, 90 e 2000, e agora só restam três fabricantes, então acho que eles entendem melhor do que ninguém que a demanda é essencialmente cíclica
- A indústria de semicondutores é um setor de boom and bust há mais de 50 anos. Tem até esta imagem relacionada, e eu mesmo, em 30 anos de carreira na área, vivi tanto períodos em que mal conseguíamos atender 30% dos pedidos dos clientes quanto períodos, dois anos depois, em que as fabs operavam com 50% de utilização e davam prejuízo. Como construir uma fab de ponta custa 20 bilhões de dólares e leva de 3 a 4 anos, se você acha que a IA pode ser uma bolha, é arriscado demais acabar deixando só fábricas brilhantes e vazias depois de um colapso da demanda
- Quem estiver olhando para a realidade provavelmente pensa de forma parecida. Os compromissos de compra da OpenAI parecem irreais demais e pouco sustentáveis
- Do ponto de vista deles, o cenário de prejuízo talvez nem seja tão grande. É praticamente uma estrutura quase de cartel, e RAM de qualquer forma é um produto necessário, então mesmo produzindo menos eles provavelmente calcularam a melhor relação entre risco e retorno para si dentro do equilíbrio entre preço e demanda. Mais do que simpatia do consumidor ou reputação, o ponto central parece ser que o mercado precisa mais deles do que eles precisam do mercado

Crise de falta de RAM pode durar vários anos

Situação global da escassez no fornecimento de memória

Planos de expansão de produção dos principais fabricantes

Taxa de aumento de produção e lacuna de demanda

Prioridade ao HBM e impacto no mercado consumidor

Casos de aumento de preços em eletrônicos de consumo

Leituras relacionadas

1 comentários

Comentários no Hacker News