- Qwen 3.6 27B parece ser uma opção significativa para tarefas de uso geral até mesmo para usuários céticos em relação a modelos locais, sendo recomendado como um modelo dense mais lento, porém mais poderoso, que o 35B A3B
- Em testes de criação e programação, o cumprimento de restrições se mostrou um ponto forte; no OpenCode, ele gerou um Campo Minado hexagonal baseado em
pnpmcomo um pacote Node a partir de um único prompt - Combinando
llama.cppe a quantização GGUF de 8 bits do Hugging Face, é possível executá-lo localmente; com MTP, carregamento de camadas na GPU, flash attention e contexto de 64k, dá até para montar um ambiente de coding agent - Em um teste no Macbook Max M5 128GB, o Qwen3.6-27B 8-bit usou 32 tok/s com
llama.cpp + MTPe cerca de 42GB de RAM; embora o 35B A3B seja mais rápido, a qualidade do código foi melhor, por isso o 27B foi preferido - Segundo a Artificial Analysis, o Qwen3.6-27B marca 37 pontos, ficando no nível de meados de 2025, como GPT-5 / Claude Sonnet 4.5, e é prático para dados sensíveis, trabalho offline e operação de modelos próprios que não podem ser retirados
Por que recomendo o Qwen 3.6 27B
- O Qwen 3.6 é oferecido em duas variantes
- Qwen 3.6 35B A3B: modelo mixture-of-experts
- Qwen 3.6 27B: modelo dense, mais lento, mas uma opção mais poderosa
- O Qwen 3.6 27B recebeu muitas reações de que “entrega desempenho acima da sua categoria”, com Will it Mythos? como exemplo relacionado
- Ao rodá-lo localmente, o computador pode esquentar, mas ele oferece desempenho que compensa
Testes simples e resultados em tarefas reais
- Como teste rápido, em vez do “penguins on a bicycle” de Simon Willison, foi usada escrita com restrições
- Ao pedir um poema de 8 versos sobre dança Zouk e física quântica, o raciocínio sobre termos quânticos e rimas fluiu de forma natural
- A conversa relacionada está no transcript
- Ao pedir no OpenCode que criasse um Campo Minado hexagonal usando
pnpm, ele gerou um pacote Node funcional com apenas um prompt - O Qwen 3.6 35B A3B foi mais rápido, mas não seguiu a instrução de criar um pacote e implementou tudo em um único
index.html - Também em tarefas gerais de trabalho, produziu resultados funcionais com prompts curtos, e sua responsividade e padrões foram razoavelmente bons
- Pelos critérios de modelos frontier, isso não é especial, mas para um modelo local já é um nível prático
Executando localmente com llama.cpp
-
Executar modelos locais é possível com algumas linhas de CLI, e a ferramenta recomendada é o llama.cpp
-
O modelo é executado baixando do Hugging Face uma versão quantizada com tamanho reduzido
- Provedores populares de modelos quantizados incluem unsloth e bartowski
- O modelo base normalmente usa precisão
BF16 - A quantização de 8 bits reduz o espaço pela metade quase sem perda de qualidade
- Quantizações com menos bits deixam o modelo menor e potencialmente mais rápido, mas trazem custo de qualidade
- A comparação do 27B está no benchmark do Reddit, e a comparação do 35B A3B está em uma discussão no Hugging Face
-
Exemplo de execução do servidor
llama-server -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \ --spec-type draft-mtp -ngl 999 -fa on -c 65536 --port 8080-hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0: baixa o modelo do Hugging Face e o reutiliza em execuções posteriores-m ~/models/Qwen3.6-27B-Q8_0.gguf: pode ser usado no lugar se você já tiver o arquivo do modelodraft-mtp: usa multi-token prediction para aumentar a velocidade, prevendo os próximos tokens com um modelo rápido-ngl 999: coloca todas as camadas na GPU-fa on: ativa flash attention-c 65536: define o tamanho de contexto para 64k tokens- O contexto nativo do Qwen 3.6 27B é de 256k
--port 8080: fixa a porta a ser usada em outras configurações- Ao abrir
http://127.0.0.1:8080, é possível conversar diretamente
-
Configuração do OpenCode
- O mesmo servidor também pode ser usado para vibe coding
- No OpenCode, adicione a seguinte configuração em
~/.config/opencode/opencode.jsonc
{ "$schema": "https://opencode.ai/config.json", "provider": { "llama": { "name": "llama.cpp (local)", "npm": "@ai-sdk/openai-compatible", "options": { "baseURL": "http://127.0.0.1:8080/v1", "apiKey": "local" }, "models": { "qwen3.6-27b": { "name": "Qwen3.6-27B Q8 +MTP" } } } }, "model": "llama/qwen3.6-27b" } -
Execução para chat no terminal
- Se você quiser apenas conversar pelo terminal, pode usar
llama-cliem vez dellama-server
llama-cli -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \ -ngl 999 -fa on -c 65536 - Se você quiser apenas conversar pelo terminal, pode usar
Medição de desempenho no Apple Silicon
- Os resultados dos testes estão organizados em benching-local-llms-on-apple-silicon e foram executados em um Macbook Max M5 128GB
- Qwen3.6-35B-A3B · 8-bit
- MLX: 85 tok/s, 37GB de RAM
- llama.cpp: 93 tok/s, 44GB de RAM
- llama.cpp + MTP: 105 tok/s, 45GB de RAM
- Qwen3.6-27B · 8-bit
- MLX: 17 tok/s, 28GB de RAM
- llama.cpp: 18 tok/s, 41GB de RAM
- llama.cpp + MTP: 32 tok/s, 42GB de RAM
- DeepSeek-V4-Flash · Q2–Q4
- llama.cpp: 33 tok/s, 103GB de RAM
- 30 tok/s não é uma velocidade ruim e fica dentro da faixa típica de APIs de modelos frontier
- O mlx-lm é voltado ao Apple Silicon, mas neste teste o llama.cpp foi mais rápido
- Durante a execução, o uso de GPU ficou em 95%, o que parece indicar aproveitamento eficiente dos recursos disponíveis
- As duas variantes do Qwen 3.6 rodam dentro dos 48GB de RAM compartilhada do Apple Silicon
- Em placas Nvidia RTX de consumo, é necessária uma quantização mais agressiva, mas a inferência roda mais rápido
- gfosco, do Hacker News, afirmou que em uma 5090 obteve consistentemente 50 tok/s com quantização Q6_K e KV Q4_0 em contexto de 123k, usando cerca de 28/32GB de VRAM no LM Studio
- O 35B A3B é 3 vezes mais rápido, mas mesmo que a quantidade de código gerada pelo 27B seja um terço, sua qualidade maior faz valer a escolha
Comparação com modelos de ponta existentes
- Na comparação de pontuação da Artificial Analysis, o Qwen3.6-27B tem 37 pontos
- Os principais itens da tabela comparativa são os seguintes
- Gemma 4 31B: 29 pontos, nível do fim de 2024, o1 / Claude 3.5 Sonnet
- Qwen3.6-35B-A3B: 32 pontos, nível do início de 2025, o3 / Claude 4 Sonnet
- Qwen3.6-27B: 37 pontos, nível de meados de 2025, GPT-5 / Claude Sonnet 4.5
- DeepSeek-V4-Flash: 40 pontos, nível do fim de 2025, GPT-5.2 / Claude Opus 4.5
- Benchmarks adicionais estão nas notes, e a tendência geral é semelhante
- Gemma 4 31B foi incluído na comparação porque muita gente o usa como padrão para programação local
- Tanto benchmarks quanto reações online preferem claramente o Qwen 3.6 27B ao Gemma 4 31B
- Porém, é preciso prestar atenção às condições de quantização
- A quantização de 8 bits provavelmente não afeta muito os resultados
- O DwarfStar4 usa uma quantização muito mais agressiva, de 2–4 bits, no DeepSeek V4 Flash, portanto é certamente pior que o modelo completo
- Nessa condição, o Qwen 3.6 27B passa a impressão de ser igual ou ligeiramente melhor que o DwarfStar4
- Em projetos com contexto mais longo, o DS4 também pode levar vantagem
Próximos passos na operação de modelos locais
- Rodar modelos por conta própria está se tornando uma opção cada vez mais realista
- O estado dos modelos frontier proprietários pode impulsionar ainda mais essa tendência
- Claude Fable 5 saiu do ar
- Outros modelos frontier operam sobre grandes subsídios, em uma estrutura na qual se paga US$ 100 por mês e se usa tokens equivalentes a milhares de dólares
- Modelos em configuração local podem receber fine-tuning conforme a necessidade e não podem ser retirados externamente
- Empresas podem usar modelos locais para dados proprietários e sensíveis
- Pessoas físicas podem usar modelos locais em projetos offline ou em situações em que não queiram compartilhar segredos profundos ou dados médicos com os EUA ou a China
- O lançamento do GLM 5.2 open-weight em nível frontier acelera ainda mais a tendência de modelos locais
- O Qwen 3.6 foi uma ponte, e o GLM 5.2 também pode ser executado localmente
- O GLM 5.2 não roda em um Macbook nem em uma única RTX 5090, mas fica em um nível comportável para o orçamento de uma empresa
- Podem surgir modelos mais inteligentes que o estado da arte atual e ainda capazes de rodar em dispositivos locais, talvez até em smartphones
- Os modelos atuais combinam inteligência bruta e conhecimento factual nos mesmos pesos, mas modelos futuros provavelmente separarão as duas coisas, transferindo conhecimento para chamadas de ferramentas
1 comentários
Opiniões do Hacker News
Gosto do MacBook Pro M5 com 128 GB de RAM e do qwen3.6, mas, se você está pensando seriamente em programar com um LLM local, é melhor não comprar esse MacBook
O motivo é simples: seus dedos ficam quentes e o barulho das ventoinhas parece que vai fazer sua cabeça explodir
Rodar tarefas complexas no notebook que você usa de fato não é realista; até dá no modo clamshell, mas fica difícil mexer nele durante codificação com IA ou tarefas com agentes
Se quiser rodar o Qwen3.6 27B/35B direito, é melhor comprar um MacMini M4 com 64 GB, deixá-lo no porão ou pelo menos a alguns metros de distância e acessá-lo por LAN ou Tailscale; além disso, o preço é quase 1/3 do MacBook Pro
Sei o quanto modelos relativamente pequenos, como Qwen 27B ou Gemma 4 31B, podem ser barulhentos e quentes mesmo rodando em uma GPU de desktop
O Strix Halo tem uma ventoinha grande, então não é barulhento, mas esquenta; e, quando as ventoinhas pequenas de um notebook precisam remover esse calor, no fim elas não têm escolha a não ser gritar
A ideia de um notebook que rode modelos em qualquer lugar é boa, mas isso é uma tarefa mais adequada para modelos na nuvem e, como não há muitos dados trafegando, também não é um grande problema
Para trabalhos que exigem privacidade, basta hospedar um modelo próprio em uma máquina grande em casa e acessá-lo via VPN
Dito isso, modelos que rodam bem até em dispositivos ou tablets com 16 GB, como o Gemma 4 12B QAT 4-bit, foram muito bons para certas tarefas; como modelo de visão auto-hospedado para classificação, identificação e rotulagem, foi o melhor entre os que testei
A prosa também é razoável e o uso de ferramentas é decente, mas não cabe muito conhecimento de mundo em 7 GB; então, para pesquisa, é preciso busca, e eu não gostaria de usá-lo para programação além de código muito simples
--powerno DwarfStar 4: https://github.com/antirez/ds4#reducing-heat-power-usage-and...Nos últimos seis meses mais ou menos, rodei agentes de programação em modo YOLO no notebook; na maior parte do tempo não eram locais, mas a forma de usar sem medo foi criar um usuário Linux separado,
agent, dedicado ao agenteO agente pode destruir o diretório home
/agent, mas não consegue tocar nem ler meu diretório homeComo eu precisava entrar nesse usuário com
sudotoda vez, criei um alias; quando surgem problemas de permissões ou propriedade, resolvo com uma função que corrige isso uma vez por diaAinda assim dá trabalho, então, se eu tivesse uma máquina dedicada, acho que simplesmente daria root a ele; por brincadeira, dei root de um VPS de US$ 3 ao Claude e está funcionando bem
Depois de alguns meses de tentativa e erro, acabei reinventando do zero a ideia de “é só comprar um Mac mini”
Eu sentia o calor irradiado mesmo a alguns centímetros de distância, e parecia ainda mais quente do que os MacBooks Intel que já usei, então parei
Com problemas de oferta e aumentos de preço, talvez eu tenha que ficar com o notebook por 10 anos, então não queria estragá-lo
Minha audição não é das melhores, mas acho que teria ouvido a ventoinha; nunca ouvi, e tive até que pesquisar para ver se ele realmente tinha uma
O texto se baseia na execução do Qwen 3.6 em um MacBook Pro de 128 GB
Para referência, o MBP de 128 GB hoje começa em US$ 6.699 [0]
Algumas pessoas talvez estejam dispostas a pagar esse prêmio pela privacidade, mas pelo custo de cerca de 10 vezes o MacBook Neo dá para comprar bastante crédito no OpenRouter ou em APIs de laboratórios de ponta
[0]: https://www.apple.com/shop/buy-mac/macbook-pro/14-inch-space...
Ter uma máquina capaz de rodar um LLM local razoável, como o Gemma 4 12B, tem muito valor
Não sei quanto de codificação séria com agentes autônomos alguém vai acabar fazendo em um único MacBook, mas, se eu não tivesse mexido diretamente com modelos locais, llama.cpp, LM Studio etc., não teria entendido essa área dessa forma
Esse campo é grande demais, cansativo, cheio de jargão e, para alguém com mais de 50 anos, era fácil se sentir sobrecarregado
Só começou a ficar palpável quando configurei tudo por conta própria em uma máquina usada, vi as chamadas de API e passei a entender os termos
O Neo é pequeno demais para tornar esse tipo de oportunidade mais tangível e compreensível
Acho que, usando quantização mais agressiva, daria até para baixar mais
Do ponto de vista econômico, rodar modelos em um notebook não faz muito sentido, e, olhando só o custo de energia, pode ser difícil competir com o preço de tokens gerados em grande escala
Mesmo assim, isso é um avanço capaz de mudar o jogo
Antes, esse tipo de vibe coding em dispositivos de consumo não era difícil ou caro: era simplesmente impossível
O Asus Ascent GX10 também sai por US$ 3.999 em vários varejistas
Em tese, duas 3090 também poderiam garantir 48 GB de VRAM, mas, comparadas a um MacBook Pro ou a um GB10, ocupam muito espaço e geram muito calor
[1] https://x.com/MiaAI_lab/status/2070859135399182444
[2] https://github.com/MiaAI-Lab/Qwen3.6-27B-NVFP4-vLLM
128 GB não é um requisito aqui
Dá para rodar outros modelos no mesmo MacBook
Vendo o dinheiro que as pessoas queimam todo mês em SaaS, em alguns casos esse valor paga o MacBook em 5 meses
E isso não é só uma questão de “privacidade de dados”
Usar Claude significa, na prática, enviar tudo para a Anthropic, o que é bem insano
É difícil dizer que os exemplos refletem “trabalho real”
Pelo menos não é o que eu considero trabalho real
Acertar um projeto novo em zero-shot é relativamente fácil até para modelos pequenos
Porque não há muito contexto a acumular, e eles podem voltar facilmente a exemplos parecidos dos dados de treinamento
A menos que você peça para inventar algo totalmente novo, há uma boa chance de dar conta razoavelmente
O teste de verdade é se consegue trabalhar em uma base de código existente
Em experimentos limitados que fiz, o Qwen 3.5 foi bem em um app Rust+React, e pior em um monólito em C#
Não era inutilizável, mas foi ruim o suficiente para eu voltar ao Claude em 20 minutos, e acho que ficaria bem triste se perdesse acesso a modelos na nuvem e tivesse que usar só o Qwen
O Qwen3.6 produziu resultados surpreendentes para um modelo pequeno em apps simples que existem aos montes por aí
Se você pedir para criar um app React TODO ou um pequeno app boilerplate com ferramentas populares como shadcn, ele entrega algo bastante convincente
Mas, quando saí de tarefas comuns e entrei no meu trabalho mais de nicho, ele ficou dando voltas por horas e no fim entregou um resultado inutilizável, de dar vontade de gemer
Para refatorações simples ou tarefas pequenas com instruções muito claras, em que ele basicamente digita por você, ele vai bem
Mas, em sessões com contexto longo ou assuntos menos mainstream, as fraquezas ficam muito evidentes
A quantização, muito usada para caber em hardware menor, também piora o problema
Online, há um clima de que a quantização de 4 bits é quase sem perdas e que a quantização de cache chave-valor
q8_0/q8_0também não tem perda prática, mas em projetos reais essas quantizações derrubaram bastante o desempenho em contexto longoNão é perfeito, mas foi suficiente para acelerar meu fluxo normal de desenvolvimento, principalmente escrevendo Go e C#
Coisas como projetar um projeto grande composto por bibliotecas pequenas para que cada uma possa ser codificada e testada de forma independente, organizar projetos de código antigos, adicionar README, comentar código, mostrar exemplos de uso de uma nova API e atualizar os pontos onde a API é usada
Tudo isso são tarefas pequenas
Em grandes projetos de integração, a API comercial do DeepSeek v4 Pro é muito barata e tem ajudado a obter bons resultados
Há decisões demais a tomar, e eles não fazem isso bem
Se você não espera que ele seja inteligente, modificar código existente é muito mais fácil
Em vez de dizer “adicione o recurso X” e deixá-lo explorar a base de código, é melhor indicar os arquivos relevantes e dizer “o objetivo é adicionar o recurso X a este código e seguir as diretrizes Y”
Quando a pessoa resolve a parte mais difícil das decisões, o modelo só precisa seguir instruções e pintar dentro das linhas
Rodando este modelo offline em um MacBook Pro com 48 GB de memória, ele executa as tarefas, mas obviamente é mais lento que Claude ou Codex
Ver alguém comprar um MBP de 128 GB de milhares de dólares para rodar um modelo objetivamente muito inferior ao estado da arte dá uma sensação de insanidade
Com o dinheiro de um M5 MAX de 128 GB, aqui dá até para comprar um carro novo
Não sei o que estou deixando passar, e fico pensando se desenvolvedores de outros países realmente vivem em outro mundo assim
Sei que, onde moro, o preço absoluto também é mais alto que nos EUA, então sinto isso ainda mais
Se uma pessoa sã comprasse algo assim em outro país, acho que venderia assim que chegasse aqui para economizar dinheiro
No outono passado montei uma workstation com duas 3090 usadas, paguei 850 dólares canadenses por cada uma, mas agora o menor preço está por volta de 1200
Com 48 GB de VRAM, é bem razoável, e tenho usado o Qwen 3.6 27B em várias tarefas de criação de grafos de conhecimento a partir de corpora de texto e de inferência
Comparei com o que é possível no OpenRouter, e, com custo de tokens de US$ 0, é difícil bater o Qwen 27B local
É mais lento e deixa o escritório alguns graus mais quente, mas ninguém pode tirar da tomada, não fica olhando por cima do seu ombro, e os resultados ficam em um nível parecido com os modelos de ponta
Estou ansioso pelo Qwen 3.7 de tamanho semelhante
Pelo que vi até agora, é um grande salto em relação à versão anterior
Fico pensando se é para ostentar que é portátil
No parcelamento mensal da Apple, US$ 5 mil viram US$ 416 por mês durante 1 ano, sem juros
Dá para rodar modelos do nível DS4 e outros modelos abertos sem quantização, às vezes vários ao mesmo tempo
Imagine o valor disso se acontecer algum cenário sombrio envolvendo uma guerra em Taiwan/Grande China, conectividade global ou a confiabilidade de modelos comerciais
É um equipamento muito difícil de fabricar em outro momento da história, e acho que eu deveria ter comprado mais
Vi os sinais, as tendências de preço e a falta de estoque em tempo real, e com certeza outras pessoas com condições também estão estocando
O pessoal daí tem renda mais de uma ordem de grandeza menor que a dos americanos
Fala-se muito que o hardware para rodar modelos locais é caro, mas, se você não tem interesse em equipamentos Apple, as Intel Arc Pro B50/B60/B70, que parecem ter um custo-benefício bem interessante, quase não são mencionadas
Recentemente comprei o modelo B70 com 32 GB de RAM por cerca de US$ 1200, incluindo imposto sobre vendas e tarifas para residência fora dos EUA; em outras regiões pode ser ainda mais barato
A largura de banda de memória é de 608 GB/s
A GPU de 32 núcleos do M5 Max tem 460 GB/s, a de 40 núcleos tem 614 GB/s, e a 3090 ainda é mais rápida, com cerca de 900 GB/s, mas você obtém 32 GB de VRAM por muito menos do que uma placa Nvidia equivalente
É como obter cerca de 1/3 da largura de banda da 5090 por 1/3 do preço, mas com os mesmos 32 GB de VRAM; então, se você quer rodar modelos quantizados maiores e algum contexto com orçamento baixo, é um compromisso atraente
Ainda estou explorando modelos locais, então não quero gastar algo entre US$ 5000 e US$ 10000 em testes; se der para experimentar mais barato, não me importo com um desempenho um pouco mais lento
No começo comprei a B50 de 16 GB com TDP de 70 W para testar uma placa Intel no meu stack, e ela funcionou facilmente no Ubuntu e com Vulkan
Vi muitos textos dizendo que era algo irritante e inutilizável, mas em geral parecem ser relacionados a SYCL; e, como SYCL nem parece ter desempenho melhor que Vulkan, não vejo motivo para usá-lo
A B50 custou US$ 370 incluindo impostos e tarifas e, literalmente, depois de dar
apt installna biblioteca Vulkan, funcionou com o driver xe padrão do 26.04 e o build Vulkan do llama.cppSR-IOV PF/VF também funciona no qemu/kvm sem gambiarras extras, e, depois que comprei, o fwupdmgr atualizou o firmware duas vezes, então parece que a Intel pretende mesmo dar suporte a esses produtos
Acho que o ponto ideal agora é uma combinação de duas 3090, uma placa-mãe PCIe 4 e 64~128 GB de RAM DDR4
Dá para montar por cerca de US$ 3 mil hoje e roda Qwen 27B/35B em int4 extremamente rápido
Para referência, estou rodando gemma4 31B em uma 5090 e está bem excelente
Uso QAT, MTP e contexto de 128k
O Qwen 3.6 27B também era bom, mas acho que o Gemma4 é um pouco subestimado
Estou rodando gemma4 31B em uma 4090 com llm.cpp e um modelo do unsloth
Também uso Qwen 3.6 junto; o Qwen é mais rápido, então é bom para raciocínio e planejamento, enquanto o Gemma4 gera código de qualidade muito maior na primeira tentativa
Em Rust, C++ e C#, ele exige menos correções até chegar a um nível que eu considere aceitável para fazer merge
Ele sempre corta de repente ou cria chamadas de ferramenta incorretas; provavelmente configurei errado o oMLX ou o Opencode
Em uma 4080 Super, alterno entre Qwen 3.5 9B Q6_M e Gemma4 12B Q4_K_M
Os dois têm velocidade parecida e dá para fazer um revisar os planos ou as alterações do outro
Em projetos pequenos, são bem competentes; para tarefas um pouco mais difíceis, dá para subir para uma quantização melhor
Antes de comprar um computador com memória unificada, por exemplo máquinas como DGX Spark, Mac, Ryzen AI Max 395 / Strix Halo, você precisa saber que modelos densos tendem a ser lentos nelas
GPUs dedicadas rodam modelos densos muito melhor
É bom procurar benchmarks do equipamento que você pretende comprar; e, se você realmente quer uma máquina desse tipo, é melhor rodar o Qwen 3.6 35B ou outros modelos MoE esparsos
Tenho rodado qwen 3.6 35b a3b com opencode em um MacBook Pro de 16 polegadas M3 Max com 64 GB de RAM, e ele tem sido muito bom para planejamento e programação locais
Sinceramente, ao ver como 64 GB são tão potentes, às vezes penso se deveria ter me preparado melhor para o futuro com 128 GB
Por outro lado, ainda não esbarrei em limite por causa de modelos um pouco maiores que o qwen
Não é rápido — alguns tokens por segundo, mais lento que a velocidade de leitura —, mas dá para deixar a tarefa rodando e voltar depois
É um notebook de US$ 600 que comprei no eBay há alguns anos, não uma máquina de US$ 6000
Fico curioso se Macs com memória unificada ou GPUs desktop enormes de 24 GB estão entregando dezenas a centenas de tokens por segundo para justificar um custo 10 a 20 vezes maior
Pela minha experiência, só um modelo de 20~35 GB e o cache chave-valor já consomem boa parte dos 64 GB básicos; então, se você quer manter navegador, editor e outras coisas abertos, os 128 GB completos certamente ajudam