5 pontos por GN⁺ 6 시간 전 | 1 comentários | Compartilhar no WhatsApp
  • Qwen 3.6 27B parece ser uma opção significativa para tarefas de uso geral até mesmo para usuários céticos em relação a modelos locais, sendo recomendado como um modelo dense mais lento, porém mais poderoso, que o 35B A3B
  • Em testes de criação e programação, o cumprimento de restrições se mostrou um ponto forte; no OpenCode, ele gerou um Campo Minado hexagonal baseado em pnpm como um pacote Node a partir de um único prompt
  • Combinando llama.cpp e a quantização GGUF de 8 bits do Hugging Face, é possível executá-lo localmente; com MTP, carregamento de camadas na GPU, flash attention e contexto de 64k, dá até para montar um ambiente de coding agent
  • Em um teste no Macbook Max M5 128GB, o Qwen3.6-27B 8-bit usou 32 tok/s com llama.cpp + MTP e cerca de 42GB de RAM; embora o 35B A3B seja mais rápido, a qualidade do código foi melhor, por isso o 27B foi preferido
  • Segundo a Artificial Analysis, o Qwen3.6-27B marca 37 pontos, ficando no nível de meados de 2025, como GPT-5 / Claude Sonnet 4.5, e é prático para dados sensíveis, trabalho offline e operação de modelos próprios que não podem ser retirados

Por que recomendo o Qwen 3.6 27B

  • O Qwen 3.6 é oferecido em duas variantes
  • O Qwen 3.6 27B recebeu muitas reações de que “entrega desempenho acima da sua categoria”, com Will it Mythos? como exemplo relacionado
  • Ao rodá-lo localmente, o computador pode esquentar, mas ele oferece desempenho que compensa

Testes simples e resultados em tarefas reais

  • Como teste rápido, em vez do “penguins on a bicycle” de Simon Willison, foi usada escrita com restrições
  • Ao pedir um poema de 8 versos sobre dança Zouk e física quântica, o raciocínio sobre termos quânticos e rimas fluiu de forma natural
  • Ao pedir no OpenCode que criasse um Campo Minado hexagonal usando pnpm, ele gerou um pacote Node funcional com apenas um prompt
  • O Qwen 3.6 35B A3B foi mais rápido, mas não seguiu a instrução de criar um pacote e implementou tudo em um único index.html
  • Também em tarefas gerais de trabalho, produziu resultados funcionais com prompts curtos, e sua responsividade e padrões foram razoavelmente bons
    • Pelos critérios de modelos frontier, isso não é especial, mas para um modelo local já é um nível prático

Executando localmente com llama.cpp

  • Executar modelos locais é possível com algumas linhas de CLI, e a ferramenta recomendada é o llama.cpp

  • O modelo é executado baixando do Hugging Face uma versão quantizada com tamanho reduzido

    • Provedores populares de modelos quantizados incluem unsloth e bartowski
    • O modelo base normalmente usa precisão BF16
    • A quantização de 8 bits reduz o espaço pela metade quase sem perda de qualidade
    • Quantizações com menos bits deixam o modelo menor e potencialmente mais rápido, mas trazem custo de qualidade
    • A comparação do 27B está no benchmark do Reddit, e a comparação do 35B A3B está em uma discussão no Hugging Face
  • Exemplo de execução do servidor

    llama-server -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \
        --spec-type draft-mtp -ngl 999 -fa on -c 65536 --port 8080
    
    • -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0: baixa o modelo do Hugging Face e o reutiliza em execuções posteriores
    • -m ~/models/Qwen3.6-27B-Q8_0.gguf: pode ser usado no lugar se você já tiver o arquivo do modelo
    • draft-mtp: usa multi-token prediction para aumentar a velocidade, prevendo os próximos tokens com um modelo rápido
    • -ngl 999: coloca todas as camadas na GPU
    • -fa on: ativa flash attention
    • -c 65536: define o tamanho de contexto para 64k tokens
    • O contexto nativo do Qwen 3.6 27B é de 256k
    • --port 8080: fixa a porta a ser usada em outras configurações
    • Ao abrir http://127.0.0.1:8080, é possível conversar diretamente
  • Configuração do OpenCode

    • O mesmo servidor também pode ser usado para vibe coding
    • No OpenCode, adicione a seguinte configuração em ~/.config/opencode/opencode.jsonc
    {
      "$schema": "https://opencode.ai/config.json";,
      "provider": {
        "llama": {
          "name": "llama.cpp (local)",
          "npm": "@ai-sdk/openai-compatible",
          "options": {
            "baseURL": "http://127.0.0.1:8080/v1";,
            "apiKey": "local"
          },
          "models": {
            "qwen3.6-27b": { "name": "Qwen3.6-27B Q8 +MTP" }
          }
        }
      },
      "model": "llama/qwen3.6-27b"
    }
    
  • Execução para chat no terminal

    • Se você quiser apenas conversar pelo terminal, pode usar llama-cli em vez de llama-server
    llama-cli -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \
                    -ngl 999 -fa on -c 65536
    

Medição de desempenho no Apple Silicon

  • Os resultados dos testes estão organizados em benching-local-llms-on-apple-silicon e foram executados em um Macbook Max M5 128GB
  • Qwen3.6-35B-A3B · 8-bit
    • MLX: 85 tok/s, 37GB de RAM
    • llama.cpp: 93 tok/s, 44GB de RAM
    • llama.cpp + MTP: 105 tok/s, 45GB de RAM
  • Qwen3.6-27B · 8-bit
    • MLX: 17 tok/s, 28GB de RAM
    • llama.cpp: 18 tok/s, 41GB de RAM
    • llama.cpp + MTP: 32 tok/s, 42GB de RAM
  • DeepSeek-V4-Flash · Q2–Q4
    • llama.cpp: 33 tok/s, 103GB de RAM
  • 30 tok/s não é uma velocidade ruim e fica dentro da faixa típica de APIs de modelos frontier
  • O mlx-lm é voltado ao Apple Silicon, mas neste teste o llama.cpp foi mais rápido
  • Durante a execução, o uso de GPU ficou em 95%, o que parece indicar aproveitamento eficiente dos recursos disponíveis
  • As duas variantes do Qwen 3.6 rodam dentro dos 48GB de RAM compartilhada do Apple Silicon
  • Em placas Nvidia RTX de consumo, é necessária uma quantização mais agressiva, mas a inferência roda mais rápido
    • gfosco, do Hacker News, afirmou que em uma 5090 obteve consistentemente 50 tok/s com quantização Q6_K e KV Q4_0 em contexto de 123k, usando cerca de 28/32GB de VRAM no LM Studio
  • O 35B A3B é 3 vezes mais rápido, mas mesmo que a quantidade de código gerada pelo 27B seja um terço, sua qualidade maior faz valer a escolha

Comparação com modelos de ponta existentes

  • Na comparação de pontuação da Artificial Analysis, o Qwen3.6-27B tem 37 pontos
  • Os principais itens da tabela comparativa são os seguintes
    • Gemma 4 31B: 29 pontos, nível do fim de 2024, o1 / Claude 3.5 Sonnet
    • Qwen3.6-35B-A3B: 32 pontos, nível do início de 2025, o3 / Claude 4 Sonnet
    • Qwen3.6-27B: 37 pontos, nível de meados de 2025, GPT-5 / Claude Sonnet 4.5
    • DeepSeek-V4-Flash: 40 pontos, nível do fim de 2025, GPT-5.2 / Claude Opus 4.5
  • Benchmarks adicionais estão nas notes, e a tendência geral é semelhante
  • Gemma 4 31B foi incluído na comparação porque muita gente o usa como padrão para programação local
  • Tanto benchmarks quanto reações online preferem claramente o Qwen 3.6 27B ao Gemma 4 31B
  • Porém, é preciso prestar atenção às condições de quantização
    • A quantização de 8 bits provavelmente não afeta muito os resultados
    • O DwarfStar4 usa uma quantização muito mais agressiva, de 2–4 bits, no DeepSeek V4 Flash, portanto é certamente pior que o modelo completo
    • Nessa condição, o Qwen 3.6 27B passa a impressão de ser igual ou ligeiramente melhor que o DwarfStar4
    • Em projetos com contexto mais longo, o DS4 também pode levar vantagem

Próximos passos na operação de modelos locais

  • Rodar modelos por conta própria está se tornando uma opção cada vez mais realista
  • O estado dos modelos frontier proprietários pode impulsionar ainda mais essa tendência
    • Claude Fable 5 saiu do ar
    • Outros modelos frontier operam sobre grandes subsídios, em uma estrutura na qual se paga US$ 100 por mês e se usa tokens equivalentes a milhares de dólares
  • Modelos em configuração local podem receber fine-tuning conforme a necessidade e não podem ser retirados externamente
  • Empresas podem usar modelos locais para dados proprietários e sensíveis
  • Pessoas físicas podem usar modelos locais em projetos offline ou em situações em que não queiram compartilhar segredos profundos ou dados médicos com os EUA ou a China
  • O lançamento do GLM 5.2 open-weight em nível frontier acelera ainda mais a tendência de modelos locais
  • Podem surgir modelos mais inteligentes que o estado da arte atual e ainda capazes de rodar em dispositivos locais, talvez até em smartphones
  • Os modelos atuais combinam inteligência bruta e conhecimento factual nos mesmos pesos, mas modelos futuros provavelmente separarão as duas coisas, transferindo conhecimento para chamadas de ferramentas

1 comentários

 
GN⁺ 6 시간 전
Opiniões do Hacker News
  • Gosto do MacBook Pro M5 com 128 GB de RAM e do qwen3.6, mas, se você está pensando seriamente em programar com um LLM local, é melhor não comprar esse MacBook
    O motivo é simples: seus dedos ficam quentes e o barulho das ventoinhas parece que vai fazer sua cabeça explodir
    Rodar tarefas complexas no notebook que você usa de fato não é realista; até dá no modo clamshell, mas fica difícil mexer nele durante codificação com IA ou tarefas com agentes
    Se quiser rodar o Qwen3.6 27B/35B direito, é melhor comprar um MacMini M4 com 64 GB, deixá-lo no porão ou pelo menos a alguns metros de distância e acessá-lo por LAN ou Tailscale; além disso, o preço é quase 1/3 do MacBook Pro

    • Pelo mesmo motivo, comprei um notebook comum com 32 GB
      Sei o quanto modelos relativamente pequenos, como Qwen 27B ou Gemma 4 31B, podem ser barulhentos e quentes mesmo rodando em uma GPU de desktop
      O Strix Halo tem uma ventoinha grande, então não é barulhento, mas esquenta; e, quando as ventoinhas pequenas de um notebook precisam remover esse calor, no fim elas não têm escolha a não ser gritar
      A ideia de um notebook que rode modelos em qualquer lugar é boa, mas isso é uma tarefa mais adequada para modelos na nuvem e, como não há muitos dados trafegando, também não é um grande problema
      Para trabalhos que exigem privacidade, basta hospedar um modelo próprio em uma máquina grande em casa e acessá-lo via VPN
      Dito isso, modelos que rodam bem até em dispositivos ou tablets com 16 GB, como o Gemma 4 12B QAT 4-bit, foram muito bons para certas tarefas; como modelo de visão auto-hospedado para classificação, identificação e rotulagem, foi o melhor entre os que testei
      A prosa também é razoável e o uso de ferramentas é decente, mas não cabe muito conhecimento de mundo em 7 GB; então, para pesquisa, é preciso busca, e eu não gostaria de usá-lo para programação além de código muito simples
    • Você pode testar a flag --power no DwarfStar 4: https://github.com/antirez/ds4#reducing-heat-power-usage-and...
    • Se “seus dedos estão queimando e o barulho faz sua cabeça explodir”, me parece que basta colocar um Mac mini em outro cômodo, não?
      Nos últimos seis meses mais ou menos, rodei agentes de programação em modo YOLO no notebook; na maior parte do tempo não eram locais, mas a forma de usar sem medo foi criar um usuário Linux separado, agent, dedicado ao agente
      O agente pode destruir o diretório home /agent, mas não consegue tocar nem ler meu diretório home
      Como eu precisava entrar nesse usuário com sudo toda vez, criei um alias; quando surgem problemas de permissões ou propriedade, resolvo com uma função que corrige isso uma vez por dia
      Ainda assim dá trabalho, então, se eu tivesse uma máquina dedicada, acho que simplesmente daria root a ele; por brincadeira, dei root de um VPS de US$ 3 ao Claude e está funcionando bem
      Depois de alguns meses de tentativa e erro, acabei reinventando do zero a ideia de “é só comprar um Mac mini”
    • Quando testei tarefas de LLM local no M4 Max usando pi, ele pareceu mais quente do que qualquer MacBook que já usei
      Eu sentia o calor irradiado mesmo a alguns centímetros de distância, e parecia ainda mais quente do que os MacBooks Intel que já usei, então parei
      Com problemas de oferta e aumentos de preço, talvez eu tenha que ficar com o notebook por 10 anos, então não queria estragá-lo
    • É exatamente assim que uso: Mini M4 Pro 64 GB com qwen3.6
      Minha audição não é das melhores, mas acho que teria ouvido a ventoinha; nunca ouvi, e tive até que pesquisar para ver se ele realmente tinha uma
  • O texto se baseia na execução do Qwen 3.6 em um MacBook Pro de 128 GB
    Para referência, o MBP de 128 GB hoje começa em US$ 6.699 [0]
    Algumas pessoas talvez estejam dispostas a pagar esse prêmio pela privacidade, mas pelo custo de cerca de 10 vezes o MacBook Neo dá para comprar bastante crédito no OpenRouter ou em APIs de laboratórios de ponta
    [0]: https://www.apple.com/shop/buy-mac/macbook-pro/14-inch-space...

    • É difícil contestar a conta, mas eu não traçaria a linha desse jeito
      Ter uma máquina capaz de rodar um LLM local razoável, como o Gemma 4 12B, tem muito valor
      Não sei quanto de codificação séria com agentes autônomos alguém vai acabar fazendo em um único MacBook, mas, se eu não tivesse mexido diretamente com modelos locais, llama.cpp, LM Studio etc., não teria entendido essa área dessa forma
      Esse campo é grande demais, cansativo, cheio de jargão e, para alguém com mais de 50 anos, era fácil se sentir sobrecarregado
      Só começou a ficar palpável quando configurei tudo por conta própria em uma máquina usada, vi as chamadas de API e passei a entender os termos
      O Neo é pequeno demais para tornar esse tipo de oportunidade mais tangível e compreensível
    • Todos os experimentos com o Qwen 3.6 foram possíveis com 48 GB de Apple Silicon
      Acho que, usando quantização mais agressiva, daria até para baixar mais
      Do ponto de vista econômico, rodar modelos em um notebook não faz muito sentido, e, olhando só o custo de energia, pode ser difícil competir com o preço de tokens gerados em grande escala
      Mesmo assim, isso é um avanço capaz de mudar o jogo
      Antes, esse tipo de vibe coding em dispositivos de consumo não era difícil ou caro: era simplesmente impossível
    • O modelo denso Qwen 3.6 27B também pode rodar com desempenho parecido em um DGX Spark [1][2], e o preço é de cerca de US$ 4.000
      O Asus Ascent GX10 também sai por US$ 3.999 em vários varejistas
      Em tese, duas 3090 também poderiam garantir 48 GB de VRAM, mas, comparadas a um MacBook Pro ou a um GB10, ocupam muito espaço e geram muito calor
      [1] https://x.com/MiaAI_lab/status/2070859135399182444
      [2] https://github.com/MiaAI-Lab/Qwen3.6-27B-NVFP4-vLLM
    • O modelo mencionado roda facilmente com 24 GB ou mais de VRAM, e há modelos semelhantes que rodam bem até com 16 GB de VRAM
      128 GB não é um requisito aqui
    • Tokens ou créditos desaparecem quando você usa, mas o MacBook fica
      Dá para rodar outros modelos no mesmo MacBook
      Vendo o dinheiro que as pessoas queimam todo mês em SaaS, em alguns casos esse valor paga o MacBook em 5 meses
      E isso não é só uma questão de “privacidade de dados”
      Usar Claude significa, na prática, enviar tudo para a Anthropic, o que é bem insano
  • É difícil dizer que os exemplos refletem “trabalho real”
    Pelo menos não é o que eu considero trabalho real
    Acertar um projeto novo em zero-shot é relativamente fácil até para modelos pequenos
    Porque não há muito contexto a acumular, e eles podem voltar facilmente a exemplos parecidos dos dados de treinamento
    A menos que você peça para inventar algo totalmente novo, há uma boa chance de dar conta razoavelmente
    O teste de verdade é se consegue trabalhar em uma base de código existente
    Em experimentos limitados que fiz, o Qwen 3.5 foi bem em um app Rust+React, e pior em um monólito em C#
    Não era inutilizável, mas foi ruim o suficiente para eu voltar ao Claude em 20 minutos, e acho que ficaria bem triste se perdesse acesso a modelos na nuvem e tivesse que usar só o Qwen

    • Não tem relação direta com a frase “acertar um projeto novo em zero-shot é relativamente fácil até para modelos pequenos”, mas houve uma época em que levava uma semana para colocar uma prova de conceito no ar, e frases assim soavam como pura ficção científica
    • Ao avaliar modelos pequenos, subestima-se o quanto as fraquezas aparecem melhor à medida que você se afasta de código de exemplo padrão
      O Qwen3.6 produziu resultados surpreendentes para um modelo pequeno em apps simples que existem aos montes por aí
      Se você pedir para criar um app React TODO ou um pequeno app boilerplate com ferramentas populares como shadcn, ele entrega algo bastante convincente
      Mas, quando saí de tarefas comuns e entrei no meu trabalho mais de nicho, ele ficou dando voltas por horas e no fim entregou um resultado inutilizável, de dar vontade de gemer
      Para refatorações simples ou tarefas pequenas com instruções muito claras, em que ele basicamente digita por você, ele vai bem
      Mas, em sessões com contexto longo ou assuntos menos mainstream, as fraquezas ficam muito evidentes
      A quantização, muito usada para caber em hardware menor, também piora o problema
      Online, há um clima de que a quantização de 4 bits é quase sem perdas e que a quantização de cache chave-valor q8_0/q8_0 também não tem perda prática, mas em projetos reais essas quantizações derrubaram bastante o desempenho em contexto longo
    • Tenho usado o pi e o antigo codex cli para desenvolvimento de trabalho com Qwen 3.6 27B com contexto de 100k, e fiquei muito surpreso com o quão bem funciona
      Não é perfeito, mas foi suficiente para acelerar meu fluxo normal de desenvolvimento, principalmente escrevendo Go e C#
    • Há algumas tarefas que funcionam bem com um modelo na faixa do Gemma 4 12B
      Coisas como projetar um projeto grande composto por bibliotecas pequenas para que cada uma possa ser codificada e testada de forma independente, organizar projetos de código antigos, adicionar README, comentar código, mostrar exemplos de uso de uma nova API e atualizar os pontos onde a API é usada
      Tudo isso são tarefas pequenas
      Em grandes projetos de integração, a API comercial do DeepSeek v4 Pro é muito barata e tem ajudado a obter bons resultados
    • Pela minha experiência, modelos pequenos têm dificuldade para iniciar projetos novos até com conceitos básicos de projeto
      Há decisões demais a tomar, e eles não fazem isso bem
      Se você não espera que ele seja inteligente, modificar código existente é muito mais fácil
      Em vez de dizer “adicione o recurso X” e deixá-lo explorar a base de código, é melhor indicar os arquivos relevantes e dizer “o objetivo é adicionar o recurso X a este código e seguir as diretrizes Y”
      Quando a pessoa resolve a parte mais difícil das decisões, o modelo só precisa seguir instruções e pintar dentro das linhas
  • Rodando este modelo offline em um MacBook Pro com 48 GB de memória, ele executa as tarefas, mas obviamente é mais lento que Claude ou Codex

  • Ver alguém comprar um MBP de 128 GB de milhares de dólares para rodar um modelo objetivamente muito inferior ao estado da arte dá uma sensação de insanidade
    Com o dinheiro de um M5 MAX de 128 GB, aqui dá até para comprar um carro novo
    Não sei o que estou deixando passar, e fico pensando se desenvolvedores de outros países realmente vivem em outro mundo assim
    Sei que, onde moro, o preço absoluto também é mais alto que nos EUA, então sinto isso ainda mais
    Se uma pessoa sã comprasse algo assim em outro país, acho que venderia assim que chegasse aqui para economizar dinheiro

    • Acho tolice ir pelo formato de notebook
      No outono passado montei uma workstation com duas 3090 usadas, paguei 850 dólares canadenses por cada uma, mas agora o menor preço está por volta de 1200
      Com 48 GB de VRAM, é bem razoável, e tenho usado o Qwen 3.6 27B em várias tarefas de criação de grafos de conhecimento a partir de corpora de texto e de inferência
      Comparei com o que é possível no OpenRouter, e, com custo de tokens de US$ 0, é difícil bater o Qwen 27B local
      É mais lento e deixa o escritório alguns graus mais quente, mas ninguém pode tirar da tomada, não fica olhando por cima do seu ombro, e os resultados ficam em um nível parecido com os modelos de ponta
      Estou ansioso pelo Qwen 3.7 de tamanho semelhante
      Pelo que vi até agora, é um grande salto em relação à versão anterior
    • Não entendo por que, nessa faixa de preço, as pessoas compram notebooks Mac em vez de um desktop com GPU
      Fico pensando se é para ostentar que é portátil
    • No meu balanço, já é um ativo que está valorizando bastante, e é bem possível que eu consiga revendê-lo pelo preço que paguei nos próximos 7 a 10 anos
      No parcelamento mensal da Apple, US$ 5 mil viram US$ 416 por mês durante 1 ano, sem juros
      Dá para rodar modelos do nível DS4 e outros modelos abertos sem quantização, às vezes vários ao mesmo tempo
      Imagine o valor disso se acontecer algum cenário sombrio envolvendo uma guerra em Taiwan/Grande China, conectividade global ou a confiabilidade de modelos comerciais
      É um equipamento muito difícil de fabricar em outro momento da história, e acho que eu deveria ter comprado mais
      Vi os sinais, as tendências de preço e a falta de estoque em tempo real, e com certeza outras pessoas com condições também estão estocando
    • Sim, para muita gente, 6 mil dólares é troco
    • É isso
      O pessoal daí tem renda mais de uma ordem de grandeza menor que a dos americanos
  • Fala-se muito que o hardware para rodar modelos locais é caro, mas, se você não tem interesse em equipamentos Apple, as Intel Arc Pro B50/B60/B70, que parecem ter um custo-benefício bem interessante, quase não são mencionadas
    Recentemente comprei o modelo B70 com 32 GB de RAM por cerca de US$ 1200, incluindo imposto sobre vendas e tarifas para residência fora dos EUA; em outras regiões pode ser ainda mais barato
    A largura de banda de memória é de 608 GB/s
    A GPU de 32 núcleos do M5 Max tem 460 GB/s, a de 40 núcleos tem 614 GB/s, e a 3090 ainda é mais rápida, com cerca de 900 GB/s, mas você obtém 32 GB de VRAM por muito menos do que uma placa Nvidia equivalente
    É como obter cerca de 1/3 da largura de banda da 5090 por 1/3 do preço, mas com os mesmos 32 GB de VRAM; então, se você quer rodar modelos quantizados maiores e algum contexto com orçamento baixo, é um compromisso atraente
    Ainda estou explorando modelos locais, então não quero gastar algo entre US$ 5000 e US$ 10000 em testes; se der para experimentar mais barato, não me importo com um desempenho um pouco mais lento
    No começo comprei a B50 de 16 GB com TDP de 70 W para testar uma placa Intel no meu stack, e ela funcionou facilmente no Ubuntu e com Vulkan
    Vi muitos textos dizendo que era algo irritante e inutilizável, mas em geral parecem ser relacionados a SYCL; e, como SYCL nem parece ter desempenho melhor que Vulkan, não vejo motivo para usá-lo
    A B50 custou US$ 370 incluindo impostos e tarifas e, literalmente, depois de dar apt install na biblioteca Vulkan, funcionou com o driver xe padrão do 26.04 e o build Vulkan do llama.cpp
    SR-IOV PF/VF também funciona no qemu/kvm sem gambiarras extras, e, depois que comprei, o fwupdmgr atualizou o firmware duas vezes, então parece que a Intel pretende mesmo dar suporte a esses produtos

  • Acho que o ponto ideal agora é uma combinação de duas 3090, uma placa-mãe PCIe 4 e 64~128 GB de RAM DDR4
    Dá para montar por cerca de US$ 3 mil hoje e roda Qwen 27B/35B em int4 extremamente rápido

  • Para referência, estou rodando gemma4 31B em uma 5090 e está bem excelente
    Uso QAT, MTP e contexto de 128k
    O Qwen 3.6 27B também era bom, mas acho que o Gemma4 é um pouco subestimado

    • Minha experiência é parecida
      Estou rodando gemma4 31B em uma 4090 com llm.cpp e um modelo do unsloth
      Também uso Qwen 3.6 junto; o Qwen é mais rápido, então é bom para raciocínio e planejamento, enquanto o Gemma4 gera código de qualidade muito maior na primeira tentativa
      Em Rust, C++ e C#, ele exige menos correções até chegar a um nível que eu considere aceitável para fazer merge
    • Não estou conseguindo fazer o Gemma4 encerrar os turnos corretamente
      Ele sempre corta de repente ou cria chamadas de ferramenta incorretas; provavelmente configurei errado o oMLX ou o Opencode
    • É bom
      Em uma 4080 Super, alterno entre Qwen 3.5 9B Q6_M e Gemma4 12B Q4_K_M
      Os dois têm velocidade parecida e dá para fazer um revisar os planos ou as alterações do outro
      Em projetos pequenos, são bem competentes; para tarefas um pouco mais difíceis, dá para subir para uma quantização melhor
  • Antes de comprar um computador com memória unificada, por exemplo máquinas como DGX Spark, Mac, Ryzen AI Max 395 / Strix Halo, você precisa saber que modelos densos tendem a ser lentos nelas
    GPUs dedicadas rodam modelos densos muito melhor
    É bom procurar benchmarks do equipamento que você pretende comprar; e, se você realmente quer uma máquina desse tipo, é melhor rodar o Qwen 3.6 35B ou outros modelos MoE esparsos

  • Tenho rodado qwen 3.6 35b a3b com opencode em um MacBook Pro de 16 polegadas M3 Max com 64 GB de RAM, e ele tem sido muito bom para planejamento e programação locais
    Sinceramente, ao ver como 64 GB são tão potentes, às vezes penso se deveria ter me preparado melhor para o futuro com 128 GB
    Por outro lado, ainda não esbarrei em limite por causa de modelos um pouco maiores que o qwen

    • Também estou rodando Qwen 3.6 35B A3b em um notebook Windows, e com 64 GB de RAM e GPU de 4 GB é pelo menos tolerável
      Não é rápido — alguns tokens por segundo, mais lento que a velocidade de leitura —, mas dá para deixar a tarefa rodando e voltar depois
      É um notebook de US$ 600 que comprei no eBay há alguns anos, não uma máquina de US$ 6000
      Fico curioso se Macs com memória unificada ou GPUs desktop enormes de 24 GB estão entregando dezenas a centenas de tokens por segundo para justificar um custo 10 a 20 vezes maior
    • Tenho curiosidade sobre qual é a velocidade de resposta, em tokens por segundo
      Pela minha experiência, só um modelo de 20~35 GB e o cache chave-valor já consomem boa parte dos 64 GB básicos; então, se você quer manter navegador, editor e outras coisas abertos, os 128 GB completos certamente ajudam