13 pontos por GN⁺ 2025-06-01 | 1 comentários | Compartilhar no WhatsApp
  • Procurando um modelo que permita conversas básicas em uma 5060ti + 16GB de VRAM. Se possível, seria bom que fosse rápido e funcionasse quase em tempo real

Resumo das respostas

  • Vários modelos de 8B~14B e 30B parâmetros rodam com eficiência em 16GB de VRAM, com recomendações frequentes como Qwen3, DeepSeek-R1, Mistral e Gemma3
  • Rodar LLMs localmente tem vantagens em desempenho, custo e privacidade, mas o desempenho real e a adequação de cada modelo exigem testes e tuning individuais
  • Foram amplamente compartilhadas dicas para otimizar o uso do hardware, como tamanho dos arquivos de modelo, nível de quantização (Q4~Q6 etc.) e carregamento distribuído entre GPU e RAM
  • Há várias ferramentas, como Ollama, LM Studio, llama.cpp e OpenWebUI, cada uma com prós e contras em acessibilidade, flexibilidade e facilidade de gerenciamento de modelos
  • Fontes da comunidade, como o Reddit LocalLLaMA, são úteis para notícias recentes e dicas práticas, mas é preciso cuidado com exageros e desinformação

Principais recomendações de LLM e dicas de uso

  • Qwen3: há modelos com diferentes números de parâmetros, como 8B/14B/30B, e os modelos de 8B~14B podem ser usados confortavelmente com 16GB de VRAM. O desempenho de reasoning é excelente e, graças à arquitetura MoE (Mixture of Experts), alguns modelos maiores também podem ser usados com offloading para a RAM
  • DeepSeek-R1-0528-Qwen3-8B: é avaliado como um dos modelos 8B mais recentes com ótimo desempenho de reasoning. Na versão 8B, é adequado para quantização Q4~Q6 com 4GB~8GB de VRAM
  • Mistral Small 3.1: os modelos 14B ou 24B são recomendados, com boa qualidade de conversa e relativamente menos censorship. Também oferece entrada de imagem
  • Gemma3: modelo da Google com ponto forte em conversas intuitivas. No entanto, há comentários de que tem uma tendência mais “HR”, com muitos disclaimers. Também alucina com alguma frequência
  • Devstral: modelo grande baseado em Mistral. Acima de 30B, a velocidade pode cair em 16GB de VRAM
  • Dolphin, Abliterated: versões com menos censorship, úteis em situações fora do padrão

Otimização de hardware e ambiente de execução

  • Configuração de quantização: quanto menor o nível, como Q4, Q5 ou Q6, menor o uso de VRAM (Q4 ≒ parâmetros/2, Q6 ≒ parâmetros*0.75). Ainda assim, é preciso considerar possível perda de qualidade
  • Estimativa de uso de VRAM: por exemplo, 8B Q4 precisa de 4GB, 14B Q4 de 7GB, e 30B Q4 de cerca de 15GB de VRAM
  • Offloading para RAM: quando faltar VRAM, parte das camadas pode ser descarregada para a memória da CPU. Em troca, é preciso aceitar perda de velocidade
  • Quantização do KV cache: ao aumentar a context window, recomenda-se comprimir o cache em algo como q4

Ferramentas e frontends

  • llama.cpp: rápido e flexível em várias plataformas. Suporta REST API e um frontend simples em React. Permite carregar o modelo de forma distribuída entre VRAM e RAM
  • Ollama: instalação fácil e troca simples de modelos, além de integração conveniente com frontends GUI. Porém, há limitações no suporte aos modelos mais recentes e no tamanho de contexto
  • LM Studio: ambiente GUI conveniente para gerenciar modelos. Tem recurso para prever se o modelo cabe na VRAM
  • OpenWebUI: somente frontend. Requer um backend como llama.cpp ou vllm. Permite gerenciar e testar vários modelos ao mesmo tempo
  • KoboldCPP, SillyTavern: frontends especializados em roleplay, storytelling e jogos

Comunidade e informação prática

  • Reddit LocalLLaMA, HuggingFace, Discord: notícias sobre modelos recentes, uso, benchmarks e dicas de configuração são compartilhadas ativamente. Ainda assim, é preciso tomar cuidado com desinformação e groupthink
  • Sites de benchmark: livebench.ai, aider.chat e outros oferecem pontuações e rankings atualizados por modelo

Objetivos de uso e experiência real

  • Privacidade e redução de custos: para dados sensíveis, questões de privacidade ou uso repetitivo, modelos locais podem ser mais vantajosos do que a nuvem
  • Liberdade para experimentar e ajustar: há mais flexibilidade do que em modelos via API para fine-tuning de domínios específicos, estratégias de sampling e prompt engineering
  • Casos de uso: exemplos práticos variados incluem RAG (geração com recuperação), integração com bancos de dados locais, automação com agentes e assistentes offline

Perguntas frequentes e dicas

  • Estimativa do tamanho do modelo: número de parâmetros × bits (quantization)/8 = aproximadamente a VRAM necessária (GB). Também é preciso considerar overhead e context window
  • Características por modelo: Qwen3 para reasoning/código, Gemma3 para intuição/conversa, Mistral com menos censorship, Dolphin/abliterated como versões uncensored etc.
  • Comparação de desempenho: recomenda-se fazer benchmarks e testes personalizados para encontrar o modelo ideal para o seu caso

Conclusão e conselhos práticos

  • Não existe um “melhor modelo”, e a melhor opção é testar vários modelos recentes de 8B~14B, como Qwen3, Mistral e Gemma3, conforme seu hardware, uso e preferências
  • Como o tamanho do arquivo do modelo, a quantização e o tamanho de contexto são fatores muito importantes, o mais eficaz é testar vários modelos diretamente e aproveitar as dicas da comunidade

1 comentários

 
GN⁺ 2025-06-01
Comentários do Hacker News
  • Se você quer rodar LLM localmente, dá para conseguir muita ajuda na comunidade localllama do reddit
    Não existe um modelo de LLM que seja especificamente o "melhor"; como cada modelo tem vantagens e desvantagens, o ideal é testar vários por conta própria
    Por exemplo, o modelo DeepSeek-R1-0528-Qwen3-8B foi lançado hoje e mostra o melhor desempenho de raciocínio lógico na faixa de 8B
    E a série Qwen3 também saiu recentemente, oferecendo abordagem híbrida, bom desempenho e vários tamanhos para diferentes hardwares
    O Qwen3-30B-A3B consegue rodar em CPU com velocidade razoável
    Até o mini modelo de 0.6B é surpreendentemente consistente

    • Ao usar llama-cpp, já vi casos em que descarregar alguns tensores para a CPU mantém um bom desempenho
      Normalmente, no llama-cpp você define quantas camadas vão para a GPU (-ngl), mas se os tensores não forem os mais pesados em computação, dá para economizar espaço na GPU descarregando-os para a CPU sem perder velocidade
      Também li um artigo sobre carregar apenas neurônios "quentes" a partir da CPU (link arxiv) e fico animado com a possibilidade de usar IA de forma bem interessante em casa no futuro

    • Um aviso para quem não está acostumado com o Reddit
      No Reddit, incluindo o LocalLlama, há muita desinformação e até informações falsas populares, e a proporção de upvotes/downvotes não garante a precisão da informação
      Comentários corretos, mas explicados de forma entediante, podem acabar impopulares, enquanto explicações erradas, porém divertidas, emocionais ou alinhadas ao consenso do grupo, muitas vezes fazem sucesso
      Quem, como eu, já passou muito tempo na web consegue filtrar mais ou menos, mas para quem está chegando agora a espaços assim, com forte pensamento de manada, recomendo cautela ao absorver informações

    • Hoje em dia, praticamente qualquer modelo já entrega o básico, então no fim a sensação é mais de procurar uma "personalidade de modelo" que combine com seu gosto
      O OP pode simplesmente ir baixando e testando em sequência
      Com 16GB de memória, dá para rodar modelos de até 30B com velocidade "razoável" usando offload parcial para DDR5 no llama.cpp, até mesmo modelos dense; com offload de tensores fica ainda melhor
      O Qwen deixa um pouco a desejar como modelo conversacional
      Mistral Nemo, Small e a série Llama 3.X continuam sendo ótimas escolhas ainda hoje
      Os Gemma 3s são bons, mas têm um estilo um pouco imprevisível
      Se você quer algo no nível GPT-4 em casa, recomendo QwQ
      E provavelmente existem mais alguns bons modelos que eu esqueci

    • Tenho curiosidade se existe algum modelo recomendado para usar com ferramentas de programação como aider ou roo
      Tenho achado bem difícil encontrar modelos que lidem bem com uso de ferramentas por conta própria

    • O DeepSeek-R1-0528-Qwen3-8B é um modelo criado por destilação do chain-of-thought do DeepSeek-R1-0528 no Qwen3-8B Base, superando o Qwen3-8B em mais de 10% no AIME 2024 e alcançando desempenho equivalente ao Qwen3-235B-thinking
      Isso realmente chama atenção para o quanto a destilação de conhecimento pode ser eficaz
      Acho que esse também é um dos motivos pelos quais várias OpenAI e laboratórios de pesquisa têm escondido o chain-of-thought (COT) ultimamente (post de referência)

  • Fico curioso sobre para que a maioria das pessoas mais usa LLM localmente
    A menos que o hardware seja muito bom, é difícil competir com modelos proprietários como Gemini ou Claude, então imagino que esses modelos menores ainda tenham utilidade, mas queria entender casos de uso mais concretos

    • A relutância em entregar dados a terceiros
      Muita gente simplesmente não quer enviar prompts ou perguntas para fora

    • Eu tento usar um modelo local primeiro na maioria dos prompts e, para minha surpresa, em mais da metade dos casos obtenho resultados bons o bastante
      Sempre que deixo de usar um serviço em nuvem, fico satisfeito comigo mesmo

    • Acho que o futuro dos LLMs locais será uma forma de decidir rapidamente que tipo de tarefa deve ser tratada de que forma e delegá-la com agilidade
      Um sistema que saiba escolher se a tarefa pode ser resolvida com um sistema local como MCP, se exige chamadas de API do sistema, como calendário ou e-mail, ou se deve ser enviada ao melhor modelo em nuvem para aquilo
      Imagino algo como uma Siri que realmente funciona direito

    • Estou experimentando agora com um agente local de programação que eu mesmo fiz, baseado em Devstral
      O que gosto mais nele em relação ao Codex é que ele pode acessar todo o hardware, então consegue fazer coisas que o Codex não faz, como subir uma VM ou fazer requisições de rede
      Além disso, ele é muito mais rápido que o Codex desde a configuração até a geração de patches
      Claro, ainda não entrega o mesmo nível de resultado do Codex, mas o Devstral já serve para mudanças pequenas ou refatoração, e espero que, com a evolução do software, também passe a lidar com mudanças maiores

    • Em princípio, eu evito a nuvem sempre que posso
      Por exemplo, há notícias de que a OpenAI está trabalhando até em uma espécie de rede social para compartilhar conversas do ChatGPT
      Rodando tudo localmente, também entendo melhor como a IA funciona por dentro, o que aumenta meu valor de mercado
      Também posso experimentar livremente com backends de LLM (busca na web, agentes etc.), sem custo de nuvem, e eu já tinha um desktop gamer desde a época em que saiu o primeiro LLaMa

  • Também vale ficar de olho no projeto LocalScore da Mozilla
    É um serviço que compara e analisa o quão bem vários modelos rodam em diferentes hardwares

  • Concordo com a recomendação do subreddit LocalLLama
    Não é um lugar que vai escolher "o melhor modelo" por você, mas ajuda bastante com perguntas, busca de guias, novidades, ferramentas e comparações entre vários modelos
    No fim, trata-se de testar vários modelos e ajustar parâmetros até encontrar o que melhor se encaixa no seu objetivo
    Se você é usuário do Hacker News, talvez valha considerar pular Ollama ou LMStudio
    O acesso aos modelos mais recentes pode ser limitado e, muitas vezes, você acaba escolhendo apenas entre os modelos que eles testaram
    E também falta aquela diversão de "abrir a tampa" e ver como tudo funciona por dentro
    Só com llamacpp já dá para ter suporte à maioria dos modelos mais recentes, com atualizações rápidas quando necessário
    Prefiro baixar modelos do huggingface e usar o formato GGUF (com quantization mais baixo para economizar memória)
    Pelo tamanho do arquivo GGUF já dá para ter uma noção se cabe na VRAM (exemplo: um GGUF de 24GB é inviável para 16GB, enquanto 12GB pode caber — mas, se o context aumentar, o consumo de RAM também sobe)
    Também é preciso prestar atenção na context window; em modelos antigos, a maioria tem context de 8K, e mesmo configurando 32K o ganho real nem sempre é grande
    O llamacpp permite baixar binários para Linux, Windows e macOS ou compilar manualmente, e também dividir o modelo entre VRAM e RAM
    Oferece um frontend React simples (llamacpp-server) e também uma API REST parecida com a da OpenAI
    Por isso, funciona com vários frontends, como o oobabooga (textgeneration webui)
    O Koboldcpp pode ser uma boa opção de backend se o llamacpp parecer rústico demais (embora internamente ainda seja baseado em llamacpp)

    • Um atrativo do Ollama é poder baixar qualquer GGUF direto do HuggingFace e rodar com algo como ollama run hf.co/unsloth/DeepSeek-R1-0528-GGUF:Q8_0

    • Uma das vantagens do Ollama é facilitar carregar e descarregar modelos na GPU, então em frontends como librechat ou openwebui você consegue trocar de modelo facilmente por um menu suspenso
      Quero destacar como é conveniente mudar de modelo sem precisar mexer na linha de comando

    • O Ollama transforma o desktop em um servidor de LLM e permite acesso a partir de dispositivos remotos via Wi‑Fi
      Ao trocar de modelo, o Ollama também consegue fazer a troca sem derrubar o servidor
      No caso do llama.cpp, usando CLI, é preciso parar o servidor, passar novas flags e subir de novo, o que é inconveniente para experimentação ou desenvolvimento rápido de apps
      Em alguns apps que eu mesmo fiz, é essencial poder alternar entre modelos como 1B, 8B e 30B só por parâmetro de requisição web, sem reiniciar o servidor

  • Só tenho 8GB de VRAM, mas uso OpenWebUI como frontend do Ollama para carregar vários modelos ao mesmo tempo e testá-los alternadamente em round robin
    Também monitoro continuamente a qualidade das respostas para escolher, no longo prazo, qual modelo combina melhor com meu objetivo
    É uma experiência de uso bem peculiar com o OpenWebUI

    • Como usuário de uma AMD 6700XT (12GB de VRAM), depois que consegui configurar ROCm localmente, passei a rodar o Ollama com aceleração por GPU sem problemas
      Também bastou definir uma variável de ambiente para ligar uma instância do OpenWebUI em Docker ao servidor local do Ollama
      Não é um ambiente de produção, mas para testes pessoais atende muito bem ao objetivo descrito acima

    • Vale saber que o OpenWebUI mudou recentemente a licença e não é mais open source

  • A família Qwen3 (e também o distill R1 qwen3-8b) está em 1º lugar em programação e raciocínio lógico
    Porém, por vir da China, tem censura forte em temas políticos
    Para conhecimento geral e informações recentes, recomendo Gemma3
    Como há grande chance de este post estar desatualizado daqui a um mês, vale consultar benchmarks recentes no livebench.ai ou no leaderboard do aider.chat

    • A velocidade das mudanças é maior do que se imagina
      Não só os modelos, mas também ferramentas, routers, MCP, bibliotecas e SDKs continuam evoluindo
      Se eu estiver desenvolvendo sozinho e não tiver colegas ou grupos por perto com quem trocar informações, gostaria de receber conselhos sobre como aprender e acompanhar as tendências mais recentes
  • A melhor fonte de informação é o HuggingFace
    A série Qwen é boa em vários aspectos, e recomendo o modelo Qwen/Qwen3-14B-GGUF Q4_K_M
    Ele usa algo em torno de 7–8GB de VRAM, então não pesa muito, e recomendo usar llama-server ou LM Studio
    O Llama 3.3 também é uma boa opção
    O Devstral é grande demais, então só dá para tentar com modelo quantizado
    O Gemma rejeita muita coisa, mas é útil para finalidades específicas, como o Medgemma
    Os modelos “Uncensored” Dolphin do Eric Hartford e os modelos abliterated são recomendados se você precisar de um modelo com menos restrições para gerar piadas ou trabalhar com temas de segurança e defesa (para uso cotidiano isso não é necessariamente necessário)
    Em dtype bf16, dá para estimar o tamanho de um modelo não quantizado como número de parâmetros x2
    Se usar um modelo quantizado Q4_K_M (4 bits), a exigência de VRAM fica em cerca de metade do número de parâmetros
    Considerando também overhead de ativação etc., recomendo começar testando modelos bem abaixo de 16GB
    O llama-server também suporta GUI e baixar modelos com a opção -hf
    O LM Studio também é prático para instalação e gerenciamento de modelos
    Se quiser respostas rápidas, o ideal é subir o servidor uma vez e compartilhar o modelo entre várias consultas (se recarregar o modelo a cada pergunta, fica lento)

  • Com 16GB, o Mistral Small 3.1 em Q4 quant ou o Qwen3-14B em FP8 rodam bem sem grande dificuldade
    Porém, dependendo do uso de VRAM, ao trabalhar com context length maior, o Qwen3-14B em Q4 quant entrega desempenho inferior ao FP8, mas sobra mais memória
    O Mistral Small também aceita entrada de imagem, enquanto o Qwen3 é mais especializado em matemática e programação
    Não recomendo baixar de Q4, porque a eficiência cai
    Se a prioridade for context longo, talvez seja melhor o Qwen3-8B em Q4 quant, e o Qwen3-30B-A3 parece ficar um pouco apertado para 16GB de VRAM (já que modelos pesados ocupam mais de 15GB em GGUF)
    Modelos dense (usam todos os parâmetros) têm desempenho por parâmetro melhor do que modelos sparse, mas são mais lentos; numa GPU classe 5060, 14B já roda com bastante conforto
    Na arquitetura Blackwell, modelos quantizados em NVFP4 são mais rápidos que FP8, embora a qualidade caia muito levemente, mas o ollama ainda não oferece suporte, então seria preciso usar o vLLM separadamente
    Como ainda há pouco suporte para modelos NVFP4 pré-quantizados, recomenda-se fazer a quantização manualmente com ferramentas como llmcompressor
    Primeiro escolha o LLM que você quer e só depois use esse tipo de ferramenta para otimizar performance

  • É quase impossível dar uma resposta objetiva e clara sobre LLMs, e o mais importante é testar vários modelos recentes nas tarefas que realmente importam para você
    Dependendo do tipo de tarefa, a diferença de qualidade dos resultados pode ser enorme

  • Muita gente costuma se perguntar como estimar o uso de VRAM
    É uma pena que informações de modelos para download, como arquivos gguf, normalmente não tragam de forma clara os requisitos de VRAM/memória

    • De forma bem aproximada, dá para pensar no número de parâmetros (em bilhões) como quantidade de memória em GB
      Exemplos com quantization:
      FP16 = 2 x 8GB = 16GB (modelo 8B)
      Q8 = 1 x 8GB, Q4 = 0.5 x 8GB = 4GB
      Na prática há pequenas diferenças, mas a estimativa não foge muito disso, e também é preciso reservar memória extra para coisas como context length
      O princípio é a combinação entre número de valores float e quantidade de bits do tipo de dado (4, 8, 16...)

    • Além da quantização, se quiser calcular com mais precisão incluindo KV cache etc., recomendo usar esta calculadora de VRAM