- Procurando um modelo que permita conversas básicas em uma 5060ti + 16GB de VRAM. Se possível, seria bom que fosse rápido e funcionasse quase em tempo real
Resumo das respostas
- Vários modelos de 8B~14B e 30B parâmetros rodam com eficiência em 16GB de VRAM, com recomendações frequentes como Qwen3, DeepSeek-R1, Mistral e Gemma3
- Rodar LLMs localmente tem vantagens em desempenho, custo e privacidade, mas o desempenho real e a adequação de cada modelo exigem testes e tuning individuais
- Foram amplamente compartilhadas dicas para otimizar o uso do hardware, como tamanho dos arquivos de modelo, nível de quantização (Q4~Q6 etc.) e carregamento distribuído entre GPU e RAM
- Há várias ferramentas, como Ollama, LM Studio, llama.cpp e OpenWebUI, cada uma com prós e contras em acessibilidade, flexibilidade e facilidade de gerenciamento de modelos
- Fontes da comunidade, como o Reddit LocalLLaMA, são úteis para notícias recentes e dicas práticas, mas é preciso cuidado com exageros e desinformação
Principais recomendações de LLM e dicas de uso
- Qwen3: há modelos com diferentes números de parâmetros, como 8B/14B/30B, e os modelos de 8B~14B podem ser usados confortavelmente com 16GB de VRAM. O desempenho de reasoning é excelente e, graças à arquitetura MoE (Mixture of Experts), alguns modelos maiores também podem ser usados com offloading para a RAM
- DeepSeek-R1-0528-Qwen3-8B: é avaliado como um dos modelos 8B mais recentes com ótimo desempenho de reasoning. Na versão 8B, é adequado para quantização Q4~Q6 com 4GB~8GB de VRAM
- Mistral Small 3.1: os modelos 14B ou 24B são recomendados, com boa qualidade de conversa e relativamente menos censorship. Também oferece entrada de imagem
- Gemma3: modelo da Google com ponto forte em conversas intuitivas. No entanto, há comentários de que tem uma tendência mais “HR”, com muitos disclaimers. Também alucina com alguma frequência
- Devstral: modelo grande baseado em Mistral. Acima de 30B, a velocidade pode cair em 16GB de VRAM
- Dolphin, Abliterated: versões com menos censorship, úteis em situações fora do padrão
Otimização de hardware e ambiente de execução
- Configuração de quantização: quanto menor o nível, como Q4, Q5 ou Q6, menor o uso de VRAM (Q4 ≒ parâmetros/2, Q6 ≒ parâmetros*0.75). Ainda assim, é preciso considerar possível perda de qualidade
- Estimativa de uso de VRAM: por exemplo, 8B Q4 precisa de 4GB, 14B Q4 de 7GB, e 30B Q4 de cerca de 15GB de VRAM
- Offloading para RAM: quando faltar VRAM, parte das camadas pode ser descarregada para a memória da CPU. Em troca, é preciso aceitar perda de velocidade
- Quantização do KV cache: ao aumentar a context window, recomenda-se comprimir o cache em algo como q4
Ferramentas e frontends
- llama.cpp: rápido e flexível em várias plataformas. Suporta REST API e um frontend simples em React. Permite carregar o modelo de forma distribuída entre VRAM e RAM
- Ollama: instalação fácil e troca simples de modelos, além de integração conveniente com frontends GUI. Porém, há limitações no suporte aos modelos mais recentes e no tamanho de contexto
- LM Studio: ambiente GUI conveniente para gerenciar modelos. Tem recurso para prever se o modelo cabe na VRAM
- OpenWebUI: somente frontend. Requer um backend como llama.cpp ou vllm. Permite gerenciar e testar vários modelos ao mesmo tempo
- KoboldCPP, SillyTavern: frontends especializados em roleplay, storytelling e jogos
Comunidade e informação prática
- Reddit LocalLLaMA, HuggingFace, Discord: notícias sobre modelos recentes, uso, benchmarks e dicas de configuração são compartilhadas ativamente. Ainda assim, é preciso tomar cuidado com desinformação e groupthink
- Sites de benchmark: livebench.ai, aider.chat e outros oferecem pontuações e rankings atualizados por modelo
Objetivos de uso e experiência real
- Privacidade e redução de custos: para dados sensíveis, questões de privacidade ou uso repetitivo, modelos locais podem ser mais vantajosos do que a nuvem
- Liberdade para experimentar e ajustar: há mais flexibilidade do que em modelos via API para fine-tuning de domínios específicos, estratégias de sampling e prompt engineering
- Casos de uso: exemplos práticos variados incluem RAG (geração com recuperação), integração com bancos de dados locais, automação com agentes e assistentes offline
Perguntas frequentes e dicas
- Estimativa do tamanho do modelo: número de parâmetros × bits (quantization)/8 = aproximadamente a VRAM necessária (GB). Também é preciso considerar overhead e context window
- Características por modelo: Qwen3 para reasoning/código, Gemma3 para intuição/conversa, Mistral com menos censorship, Dolphin/abliterated como versões uncensored etc.
- Comparação de desempenho: recomenda-se fazer benchmarks e testes personalizados para encontrar o modelo ideal para o seu caso
Conclusão e conselhos práticos
- Não existe um “melhor modelo”, e a melhor opção é testar vários modelos recentes de 8B~14B, como Qwen3, Mistral e Gemma3, conforme seu hardware, uso e preferências
- Como o tamanho do arquivo do modelo, a quantização e o tamanho de contexto são fatores muito importantes, o mais eficaz é testar vários modelos diretamente e aproveitar as dicas da comunidade
1 comentários
Comentários do Hacker News
Se você quer rodar LLM localmente, dá para conseguir muita ajuda na comunidade localllama do reddit
Não existe um modelo de LLM que seja especificamente o "melhor"; como cada modelo tem vantagens e desvantagens, o ideal é testar vários por conta própria
Por exemplo, o modelo DeepSeek-R1-0528-Qwen3-8B foi lançado hoje e mostra o melhor desempenho de raciocínio lógico na faixa de 8B
E a série Qwen3 também saiu recentemente, oferecendo abordagem híbrida, bom desempenho e vários tamanhos para diferentes hardwares
O Qwen3-30B-A3B consegue rodar em CPU com velocidade razoável
Até o mini modelo de 0.6B é surpreendentemente consistente
Ao usar llama-cpp, já vi casos em que descarregar alguns tensores para a CPU mantém um bom desempenho
Normalmente, no llama-cpp você define quantas camadas vão para a GPU (
-ngl), mas se os tensores não forem os mais pesados em computação, dá para economizar espaço na GPU descarregando-os para a CPU sem perder velocidadeTambém li um artigo sobre carregar apenas neurônios "quentes" a partir da CPU (link arxiv) e fico animado com a possibilidade de usar IA de forma bem interessante em casa no futuro
Um aviso para quem não está acostumado com o Reddit
No Reddit, incluindo o LocalLlama, há muita desinformação e até informações falsas populares, e a proporção de upvotes/downvotes não garante a precisão da informação
Comentários corretos, mas explicados de forma entediante, podem acabar impopulares, enquanto explicações erradas, porém divertidas, emocionais ou alinhadas ao consenso do grupo, muitas vezes fazem sucesso
Quem, como eu, já passou muito tempo na web consegue filtrar mais ou menos, mas para quem está chegando agora a espaços assim, com forte pensamento de manada, recomendo cautela ao absorver informações
Hoje em dia, praticamente qualquer modelo já entrega o básico, então no fim a sensação é mais de procurar uma "personalidade de modelo" que combine com seu gosto
O OP pode simplesmente ir baixando e testando em sequência
Com 16GB de memória, dá para rodar modelos de até 30B com velocidade "razoável" usando offload parcial para DDR5 no llama.cpp, até mesmo modelos dense; com offload de tensores fica ainda melhor
O Qwen deixa um pouco a desejar como modelo conversacional
Mistral Nemo, Small e a série Llama 3.X continuam sendo ótimas escolhas ainda hoje
Os Gemma 3s são bons, mas têm um estilo um pouco imprevisível
Se você quer algo no nível GPT-4 em casa, recomendo QwQ
E provavelmente existem mais alguns bons modelos que eu esqueci
Tenho curiosidade se existe algum modelo recomendado para usar com ferramentas de programação como aider ou roo
Tenho achado bem difícil encontrar modelos que lidem bem com uso de ferramentas por conta própria
O DeepSeek-R1-0528-Qwen3-8B é um modelo criado por destilação do chain-of-thought do DeepSeek-R1-0528 no Qwen3-8B Base, superando o Qwen3-8B em mais de 10% no AIME 2024 e alcançando desempenho equivalente ao Qwen3-235B-thinking
Isso realmente chama atenção para o quanto a destilação de conhecimento pode ser eficaz
Acho que esse também é um dos motivos pelos quais várias OpenAI e laboratórios de pesquisa têm escondido o chain-of-thought (COT) ultimamente (post de referência)
Fico curioso sobre para que a maioria das pessoas mais usa LLM localmente
A menos que o hardware seja muito bom, é difícil competir com modelos proprietários como Gemini ou Claude, então imagino que esses modelos menores ainda tenham utilidade, mas queria entender casos de uso mais concretos
A relutância em entregar dados a terceiros
Muita gente simplesmente não quer enviar prompts ou perguntas para fora
Eu tento usar um modelo local primeiro na maioria dos prompts e, para minha surpresa, em mais da metade dos casos obtenho resultados bons o bastante
Sempre que deixo de usar um serviço em nuvem, fico satisfeito comigo mesmo
Acho que o futuro dos LLMs locais será uma forma de decidir rapidamente que tipo de tarefa deve ser tratada de que forma e delegá-la com agilidade
Um sistema que saiba escolher se a tarefa pode ser resolvida com um sistema local como MCP, se exige chamadas de API do sistema, como calendário ou e-mail, ou se deve ser enviada ao melhor modelo em nuvem para aquilo
Imagino algo como uma Siri que realmente funciona direito
Estou experimentando agora com um agente local de programação que eu mesmo fiz, baseado em Devstral
O que gosto mais nele em relação ao Codex é que ele pode acessar todo o hardware, então consegue fazer coisas que o Codex não faz, como subir uma VM ou fazer requisições de rede
Além disso, ele é muito mais rápido que o Codex desde a configuração até a geração de patches
Claro, ainda não entrega o mesmo nível de resultado do Codex, mas o Devstral já serve para mudanças pequenas ou refatoração, e espero que, com a evolução do software, também passe a lidar com mudanças maiores
Em princípio, eu evito a nuvem sempre que posso
Por exemplo, há notícias de que a OpenAI está trabalhando até em uma espécie de rede social para compartilhar conversas do ChatGPT
Rodando tudo localmente, também entendo melhor como a IA funciona por dentro, o que aumenta meu valor de mercado
Também posso experimentar livremente com backends de LLM (busca na web, agentes etc.), sem custo de nuvem, e eu já tinha um desktop gamer desde a época em que saiu o primeiro LLaMa
Também vale ficar de olho no projeto LocalScore da Mozilla
É um serviço que compara e analisa o quão bem vários modelos rodam em diferentes hardwares
Concordo com a recomendação do subreddit LocalLLama
Não é um lugar que vai escolher "o melhor modelo" por você, mas ajuda bastante com perguntas, busca de guias, novidades, ferramentas e comparações entre vários modelos
No fim, trata-se de testar vários modelos e ajustar parâmetros até encontrar o que melhor se encaixa no seu objetivo
Se você é usuário do Hacker News, talvez valha considerar pular Ollama ou LMStudio
O acesso aos modelos mais recentes pode ser limitado e, muitas vezes, você acaba escolhendo apenas entre os modelos que eles testaram
E também falta aquela diversão de "abrir a tampa" e ver como tudo funciona por dentro
Só com llamacpp já dá para ter suporte à maioria dos modelos mais recentes, com atualizações rápidas quando necessário
Prefiro baixar modelos do huggingface e usar o formato GGUF (com quantization mais baixo para economizar memória)
Pelo tamanho do arquivo GGUF já dá para ter uma noção se cabe na VRAM (exemplo: um GGUF de 24GB é inviável para 16GB, enquanto 12GB pode caber — mas, se o context aumentar, o consumo de RAM também sobe)
Também é preciso prestar atenção na context window; em modelos antigos, a maioria tem context de 8K, e mesmo configurando 32K o ganho real nem sempre é grande
O llamacpp permite baixar binários para Linux, Windows e macOS ou compilar manualmente, e também dividir o modelo entre VRAM e RAM
Oferece um frontend React simples (
llamacpp-server) e também uma API REST parecida com a da OpenAIPor isso, funciona com vários frontends, como o oobabooga (
textgeneration webui)O Koboldcpp pode ser uma boa opção de backend se o llamacpp parecer rústico demais (embora internamente ainda seja baseado em llamacpp)
Um atrativo do Ollama é poder baixar qualquer GGUF direto do HuggingFace e rodar com algo como
ollama run hf.co/unsloth/DeepSeek-R1-0528-GGUF:Q8_0Uma das vantagens do Ollama é facilitar carregar e descarregar modelos na GPU, então em frontends como librechat ou openwebui você consegue trocar de modelo facilmente por um menu suspenso
Quero destacar como é conveniente mudar de modelo sem precisar mexer na linha de comando
O Ollama transforma o desktop em um servidor de LLM e permite acesso a partir de dispositivos remotos via Wi‑Fi
Ao trocar de modelo, o Ollama também consegue fazer a troca sem derrubar o servidor
No caso do llama.cpp, usando CLI, é preciso parar o servidor, passar novas flags e subir de novo, o que é inconveniente para experimentação ou desenvolvimento rápido de apps
Em alguns apps que eu mesmo fiz, é essencial poder alternar entre modelos como 1B, 8B e 30B só por parâmetro de requisição web, sem reiniciar o servidor
Só tenho 8GB de VRAM, mas uso OpenWebUI como frontend do Ollama para carregar vários modelos ao mesmo tempo e testá-los alternadamente em round robin
Também monitoro continuamente a qualidade das respostas para escolher, no longo prazo, qual modelo combina melhor com meu objetivo
É uma experiência de uso bem peculiar com o OpenWebUI
Como usuário de uma AMD 6700XT (12GB de VRAM), depois que consegui configurar ROCm localmente, passei a rodar o Ollama com aceleração por GPU sem problemas
Também bastou definir uma variável de ambiente para ligar uma instância do OpenWebUI em Docker ao servidor local do Ollama
Não é um ambiente de produção, mas para testes pessoais atende muito bem ao objetivo descrito acima
Vale saber que o OpenWebUI mudou recentemente a licença e não é mais open source
A família Qwen3 (e também o distill R1 qwen3-8b) está em 1º lugar em programação e raciocínio lógico
Porém, por vir da China, tem censura forte em temas políticos
Para conhecimento geral e informações recentes, recomendo Gemma3
Como há grande chance de este post estar desatualizado daqui a um mês, vale consultar benchmarks recentes no livebench.ai ou no leaderboard do aider.chat
Não só os modelos, mas também ferramentas, routers, MCP, bibliotecas e SDKs continuam evoluindo
Se eu estiver desenvolvendo sozinho e não tiver colegas ou grupos por perto com quem trocar informações, gostaria de receber conselhos sobre como aprender e acompanhar as tendências mais recentes
A melhor fonte de informação é o HuggingFace
A série Qwen é boa em vários aspectos, e recomendo o modelo Qwen/Qwen3-14B-GGUF Q4_K_M
Ele usa algo em torno de 7–8GB de VRAM, então não pesa muito, e recomendo usar llama-server ou LM Studio
O Llama 3.3 também é uma boa opção
O Devstral é grande demais, então só dá para tentar com modelo quantizado
O Gemma rejeita muita coisa, mas é útil para finalidades específicas, como o Medgemma
Os modelos “Uncensored” Dolphin do Eric Hartford e os modelos abliterated são recomendados se você precisar de um modelo com menos restrições para gerar piadas ou trabalhar com temas de segurança e defesa (para uso cotidiano isso não é necessariamente necessário)
Em dtype bf16, dá para estimar o tamanho de um modelo não quantizado como número de parâmetros x2
Se usar um modelo quantizado Q4_K_M (4 bits), a exigência de VRAM fica em cerca de metade do número de parâmetros
Considerando também overhead de ativação etc., recomendo começar testando modelos bem abaixo de 16GB
O llama-server também suporta GUI e baixar modelos com a opção
-hfO LM Studio também é prático para instalação e gerenciamento de modelos
Se quiser respostas rápidas, o ideal é subir o servidor uma vez e compartilhar o modelo entre várias consultas (se recarregar o modelo a cada pergunta, fica lento)
Com 16GB, o Mistral Small 3.1 em Q4 quant ou o Qwen3-14B em FP8 rodam bem sem grande dificuldade
Porém, dependendo do uso de VRAM, ao trabalhar com context length maior, o Qwen3-14B em Q4 quant entrega desempenho inferior ao FP8, mas sobra mais memória
O Mistral Small também aceita entrada de imagem, enquanto o Qwen3 é mais especializado em matemática e programação
Não recomendo baixar de Q4, porque a eficiência cai
Se a prioridade for context longo, talvez seja melhor o Qwen3-8B em Q4 quant, e o Qwen3-30B-A3 parece ficar um pouco apertado para 16GB de VRAM (já que modelos pesados ocupam mais de 15GB em GGUF)
Modelos dense (usam todos os parâmetros) têm desempenho por parâmetro melhor do que modelos sparse, mas são mais lentos; numa GPU classe 5060, 14B já roda com bastante conforto
Na arquitetura Blackwell, modelos quantizados em NVFP4 são mais rápidos que FP8, embora a qualidade caia muito levemente, mas o ollama ainda não oferece suporte, então seria preciso usar o vLLM separadamente
Como ainda há pouco suporte para modelos NVFP4 pré-quantizados, recomenda-se fazer a quantização manualmente com ferramentas como llmcompressor
Primeiro escolha o LLM que você quer e só depois use esse tipo de ferramenta para otimizar performance
É quase impossível dar uma resposta objetiva e clara sobre LLMs, e o mais importante é testar vários modelos recentes nas tarefas que realmente importam para você
Dependendo do tipo de tarefa, a diferença de qualidade dos resultados pode ser enorme
Muita gente costuma se perguntar como estimar o uso de VRAM
É uma pena que informações de modelos para download, como arquivos gguf, normalmente não tragam de forma clara os requisitos de VRAM/memória
De forma bem aproximada, dá para pensar no número de parâmetros (em bilhões) como quantidade de memória em GB
Exemplos com quantization:
FP16 = 2 x 8GB = 16GB (modelo 8B)
Q8 = 1 x 8GB, Q4 = 0.5 x 8GB = 4GB
Na prática há pequenas diferenças, mas a estimativa não foge muito disso, e também é preciso reservar memória extra para coisas como context length
O princípio é a combinação entre número de valores float e quantidade de bits do tipo de dado (4, 8, 16...)
Além da quantização, se quiser calcular com mais precisão incluindo KV cache etc., recomendo usar esta calculadora de VRAM