whichllm - encontre LLMs locais que realmente rodam e entregam o melhor desempenho no seu hardware

xguru · 2026-05-18T10:06:01+09:00

Ferramenta de CLI que recomenda automaticamente LLMs locais adequados ao hardware do usuário com base em benchmarks medidos na prática, não na contagem de parâmetros Detecta automaticamente GPU/CPU/RAM e apresenta um ranking dos melhores modelos do HuggingFace compatíveis com o sistema Suporta NVIDIA, AMD, Apple Silicon e também CPU-only O objetivo principal não é escolher o maior modelo que cabe na VRAM, mas sim o melhor modelo real entre os que cabem Ex.: ao simular uma RTX 4090, mesmo que um modelo 32B caiba, a recomendação em 1º lugar é um modelo 27B de geração mais nova (Qwen3.6-27B) Pontuação combinada de múltiplos benchmarks: integra LiveBench, Artificial Analysis, Aider, multimodal/vision, Chatbot Arena ELO e Open LLM Leaderboard para gerar uma nota de 0 a 100 Reconhecimento de modelos recentes (recency-aware): leaderboards antigos sofrem desconto seguindo a linhagem do modelo, impedindo que notas de versões antigas façam um modelo de 2024 ultrapassar modelos da geração atual 5 níveis de classificação de evidência - marcado como direct / variant / base_model / line_interp / self_reported, com desconto de confiabilidade aplicado Também bloqueia auto-relatos falsos de uploaders e a herança entre famílias diferentes, em que forks pequenos tentam tomar emprestada a pontuação de um modelo-base maior Se a contagem de parâmetros diferir em 2x ou mais do membro dominante da família, a herança é recusada Estimativa de VRAM/velocidade com reconhecimento de arquitetura - a VRAM considera pesos + cache KV GQA + ativações + overhead; a velocidade reflete limitação por largura de banda, separa MoE ativo vs total e considera memória unificada vs offload parcial via PCIe Suporte a workflow de comando único com whichllm run, capaz de baixar o modelo e iniciar o chat imediatamente em uma linha Cria ambiente isolado com uv, instala dependências, baixa o modelo e inicia chat interativo automaticamente Suporta todos os formatos GGUF / AWQ / GPTQ / FP16 / BF16 Comandos de planejamento de hardware whichllm --gpu "RTX 5090" - simula qualquer GPU para verificar antes da compra whichllm plan "llama 3 70b" - consulta reversa das GPUs necessárias para um modelo específico whichllm upgrade "RTX 4090" "RTX 5090" "H100" - compara a máquina atual com GPUs candidatas Integração com Ollama: permite montar pipelines no formato whichllm --top 1 --json | jq -r '.models[0].model_id' Saída de snippet de código: com whichllm snippet "qwen 7b", fornece código Python pronto para copiar e colar, desde a chamada llama_cpp.Llama.from_pretrained até a conclusão do chat Licença MIT

(github.com/Andyyyy64)

71 pontos por xguru 2026-05-18 | 3 comentários | Compartilhar no WhatsApp

Ferramenta de CLI que recomenda automaticamente LLMs locais adequados ao hardware do usuário com base em benchmarks medidos na prática, não na contagem de parâmetros
Detecta automaticamente GPU/CPU/RAM e apresenta um ranking dos melhores modelos do HuggingFace compatíveis com o sistema
- Suporta NVIDIA, AMD, Apple Silicon e também CPU-only
O objetivo principal não é escolher o maior modelo que cabe na VRAM, mas sim o melhor modelo real entre os que cabem
- Ex.: ao simular uma RTX 4090, mesmo que um modelo 32B caiba, a recomendação em 1º lugar é um modelo 27B de geração mais nova (Qwen3.6-27B)
Pontuação combinada de múltiplos benchmarks: integra LiveBench, Artificial Analysis, Aider, multimodal/vision, Chatbot Arena ELO e Open LLM Leaderboard para gerar uma nota de 0 a 100
Reconhecimento de modelos recentes (recency-aware): leaderboards antigos sofrem desconto seguindo a linhagem do modelo, impedindo que notas de versões antigas façam um modelo de 2024 ultrapassar modelos da geração atual
5 níveis de classificação de evidência - marcado como direct / variant / base_model / line_interp / self_reported, com desconto de confiabilidade aplicado
- Também bloqueia auto-relatos falsos de uploaders e a herança entre famílias diferentes, em que forks pequenos tentam tomar emprestada a pontuação de um modelo-base maior
- Se a contagem de parâmetros diferir em 2x ou mais do membro dominante da família, a herança é recusada
Estimativa de VRAM/velocidade com reconhecimento de arquitetura - a VRAM considera pesos + cache KV GQA + ativações + overhead; a velocidade reflete limitação por largura de banda, separa MoE ativo vs total e considera memória unificada vs offload parcial via PCIe
Suporte a workflow de comando único com whichllm run, capaz de baixar o modelo e iniciar o chat imediatamente em uma linha
- Cria ambiente isolado com uv, instala dependências, baixa o modelo e inicia chat interativo automaticamente
- Suporta todos os formatos GGUF / AWQ / GPTQ / FP16 / BF16
Comandos de planejamento de hardware
- whichllm --gpu "RTX 5090" - simula qualquer GPU para verificar antes da compra
- whichllm plan "llama 3 70b" - consulta reversa das GPUs necessárias para um modelo específico
- whichllm upgrade "RTX 4090" "RTX 5090" "H100" - compara a máquina atual com GPUs candidatas
Integração com Ollama: permite montar pipelines no formato whichllm --top 1 --json | jq -r '.models[0].model_id'
Saída de snippet de código: com whichllm snippet "qwen 7b", fornece código Python pronto para copiar e colar, desde a chamada llama_cpp.Llama.from_pretrained até a conclusão do chat
Licença MIT

3 comentários

xguru 2026-05-18

Eu recomendaria estes 5. Três deles são da Qwen.

Qwen/Qwen3-Next-80B-A3B-Instruct
Qwen/Qwen3.6-27B
deepseek-ai/DeepSeek-V4-Flash
openai/gpt-oss-120b
Qwen/Qwen3-235B-A22B

nezz1204 29 일 전

Eu estava usando o site https://www.canirun.ai/, mas acho que vou ter que experimentar esse também.

popopo 29 일 전

╭────────────────────────────────────────────────────── Informações de hardware ───────────────────────────────────────────────────────╮  
│ GPU 0: Strix Halo [Radeon Graphics / Radeon 8050S Graphics / Radeon 8060S Graphics] — memória compartilhada — BW: 256 GB/s       │  
│ CPU: AMD RYZEN AI MAX+ 395 w/ Radeon 8060S — 16 núcleos (AVX2, AVX-512)                                                          │  
│ RAM: 117.5 GB                                                                                                                     │  
│ Espaço livre em disco: 174.1 GB                                                                                                   │  
│ SO: linux                                                                                                                         │  
╰────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╯  
  
                                                 Modelos recomendados  
┏━━━━━┳━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━┳━━━━━━━━┳━━━━━━━━━━━━┳━━━━━━━━━━━┳━━━━━━━┳━━━━━━━━━━┓  
┃   # ┃ Model                                     ┃ Params ┃ Quant  ┃ Published  ┃ Downloads ┃ Score ┃ License  ┃  
┡━━━━━╇━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━╇━━━━━━━━╇━━━━━━━━━━━━╇━━━━━━━━━━━╇━━━━━━━╇━━━━━━━━━━┩  
│   1 │ Qwen/Qwen3-Next-80B-A3B-Instruct          │  81.3B │  Q6_K  │ 2025-09-09 │    336.2K │  94.9 │ apache-… │  
│     │                                           │ (3.0B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   2 │ openai/gpt-oss-120b                       │ 120.4B │  Q6_K  │ 2025-08-04 │      4.7M │  91.9 │ apache-… │  
│     │                                           │ (5.1B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   3 │ Qwen/Qwen3.6-27B                          │  27.8B │ Q3_K_M │ 2026-04-21 │      3.6M │  85.1 │ apache-… │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   4 │ Qwen/Qwen3-30B-A3B                        │  30.0B │  Q6_K  │ 2025-04-27 │      1.7M │  83.5 │ apache-… │  
│     │                                           │ (3.0B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   5 │ google/gemma-4-26B-A4B-it                 │  26.5B │  Q6_K  │ 2026-03-11 │      8.7M │  81.2 │ apache-… │  
│     │                                           │ (3.8B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   6 │ openai/gpt-oss-20b                        │  21.5B │  Q6_K  │ 2025-08-04 │      7.6M │  77.9 │ apache-… │  
│     │                                           │ (3.6B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   7 │ zai-org/GLM-4.7-Flash                     │  31.2B │  Q6_K  │ 2026-01-19 │    742.3K │  77.2 │ mit      │  
│     │                                           │ (12.0… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   8 │ zai-org/GLM-4.5-Air                       │ 110.5B │  Q6_K  │ 2025-07-20 │    384.2K │  75.6 │ mit      │  
│     │                                           │ (12.0… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   9 │ meta-llama/Llama-4-Scout-17B-16E-Instruct │ 109.0B │ Q5_K_M │ 2025-04-02 │    391.1K │  74.7 │ other    │  
│     │                                           │ (17.0… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│  10 │ Qwen/Qwen3-32B                            │  32.0B │ Q5_K_M │ 2025-04-27 │      7.0M │  73.9 │ apache-… │  
└─────┴───────────────────────────────────────────┴────────┴────────┴────────────┴───────────┴───────┴──────────┘  
  Confiança na principal recomendação: Alta (benchmark direto, diferença de +2.9)  
  Referência de benchmark: snapshot curado de 2026-05; AA ao vivo / LiveBench / Aider mesclados quando acessíveis.

whichllm - encontre LLMs locais que realmente rodam e entregam o melhor desempenho no seu hardware

Leituras relacionadas

3 comentários