71 pontos por xguru 2026-05-18 | 3 comentários | Compartilhar no WhatsApp
  • Ferramenta de CLI que recomenda automaticamente LLMs locais adequados ao hardware do usuário com base em benchmarks medidos na prática, não na contagem de parâmetros
  • Detecta automaticamente GPU/CPU/RAM e apresenta um ranking dos melhores modelos do HuggingFace compatíveis com o sistema
    • Suporta NVIDIA, AMD, Apple Silicon e também CPU-only
  • O objetivo principal não é escolher o maior modelo que cabe na VRAM, mas sim o melhor modelo real entre os que cabem
    • Ex.: ao simular uma RTX 4090, mesmo que um modelo 32B caiba, a recomendação em 1º lugar é um modelo 27B de geração mais nova (Qwen3.6-27B)
  • Pontuação combinada de múltiplos benchmarks: integra LiveBench, Artificial Analysis, Aider, multimodal/vision, Chatbot Arena ELO e Open LLM Leaderboard para gerar uma nota de 0 a 100
  • Reconhecimento de modelos recentes (recency-aware): leaderboards antigos sofrem desconto seguindo a linhagem do modelo, impedindo que notas de versões antigas façam um modelo de 2024 ultrapassar modelos da geração atual
  • 5 níveis de classificação de evidência - marcado como direct / variant / base_model / line_interp / self_reported, com desconto de confiabilidade aplicado
    • Também bloqueia auto-relatos falsos de uploaders e a herança entre famílias diferentes, em que forks pequenos tentam tomar emprestada a pontuação de um modelo-base maior
    • Se a contagem de parâmetros diferir em 2x ou mais do membro dominante da família, a herança é recusada
  • Estimativa de VRAM/velocidade com reconhecimento de arquitetura - a VRAM considera pesos + cache KV GQA + ativações + overhead; a velocidade reflete limitação por largura de banda, separa MoE ativo vs total e considera memória unificada vs offload parcial via PCIe
  • Suporte a workflow de comando único com whichllm run, capaz de baixar o modelo e iniciar o chat imediatamente em uma linha
    • Cria ambiente isolado com uv, instala dependências, baixa o modelo e inicia chat interativo automaticamente
    • Suporta todos os formatos GGUF / AWQ / GPTQ / FP16 / BF16
  • Comandos de planejamento de hardware
    • whichllm --gpu "RTX 5090" - simula qualquer GPU para verificar antes da compra
    • whichllm plan "llama 3 70b" - consulta reversa das GPUs necessárias para um modelo específico
    • whichllm upgrade "RTX 4090" "RTX 5090" "H100" - compara a máquina atual com GPUs candidatas
  • Integração com Ollama: permite montar pipelines no formato whichllm --top 1 --json | jq -r '.models[0].model_id'
  • Saída de snippet de código: com whichllm snippet "qwen 7b", fornece código Python pronto para copiar e colar, desde a chamada llama_cpp.Llama.from_pretrained até a conclusão do chat
  • Licença MIT

3 comentários

 
xguru 2026-05-18

Eu recomendaria estes 5. Três deles são da Qwen.

Qwen/Qwen3-Next-80B-A3B-Instruct
Qwen/Qwen3.6-27B
deepseek-ai/DeepSeek-V4-Flash
openai/gpt-oss-120b
Qwen/Qwen3-235B-A22B

 
nezz1204 29 일 전

Eu estava usando o site https://www.canirun.ai/, mas acho que vou ter que experimentar esse também.

 
popopo 29 일 전
╭────────────────────────────────────────────────────── Informações de hardware ───────────────────────────────────────────────────────╮  
│ GPU 0: Strix Halo [Radeon Graphics / Radeon 8050S Graphics / Radeon 8060S Graphics] — memória compartilhada — BW: 256 GB/s       │  
│ CPU: AMD RYZEN AI MAX+ 395 w/ Radeon 8060S — 16 núcleos (AVX2, AVX-512)                                                          │  
│ RAM: 117.5 GB                                                                                                                     │  
│ Espaço livre em disco: 174.1 GB                                                                                                   │  
│ SO: linux                                                                                                                         │  
╰────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╯  
  
                                                 Modelos recomendados  
┏━━━━━┳━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━┳━━━━━━━━┳━━━━━━━━━━━━┳━━━━━━━━━━━┳━━━━━━━┳━━━━━━━━━━┓  
┃   # ┃ Model                                     ┃ Params ┃ Quant  ┃ Published  ┃ Downloads ┃ Score ┃ License  ┃  
┡━━━━━╇━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━╇━━━━━━━━╇━━━━━━━━━━━━╇━━━━━━━━━━━╇━━━━━━━╇━━━━━━━━━━┩  
│   1 │ Qwen/Qwen3-Next-80B-A3B-Instruct          │  81.3B │  Q6_K  │ 2025-09-09 │    336.2K │  94.9 │ apache-… │  
│     │                                           │ (3.0B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   2 │ openai/gpt-oss-120b                       │ 120.4B │  Q6_K  │ 2025-08-04 │      4.7M │  91.9 │ apache-… │  
│     │                                           │ (5.1B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   3 │ Qwen/Qwen3.6-27B                          │  27.8B │ Q3_K_M │ 2026-04-21 │      3.6M │  85.1 │ apache-… │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   4 │ Qwen/Qwen3-30B-A3B                        │  30.0B │  Q6_K  │ 2025-04-27 │      1.7M │  83.5 │ apache-… │  
│     │                                           │ (3.0B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   5 │ google/gemma-4-26B-A4B-it                 │  26.5B │  Q6_K  │ 2026-03-11 │      8.7M │  81.2 │ apache-… │  
│     │                                           │ (3.8B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   6 │ openai/gpt-oss-20b                        │  21.5B │  Q6_K  │ 2025-08-04 │      7.6M │  77.9 │ apache-… │  
│     │                                           │ (3.6B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   7 │ zai-org/GLM-4.7-Flash                     │  31.2B │  Q6_K  │ 2026-01-19 │    742.3K │  77.2 │ mit      │  
│     │                                           │ (12.0… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   8 │ zai-org/GLM-4.5-Air                       │ 110.5B │  Q6_K  │ 2025-07-20 │    384.2K │  75.6 │ mit      │  
│     │                                           │ (12.0… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   9 │ meta-llama/Llama-4-Scout-17B-16E-Instruct │ 109.0B │ Q5_K_M │ 2025-04-02 │    391.1K │  74.7 │ other    │  
│     │                                           │ (17.0… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│  10 │ Qwen/Qwen3-32B                            │  32.0B │ Q5_K_M │ 2025-04-27 │      7.0M │  73.9 │ apache-… │  
└─────┴───────────────────────────────────────────┴────────┴────────┴────────────┴───────────┴───────┴──────────┘  
  Confiança na principal recomendação: Alta (benchmark direto, diferença de +2.9)  
  Referência de benchmark: snapshot curado de 2026-05; AA ao vivo / LiveBench / Aider mesclados quando acessíveis.