whichllm - encontre LLMs locais que realmente rodam e entregam o melhor desempenho no seu hardware
(github.com/Andyyyy64)- Ferramenta de CLI que recomenda automaticamente LLMs locais adequados ao hardware do usuário com base em benchmarks medidos na prática, não na contagem de parâmetros
- Detecta automaticamente GPU/CPU/RAM e apresenta um ranking dos melhores modelos do HuggingFace compatíveis com o sistema
- Suporta NVIDIA, AMD, Apple Silicon e também CPU-only
- O objetivo principal não é escolher o maior modelo que cabe na VRAM, mas sim o melhor modelo real entre os que cabem
- Ex.: ao simular uma RTX 4090, mesmo que um modelo 32B caiba, a recomendação em 1º lugar é um modelo 27B de geração mais nova (Qwen3.6-27B)
- Pontuação combinada de múltiplos benchmarks: integra LiveBench, Artificial Analysis, Aider, multimodal/vision, Chatbot Arena ELO e Open LLM Leaderboard para gerar uma nota de 0 a 100
- Reconhecimento de modelos recentes (recency-aware): leaderboards antigos sofrem desconto seguindo a linhagem do modelo, impedindo que notas de versões antigas façam um modelo de 2024 ultrapassar modelos da geração atual
- 5 níveis de classificação de evidência - marcado como
direct/variant/base_model/line_interp/self_reported, com desconto de confiabilidade aplicado- Também bloqueia auto-relatos falsos de uploaders e a herança entre famílias diferentes, em que forks pequenos tentam tomar emprestada a pontuação de um modelo-base maior
- Se a contagem de parâmetros diferir em 2x ou mais do membro dominante da família, a herança é recusada
- Estimativa de VRAM/velocidade com reconhecimento de arquitetura - a VRAM considera pesos + cache KV GQA + ativações + overhead; a velocidade reflete limitação por largura de banda, separa MoE ativo vs total e considera memória unificada vs offload parcial via PCIe
- Suporte a workflow de comando único com
whichllm run, capaz de baixar o modelo e iniciar o chat imediatamente em uma linha- Cria ambiente isolado com
uv, instala dependências, baixa o modelo e inicia chat interativo automaticamente - Suporta todos os formatos GGUF / AWQ / GPTQ / FP16 / BF16
- Cria ambiente isolado com
- Comandos de planejamento de hardware
whichllm --gpu "RTX 5090"- simula qualquer GPU para verificar antes da comprawhichllm plan "llama 3 70b"- consulta reversa das GPUs necessárias para um modelo específicowhichllm upgrade "RTX 4090" "RTX 5090" "H100"- compara a máquina atual com GPUs candidatas
- Integração com Ollama: permite montar pipelines no formato
whichllm --top 1 --json | jq -r '.models[0].model_id' - Saída de snippet de código: com
whichllm snippet "qwen 7b", fornece código Python pronto para copiar e colar, desde a chamadallama_cpp.Llama.from_pretrainedaté a conclusão do chat - Licença MIT
3 comentários
Eu recomendaria estes 5. Três deles são da Qwen.
Qwen/Qwen3-Next-80B-A3B-Instruct
Qwen/Qwen3.6-27B
deepseek-ai/DeepSeek-V4-Flash
openai/gpt-oss-120b
Qwen/Qwen3-235B-A22B
Eu estava usando o site https://www.canirun.ai/, mas acho que vou ter que experimentar esse também.