llmfit - ferramenta de terminal que encontra e otimiza automaticamente o modelo LLM ideal para o seu hardware

(github.com/AlexsJones)

28 pontos por GN⁺ 2026-03-03 | 1 comentários | Compartilhar no WhatsApp

Ferramenta que, entre centenas de modelos e provedores de LLM, encontra com um único comando os modelos que realmente podem rodar na RAM, CPU e GPU do seu sistema
Pontua cada modelo por qualidade, velocidade, adequação e contexto, indicando se ele é executável, com suporte tanto a TUI (interface de terminal) quanto a modo CLI
Suporta múltiplas GPUs, arquitetura MoE, quantização dinâmica, estimativa de velocidade e integração com runtimes locais (Ollama, llama.cpp, MLX)
Analisa, para cada modelo, os modos de execução (GPU, CPU+GPU, CPU) e os níveis de adequação (Perfect, Good, Marginal, Too Tight) para sugerir a melhor combinação
Oferece automação da escolha de modelos com base no hardware para desenvolvedores que querem usar LLMs com eficiência em ambiente local

Visão geral dos principais recursos

llmfit é uma ferramenta de terminal que detecta as especificações de hardware do sistema e avalia se um modelo LLM pode realmente ser executado
- Lê informações de RAM, CPU e GPU para calcular, por modelo, pontuações de qualidade, velocidade, adequação e contexto
- Os resultados são exibidos em uma TUI interativa ou em formato CLI tradicional
Suporte a múltiplas GPUs, Mixture-of-Experts (MoE), seleção dinâmica de quantização, estimativa de velocidade e integração com runtimes locais
Suporta Ollama, llama.cpp e MLX como runtimes locais, com detecção automática de modelos instalados e possibilidade de download
Com o modo Plan, é possível calcular de forma inversa o hardware mínimo e o recomendado para um modelo específico
Funciona em diversas plataformas, incluindo macOS, Linux, Windows e Ascend

Instalação e execução

No macOS/Linux, pode ser instalado com brew install llmfit ou curl -fsSL https://llmfit.axjns.dev/install.sh | sh
No Windows, a instalação pode ser feita com cargo install llmfit
Ao executar o comando llmfit, a TUI é aberta exibindo as especificações do sistema e a lista de modelos
No modo CLI, são oferecidos vários subcomandos, como llmfit --cli, llmfit fit --perfect -n 5 e llmfit recommend --json

Como funciona

Detecção de hardware: coleta informações de RAM, CPU e GPU usando sysinfo, nvidia-smi, rocm-smi, system_profiler etc.
Banco de dados de modelos: obtém centenas de modelos via API do HuggingFace e os armazena em data/hf_models.json
- Inclui modelos importantes como Meta Llama, Mistral, Qwen, Google Gemma, Microsoft Phi, DeepSeek e IBM Granite
Quantização dinâmica: percorre níveis de Q8_0 a Q2_K e seleciona automaticamente a quantização de maior qualidade dentro da memória disponível
Estimativa de velocidade: usa a fórmula baseada na largura de banda da memória da GPU (bandwidth_GB_s / model_size_GB) × 0.55
- Inclui uma tabela interna de largura de banda para cerca de 80 GPUs
Análise de adequação: avalia a possibilidade de execução e a margem de memória nos modos GPU, CPU+GPU e CPU

Interface do usuário

Teclas de controle da TUI:
- f para filtro de adequação, a para filtro de disponibilidade, s para alterar o critério de ordenação
- p para entrar no modo Plan, d para baixar modelo, t para mudar o tema
No modo Plan, é possível ajustar comprimento de contexto, quantização, velocidade-alvo de tokens etc. para calcular VRAM/RAM/CPU necessários
Temas: oferece 6 temas de cores integrados, incluindo Default, Dracula, Solarized, Nord, Monokai e Gruvbox

Runtime e recursos de integração

Integração com Ollama: conecta-se a instâncias locais ou remotas do Ollama (variável de ambiente OLLAMA_HOST) para detectar modelos instalados e fazer downloads
Integração com llama.cpp: baixa arquivos GGUF do HuggingFace para o cache local e indica se estão instalados
Integração com MLX: suporte a cache de modelos e integração com servidor para Apple Silicon
Integração com OpenClaw: por meio da skill llmfit-advisor, o agente OpenClaw recomenda e configura automaticamente modelos adequados ao hardware

Gerenciamento do banco de dados de modelos

O script scripts/scrape_hf_models.py gera automaticamente a lista de modelos a partir da API do HuggingFace
O comando make update-models atualiza os dados e recompila o binário
Os modelos são classificados em categorias como geral, coding, reasoning, multimodal, chat e embedding
O cache de fontes GGUF (data/gguf_sources_cache.json) armazena em cache por 7 dias os caminhos de download

Suporte de plataforma

Linux/macOS (Apple Silicon): suporte completo
Windows: suporte a detecção de RAM/CPU e GPU NVIDIA (nvidia-smi)
Em caso de falha na detecção de GPU, é possível definir manualmente a VRAM com a opção --memory=

Licença

Licença MIT

1 comentários

GN⁺ 2026-03-03

Comentários no Hacker News

Este projeto parece bem legal e útil, mas eu preferiria que fosse um site
Fico receoso de rodar um executável. Acho que esse tipo de funcionalidade daria para implementar tranquilamente na web
- Esta ferramenta depende de detecção de hardware, então há limitações na web
  Segundo a explicação no GitHub, ela precisa ler em nível de sistema a quantidade de RAM, número de GPUs e o tipo de backend (CUDA, Metal etc.)
  Por causa das restrições de sandbox do navegador, o JavaScript não consegue acessar diretamente esse tipo de informação
  Para criar uma versão web, seria preciso que o usuário enviasse um relatório do .spx no macOS ou do inxi no Linux, ou então selecionasse manualmente a configuração de hardware
  Essa abordagem é menos conveniente, mas tem a vantagem de permitir testar combinações de hardware hipotéticas
- O Hugging Face também oferece algo parecido, mas exige inserir manualmente as informações de hardware
  Na verdade, acho raro que alguém rodando modelos locais não saiba qual hardware tem
- Vi recentemente um site chamado whatmodelscanirun.com, pode servir de referência
- O Hugging Face também já tem uma funcionalidade embutida
- Também existe o site de banco de dados de modelos LLM baseado na comunidade inferbench.com. Ele compartilha velocidade em tokens e informações de configuração
Este projeto é realmente excelente
Na prática, tudo de que se precisa é do tamanho do LLM e da largura de banda da memória
Dá para determinar se o modelo cabe com uma fórmula simples
Por exemplo, para rodar um modelo 32B em 4bit, são necessários pelo menos 16GB de VRAM
Se calcular com tok/s = memory_bandwidth / llm_size, uma RTX3090 (960GB/s) dá algo em torno de 60 tok/s
Em modelos MoE, o número de parâmetros ativos é o que determina a velocidade
Se acrescentar uma margem de uns 10%, vira uma estimativa realista
- O cache KV é fácil de fazer swap porque há poucas gravações por token
  Se você carregar os parâmetros do modelo com mmap, dá para escalar sem perda de desempenho quando há RAM suficiente
- É uma boa regra prática. Mas, na maioria dos casos, conforme o tamanho da janela de contexto aumenta, o uso de RAM cresce exponencialmente
- Eu não conhecia essa fórmula, obrigado por compartilhar
Visualmente é legal, mas no meu computador o Qwen 3.5 roda bem e a ferramenta diz que não é possível
No fim, parece que esse tipo de ferramenta só dá para usar como referência aproximada
Se aplicar ajustes customizados como os do Unsloth, na prática dá para rodar ainda mais modelos
Os modelos estão saindo rápido demais, então imagino que também não seja fácil fazer a manutenção
- Talvez esteja acontecendo swap entre disco e RAM
  Esse tipo de abordagem pode reduzir a vida útil do disco no longo prazo
A ideia é boa, mas os modelos recomendados estão meio desatualizados
Ele recomenda Qwen 2.5 ou Starcoder 2 para o meu M4 MacBook Pro (128GB RAM)
Como várias pessoas já disseram, isso seria melhor como site do que como ferramenta CLI
Basta colocar CPU, RAM e especificações da GPU em um formulário para fazer o cálculo
Não entendo por que precisa baixar e executar isso
Seria melhor apenas selecionar as especificações em menus suspensos e ver o resultado
Cobre bem a maioria dos casos, mas em situações como iGPU da AMD, onde ROCm não é compatível, ainda dá para rodar com base em Vulkan
Com configurações de driver para usar a RAM do sistema como se fosse VRAM, dá para carregar modelos que normalmente seriam impossíveis
Isso é especialmente útil para offload de camadas ou modelos MoE quantizados
O Claude também faz recomendações bem razoáveis de modelos se você inserir as especificações do sistema
- Eu também perguntei ao Claude “qual é o melhor LLM local que posso rodar neste computador?”, e ele recomendou o modelo que eu já tinha instalado mais outro
  Não tenho certeza se a informação estava atualizada. Testei com base em Ollama e LM Studio
Eu costumo pedir ao Claude ou ao Codex para testar vários modelos em sequência com Ollama e avaliar o desempenho automaticamente
Em uns 30 minutos dá para encontrar um modelo adequado ao meu sistema
- Fiquei curioso para saber se você poderia compartilhar esse prompt

llmfit - ferramenta de terminal que encontra e otimiza automaticamente o modelo LLM ideal para o seu hardware

Visão geral dos principais recursos

Instalação e execução

Como funciona

Interface do usuário

Runtime e recursos de integração

Gerenciamento do banco de dados de modelos

Suporte de plataforma

Licença

Leituras relacionadas

1 comentários

Comentários no Hacker News