- Ferramenta baseada na web para verificar quais modelos de IA sua máquina local realmente consegue executar
- Usa a API WebGPU do navegador para estimar o desempenho do hardware, e os resultados podem diferir das especificações reais
- Exibe por modelo requisitos de memória, velocidade de processamento de tokens, tamanho de contexto e classificação de execução (S~F)
- Inclui os principais modelos open source e comerciais, como Qwen, Llama, Gemma, Mistral, DeepSeek e GPT-OSS
- Permite avaliar rapidamente a viabilidade de executar IA localmente, servindo como referência útil para desenvolvedores e pesquisadores
Visão geral do serviço
- CanIRun.ai é um site para explorar modelos de IA que podem ser executados em ambiente local
- Ao abrir o site no navegador, o usuário pode ver uma lista de modelos executáveis com base no desempenho do seu sistema
- Os resultados são estimados via API WebGPU e podem diferir do desempenho real do hardware
- Cada modelo é classificado por uma nota de desempenho (S~F), permitindo entender de forma intuitiva a viabilidade e a eficiência de execução
Sistema de classificação dos modelos
- As notas são divididas em S, A, B, C, D, F, sendo S a execução mais fluida
- Exemplo: com uma NVIDIA GeForce RTX 4070 12GB
- Qwen 3.5 9B, Llama 3.1 8B e outros aparecem como S (90/100), indicando execução fluida
- Phi-4 14B aparece como A (70/100), ou seja, “funciona bem”
- GPT-OSS 20B, Mistral Small 3.1 24B e outros aparecem como D (34~39/100), ou seja, “praticamente não executável”
- Já Gemma 3 27B, Qwen 3 32B e a maioria dos modelos acima de 27B aparecem como F (0/100), marcados como “pesados demais”
Fonte dos dados e base técnica
- Os dados dos modelos são coletados de llama.cpp, Ollama e LM Studio
- Em cada página de modelo são exibidos em detalhe uso de memória, tamanho de contexto, velocidade de tokens e tipo de arquitetura (Dense/MoE)
Relevância prática
- Fornece material de referência prático para desenvolvedores, pesquisadores e usuários de open source que desejam executar modelos de IA diretamente em ambiente local
- Ajuda a definir a escolha do modelo e a estratégia de implantação ao comparar o tamanho e a eficiência do modelo em relação ao desempenho da GPU
- Funciona no navegador, com a vantagem de permitir testes imediatos sem instalação
1 comentários
Comentários do Hacker News
Nos últimos 2 anos, dediquei uma quantidade enorme de tempo a experimentar modelos locais
Modelos pequenos, como o qwen3.5:9b, foram muito adequados para uso de ferramentas locais, extração de informação e aplicações embarcadas
Para programação, ferramentas baseadas em nuvem como Google Antigravity, gemini-cli ou Anthropic Claude foram mais eficientes
Configurei Emacs e Claude Code localmente e testei por mais de 100 horas, mas não recomendaria isso para usuários comuns
Em vez disso, acho que o ponto ideal é dominar bem modelos locais embarcados, pequenos e práticos
Esse modelo é pequeno, mas tem capacidade de raciocínio multimodal excelente, e sua estrutura interna de raciocínio (CoT) é estável
Em especial, a nova estrutura de trade-off entre VRAM e tamanho de contexto é impressionante — ele consegue lidar com 100K tokens com 1.5GB de VRAM, então até uma RTX 3060 pode processar conversas longas ou documentos
Um bot de Discord que funcionava bem com GPT-OSS-120B apresentou no Qwen o problema de apenas imitar chamadas de ferramenta sem executá-las
No fim, separei: imagens com Qwen, conversa geral com GPT
Ao explorar repositórios de código localmente, 30~50% dos resultados inventavam nomes errados de arquivos ou funções
Verifiquei com KimiK2 e a maioria estava errada. Modelos pequenos são bons, mas é preciso ter cuidado com a confiabilidade
Estou experimentando com ollama em um M4 MacBook Pro (128GB RAM), mas ainda não encontrei um fluxo satisfatório
Quero reduzir minha dependência de Claude Code ou Codex
Este site parece estimar o desempenho com base em largura de banda de memória e tamanho do modelo
Mas modelos MoE (como GPT-OSS-20B) não usam todos os parâmetros a cada token, então podem gerar tokens mais rapidamente no mesmo hardware
O GPT-OSS-20B tem 3.6B de parâmetros ativos, então entrega velocidade parecida com um modelo denso de 3~4B, mas a VRAM exigida corresponde ao tamanho total do modelo 20B
Em inteligência, ele é avaliado como algo próximo de um modelo denso de 8.5B
No caso de modelos MoE, a largura de banda de memória deve ser calculada com base apenas nos parâmetros ativos
Mas, no uso real, muitas vezes um contexto menor já é suficiente
O llama-fit-params do llama.cpp é útil nessas situações
Em modelos MoE como Mixtral 8x7B, apenas cerca de 12.9B de 46.7B ficam ativos
Ou seja, você pode obter a qualidade de um modelo grande com a velocidade de um pequeno, mas o modelo inteiro ainda precisa permanecer na memória
documentação do canirun.ai
A velocidade de geração de tokens é parecida, mas a velocidade de prefill é mais lenta em MoEs grandes
Além disso, ao usar speculative decoding, modelos densos pequenos podem ganhar até 3x de velocidade, enquanto modelos MoE quase não se beneficiam
Tentativas como TFA ou llmfit são boas, mas é frustrante que seja difícil descobrir qual modelo tem a melhor qualidade no meu hardware
Por exemplo, Qwen 3.5 27B Q6 @ 100k context funciona bem, mas a lista de recomendações prioriza o Qwen 2.5 antigo
Para mim, qualquer coisa acima de 50 tok/s já basta, então seria bom poder ordenar por qualidade
Por exemplo, “modelo aberto de alta qualidade para programação com 8GB VRAM, 32GB RAM, t/s ≥ 30, context ≥ 32K” seria Qwen2.5-Coder-7B-Instruct
“Para pesquisa na web com 24GB VRAM, 32GB RAM” seria Qwen3-30B-A3B-Instruct-2507
“Para embeddings de RAG com 40GB VRAM, 128GB RAM” seria Qwen3-Embedding-8B
Ou seja, são necessárias recomendações concretas de modelos por hardware
Tirando a conta de luz, é quase grátis, mas a velocidade e a qualidade são inferiores
Talvez a preferência pelo local seja simplesmente por privacidade dos dados
Ao tentar otimizar qualidade e alocação de recursos considerando vários dispositivos e modelos ao mesmo tempo, a complexidade explode
No fim, por enquanto estou fazendo um meio-termo e simplesmente escolhendo o maior modelo quantizado
Não precisa ser exata como uma calculadora comum, e como os objetivos de quem cria o modelo e de quem usa são diferentes, é difícil prever o resultado desejado
Isso parece ser apenas a versão web do llmfit
link do GitHub do llmfit
No meu M2 Max MBP (96GB RAM), também aparece que a maioria dos LLMs locais roda bem
Fiquei surpreso com a quantidade de modelos que podem rodar localmente
Como alternativa mais leve que Docker ou Python, recomendo a stack Rust+Wasm
projeto LlamaEdge
Ele reconheceu bem minha RTX 6000 Pro Max-Q (96GB VRAM), mas na UI aparece como 4GB
Além disso, mostra apenas modelos em resolução completa, sem considerar modelos quantizados
Precisa melhorar
A lista de GPUs móveis é insuficiente, e ele não entende estratégias como memória compartilhada com CPU ou offloading de cache KV
Meu sistema aparece como Arc 750 (2GB RAM compartilhada), mas na verdade é uma RTX1000 Ada (6GB GDDR6)
Qwen3 Coder Next, Devstral Small e Qwen3.5 4B funcionam bem quase em tempo real
Modelos maiores são lentos, mas não há problema de falta de tokens
A ideia é ótima
Mas eu uso um M3 Ultra (256GB RAM), e as opções só vão até 192GB
Também seria bom poder selecionar o modelo e comparar o desempenho por processador
Foi a primeira vez que percebi que meu navegador fornece automaticamente informações de hardware a sites
O site me identifica como iPhone 19 Pro, mas na verdade é um iPhone SE de 1ª geração
Parece que detecta o hardware por ali
Navegadores focados em privacidade fornecem dados aleatórios
Parece estranho que não haja diferença de desempenho entre os chips M4 e M5
Também não parece que a quantidade de memória afete o desempenho com modelos grandes
No geral, como isso parece se basear em estimativas, não em dados reais, deveria haver uma marcação “ESTIMATE”
Referência: vídeo sobre o Apple M5 Max