CanIRun.ai — Será que meu computador consegue executar modelos de IA?

(canirun.ai)

40 pontos por GN⁺ 2026-03-14 | 1 comentários | Compartilhar no WhatsApp

Ferramenta baseada na web para verificar quais modelos de IA sua máquina local realmente consegue executar
Usa a API WebGPU do navegador para estimar o desempenho do hardware, e os resultados podem diferir das especificações reais
Exibe por modelo requisitos de memória, velocidade de processamento de tokens, tamanho de contexto e classificação de execução (S~F)
Inclui os principais modelos open source e comerciais, como Qwen, Llama, Gemma, Mistral, DeepSeek e GPT-OSS
Permite avaliar rapidamente a viabilidade de executar IA localmente, servindo como referência útil para desenvolvedores e pesquisadores

Visão geral do serviço

CanIRun.ai é um site para explorar modelos de IA que podem ser executados em ambiente local
- Ao abrir o site no navegador, o usuário pode ver uma lista de modelos executáveis com base no desempenho do seu sistema
- Os resultados são estimados via API WebGPU e podem diferir do desempenho real do hardware
Cada modelo é classificado por uma nota de desempenho (S~F), permitindo entender de forma intuitiva a viabilidade e a eficiência de execução

Sistema de classificação dos modelos

As notas são divididas em S, A, B, C, D, F, sendo S a execução mais fluida
- Exemplo: com uma NVIDIA GeForce RTX 4070 12GB
- Qwen 3.5 9B, Llama 3.1 8B e outros aparecem como S (90/100), indicando execução fluida
- Phi-4 14B aparece como A (70/100), ou seja, “funciona bem”
- GPT-OSS 20B, Mistral Small 3.1 24B e outros aparecem como D (34~39/100), ou seja, “praticamente não executável”
- Já Gemma 3 27B, Qwen 3 32B e a maioria dos modelos acima de 27B aparecem como F (0/100), marcados como “pesados demais”

Fonte dos dados e base técnica

Os dados dos modelos são coletados de llama.cpp, Ollama e LM Studio
Em cada página de modelo são exibidos em detalhe uso de memória, tamanho de contexto, velocidade de tokens e tipo de arquitetura (Dense/MoE)

Relevância prática

Fornece material de referência prático para desenvolvedores, pesquisadores e usuários de open source que desejam executar modelos de IA diretamente em ambiente local
Ajuda a definir a escolha do modelo e a estratégia de implantação ao comparar o tamanho e a eficiência do modelo em relação ao desempenho da GPU
Funciona no navegador, com a vantagem de permitir testes imediatos sem instalação

1 comentários

GN⁺ 2026-03-14

Comentários do Hacker News

Nos últimos 2 anos, dediquei uma quantidade enorme de tempo a experimentar modelos locais
Modelos pequenos, como o qwen3.5:9b, foram muito adequados para uso de ferramentas locais, extração de informação e aplicações embarcadas
Para programação, ferramentas baseadas em nuvem como Google Antigravity, gemini-cli ou Anthropic Claude foram mais eficientes
Configurei Emacs e Claude Code localmente e testei por mais de 100 horas, mas não recomendaria isso para usuários comuns
Em vez disso, acho que o ponto ideal é dominar bem modelos locais embarcados, pequenos e práticos
- Recomendo fortemente o qwen3.5:9b
  Esse modelo é pequeno, mas tem capacidade de raciocínio multimodal excelente, e sua estrutura interna de raciocínio (CoT) é estável
  Em especial, a nova estrutura de trade-off entre VRAM e tamanho de contexto é impressionante — ele consegue lidar com 100K tokens com 1.5GB de VRAM, então até uma RTX 3060 pode processar conversas longas ou documentos
- Eu usei o qwen3.5 para ferramentas locais, mas os resultados não foram bons
  Um bot de Discord que funcionava bem com GPT-OSS-120B apresentou no Qwen o problema de apenas imitar chamadas de ferramenta sem executá-las
  No fim, separei: imagens com Qwen, conversa geral com GPT
- Testei o qwen3.5 9b e a taxa de alucinação (hallucination) foi alta
  Ao explorar repositórios de código localmente, 30~50% dos resultados inventavam nomes errados de arquivos ou funções
  Verifiquei com KimiK2 e a maioria estava errada. Modelos pequenos são bons, mas é preciso ter cuidado com a confiabilidade
- Tenho curiosidade sobre como integrar modelos pequenos a fluxos de trabalho reais
  Estou experimentando com ollama em um M4 MacBook Pro (128GB RAM), mas ainda não encontrei um fluxo satisfatório
- Fico pensando se a combinação de um modelo grande para planejamento e um modelo local pequeno para escrita de código funciona bem
  Quero reduzir minha dependência de Claude Code ou Codex
Este site parece estimar o desempenho com base em largura de banda de memória e tamanho do modelo
Mas modelos MoE (como GPT-OSS-20B) não usam todos os parâmetros a cada token, então podem gerar tokens mais rapidamente no mesmo hardware
O GPT-OSS-20B tem 3.6B de parâmetros ativos, então entrega velocidade parecida com um modelo denso de 3~4B, mas a VRAM exigida corresponde ao tamanho total do modelo 20B
Em inteligência, ele é avaliado como algo próximo de um modelo denso de 8.5B
- Na prática, o desempenho dos modelos que testei no meu notebook Strix Halo foi muito melhor que o previsto
  No caso de modelos MoE, a largura de banda de memória deve ser calculada com base apenas nos parâmetros ativos
- Parece que esse cálculo se baseia no tamanho total do contexto
  Mas, no uso real, muitas vezes um contexto menor já é suficiente
  O llama-fit-params do llama.cpp é útil nessas situações
- A documentação também explica isso claramente
  Em modelos MoE como Mixtral 8x7B, apenas cerca de 12.9B de 46.7B ficam ativos
  Ou seja, você pode obter a qualidade de um modelo grande com a velocidade de um pequeno, mas o modelo inteiro ainda precisa permanecer na memória
  documentação do canirun.ai
- Ainda assim, há uma pequena imprecisão
  A velocidade de geração de tokens é parecida, mas a velocidade de prefill é mais lenta em MoEs grandes
  Além disso, ao usar speculative decoding, modelos densos pequenos podem ganhar até 3x de velocidade, enquanto modelos MoE quase não se beneficiam
Tentativas como TFA ou llmfit são boas, mas é frustrante que seja difícil descobrir qual modelo tem a melhor qualidade no meu hardware
Por exemplo, Qwen 3.5 27B Q6 @ 100k context funciona bem, mas a lista de recomendações prioriza o Qwen 2.5 antigo
Para mim, qualquer coisa acima de 50 tok/s já basta, então seria bom poder ordenar por qualidade
- A pergunta é ampla demais
  Por exemplo, “modelo aberto de alta qualidade para programação com 8GB VRAM, 32GB RAM, t/s ≥ 30, context ≥ 32K” seria Qwen2.5-Coder-7B-Instruct
  “Para pesquisa na web com 24GB VRAM, 32GB RAM” seria Qwen3-30B-A3B-Instruct-2507
  “Para embeddings de RAG com 40GB VRAM, 128GB RAM” seria Qwen3-Embedding-8B
  Ou seja, são necessárias recomendações concretas de modelos por hardware
- Tenho curiosidade sobre a eficiência de custo do uso local ($/Mtok)
  Tirando a conta de luz, é quase grátis, mas a velocidade e a qualidade são inferiores
  Talvez a preferência pelo local seja simplesmente por privacidade dos dados
- Esse problema é realmente difícil, e eu também estou pesquisando isso há mais de 1 ano
  Ao tentar otimizar qualidade e alocação de recursos considerando vários dispositivos e modelos ao mesmo tempo, a complexidade explode
  No fim, por enquanto estou fazendo um meio-termo e simplesmente escolhendo o maior modelo quantizado
- No fim, LLM é só uma calculadora especializada
  Não precisa ser exata como uma calculadora comum, e como os objetivos de quem cria o modelo e de quem usa são diferentes, é difícil prever o resultado desejado
Isso parece ser apenas a versão web do llmfit
link do GitHub do llmfit
- Sim. Mas o llmfit é muito mais útil porque detecta automaticamente os recursos do sistema
- Obrigado por compartilhar o link. Na prática, é muito mais útil que o site
  No meu M2 Max MBP (96GB RAM), também aparece que a maioria dos LLMs locais roda bem
  Fiquei surpreso com a quantidade de modelos que podem rodar localmente
Como alternativa mais leve que Docker ou Python, recomendo a stack Rust+Wasm
projeto LlamaEdge
Ele reconheceu bem minha RTX 6000 Pro Max-Q (96GB VRAM), mas na UI aparece como 4GB
Além disso, mostra apenas modelos em resolução completa, sem considerar modelos quantizados
Precisa melhorar
A lista de GPUs móveis é insuficiente, e ele não entende estratégias como memória compartilhada com CPU ou offloading de cache KV
Meu sistema aparece como Arc 750 (2GB RAM compartilhada), mas na verdade é uma RTX1000 Ada (6GB GDDR6)
Qwen3 Coder Next, Devstral Small e Qwen3.5 4B funcionam bem quase em tempo real
Modelos maiores são lentos, mas não há problema de falta de tokens
A ideia é ótima
Mas eu uso um M3 Ultra (256GB RAM), e as opções só vão até 192GB
Também seria bom poder selecionar o modelo e comparar o desempenho por processador
- Infelizmente, a Apple descontinuou o modelo de 512GiB
Foi a primeira vez que percebi que meu navegador fornece automaticamente informações de hardware a sites
- Na prática, isso não é totalmente preciso
  O site me identifica como iPhone 19 Pro, mas na verdade é um iPhone SE de 1ª geração
- No Librewolf mais recente, ele pede permissão para acessar o WebGL
  Parece que detecta o hardware por ali
- Esse tipo de informação é muito usado para fingerprinting de navegador
  Navegadores focados em privacidade fornecem dados aleatórios
- Acho que é assim que companhias aéreas definem preços diferentes conforme o sistema operacional
Parece estranho que não haja diferença de desempenho entre os chips M4 e M5
Também não parece que a quantidade de memória afete o desempenho com modelos grandes
No geral, como isso parece se basear em estimativas, não em dados reais, deveria haver uma marcação “ESTIMATE”
- Nos testes iniciais reais, o M5 Max mostrou melhora de desempenho
  Referência: vídeo sobre o Apple M5 Max

CanIRun.ai — Será que meu computador consegue executar modelos de IA?

Visão geral do serviço

Sistema de classificação dos modelos

Fonte dos dados e base técnica

Relevância prática

Leituras relacionadas

1 comentários

Comentários do Hacker News