40 pontos por GN⁺ 2026-03-14 | 1 comentários | Compartilhar no WhatsApp
  • Ferramenta baseada na web para verificar quais modelos de IA sua máquina local realmente consegue executar
  • Usa a API WebGPU do navegador para estimar o desempenho do hardware, e os resultados podem diferir das especificações reais
  • Exibe por modelo requisitos de memória, velocidade de processamento de tokens, tamanho de contexto e classificação de execução (S~F)
  • Inclui os principais modelos open source e comerciais, como Qwen, Llama, Gemma, Mistral, DeepSeek e GPT-OSS
  • Permite avaliar rapidamente a viabilidade de executar IA localmente, servindo como referência útil para desenvolvedores e pesquisadores

Visão geral do serviço

  • CanIRun.ai é um site para explorar modelos de IA que podem ser executados em ambiente local
    • Ao abrir o site no navegador, o usuário pode ver uma lista de modelos executáveis com base no desempenho do seu sistema
    • Os resultados são estimados via API WebGPU e podem diferir do desempenho real do hardware
  • Cada modelo é classificado por uma nota de desempenho (S~F), permitindo entender de forma intuitiva a viabilidade e a eficiência de execução

Sistema de classificação dos modelos

  • As notas são divididas em S, A, B, C, D, F, sendo S a execução mais fluida
    • Exemplo: com uma NVIDIA GeForce RTX 4070 12GB
    • Qwen 3.5 9B, Llama 3.1 8B e outros aparecem como S (90/100), indicando execução fluida
    • Phi-4 14B aparece como A (70/100), ou seja, “funciona bem”
    • GPT-OSS 20B, Mistral Small 3.1 24B e outros aparecem como D (34~39/100), ou seja, “praticamente não executável”
    • Já Gemma 3 27B, Qwen 3 32B e a maioria dos modelos acima de 27B aparecem como F (0/100), marcados como “pesados demais”

Fonte dos dados e base técnica

  • Os dados dos modelos são coletados de llama.cpp, Ollama e LM Studio
  • Em cada página de modelo são exibidos em detalhe uso de memória, tamanho de contexto, velocidade de tokens e tipo de arquitetura (Dense/MoE)

Relevância prática

  • Fornece material de referência prático para desenvolvedores, pesquisadores e usuários de open source que desejam executar modelos de IA diretamente em ambiente local
  • Ajuda a definir a escolha do modelo e a estratégia de implantação ao comparar o tamanho e a eficiência do modelo em relação ao desempenho da GPU
  • Funciona no navegador, com a vantagem de permitir testes imediatos sem instalação

1 comentários

 
GN⁺ 2026-03-14
Comentários do Hacker News
  • Nos últimos 2 anos, dediquei uma quantidade enorme de tempo a experimentar modelos locais
    Modelos pequenos, como o qwen3.5:9b, foram muito adequados para uso de ferramentas locais, extração de informação e aplicações embarcadas
    Para programação, ferramentas baseadas em nuvem como Google Antigravity, gemini-cli ou Anthropic Claude foram mais eficientes
    Configurei Emacs e Claude Code localmente e testei por mais de 100 horas, mas não recomendaria isso para usuários comuns
    Em vez disso, acho que o ponto ideal é dominar bem modelos locais embarcados, pequenos e práticos

    • Recomendo fortemente o qwen3.5:9b
      Esse modelo é pequeno, mas tem capacidade de raciocínio multimodal excelente, e sua estrutura interna de raciocínio (CoT) é estável
      Em especial, a nova estrutura de trade-off entre VRAM e tamanho de contexto é impressionante — ele consegue lidar com 100K tokens com 1.5GB de VRAM, então até uma RTX 3060 pode processar conversas longas ou documentos
    • Eu usei o qwen3.5 para ferramentas locais, mas os resultados não foram bons
      Um bot de Discord que funcionava bem com GPT-OSS-120B apresentou no Qwen o problema de apenas imitar chamadas de ferramenta sem executá-las
      No fim, separei: imagens com Qwen, conversa geral com GPT
    • Testei o qwen3.5 9b e a taxa de alucinação (hallucination) foi alta
      Ao explorar repositórios de código localmente, 30~50% dos resultados inventavam nomes errados de arquivos ou funções
      Verifiquei com KimiK2 e a maioria estava errada. Modelos pequenos são bons, mas é preciso ter cuidado com a confiabilidade
    • Tenho curiosidade sobre como integrar modelos pequenos a fluxos de trabalho reais
      Estou experimentando com ollama em um M4 MacBook Pro (128GB RAM), mas ainda não encontrei um fluxo satisfatório
    • Fico pensando se a combinação de um modelo grande para planejamento e um modelo local pequeno para escrita de código funciona bem
      Quero reduzir minha dependência de Claude Code ou Codex
  • Este site parece estimar o desempenho com base em largura de banda de memória e tamanho do modelo
    Mas modelos MoE (como GPT-OSS-20B) não usam todos os parâmetros a cada token, então podem gerar tokens mais rapidamente no mesmo hardware
    O GPT-OSS-20B tem 3.6B de parâmetros ativos, então entrega velocidade parecida com um modelo denso de 3~4B, mas a VRAM exigida corresponde ao tamanho total do modelo 20B
    Em inteligência, ele é avaliado como algo próximo de um modelo denso de 8.5B

    • Na prática, o desempenho dos modelos que testei no meu notebook Strix Halo foi muito melhor que o previsto
      No caso de modelos MoE, a largura de banda de memória deve ser calculada com base apenas nos parâmetros ativos
    • Parece que esse cálculo se baseia no tamanho total do contexto
      Mas, no uso real, muitas vezes um contexto menor já é suficiente
      O llama-fit-params do llama.cpp é útil nessas situações
    • A documentação também explica isso claramente
      Em modelos MoE como Mixtral 8x7B, apenas cerca de 12.9B de 46.7B ficam ativos
      Ou seja, você pode obter a qualidade de um modelo grande com a velocidade de um pequeno, mas o modelo inteiro ainda precisa permanecer na memória
      documentação do canirun.ai
    • Ainda assim, há uma pequena imprecisão
      A velocidade de geração de tokens é parecida, mas a velocidade de prefill é mais lenta em MoEs grandes
      Além disso, ao usar speculative decoding, modelos densos pequenos podem ganhar até 3x de velocidade, enquanto modelos MoE quase não se beneficiam
  • Tentativas como TFA ou llmfit são boas, mas é frustrante que seja difícil descobrir qual modelo tem a melhor qualidade no meu hardware
    Por exemplo, Qwen 3.5 27B Q6 @ 100k context funciona bem, mas a lista de recomendações prioriza o Qwen 2.5 antigo
    Para mim, qualquer coisa acima de 50 tok/s já basta, então seria bom poder ordenar por qualidade

    • A pergunta é ampla demais
      Por exemplo, “modelo aberto de alta qualidade para programação com 8GB VRAM, 32GB RAM, t/s ≥ 30, context ≥ 32K” seria Qwen2.5-Coder-7B-Instruct
      “Para pesquisa na web com 24GB VRAM, 32GB RAM” seria Qwen3-30B-A3B-Instruct-2507
      “Para embeddings de RAG com 40GB VRAM, 128GB RAM” seria Qwen3-Embedding-8B
      Ou seja, são necessárias recomendações concretas de modelos por hardware
    • Tenho curiosidade sobre a eficiência de custo do uso local ($/Mtok)
      Tirando a conta de luz, é quase grátis, mas a velocidade e a qualidade são inferiores
      Talvez a preferência pelo local seja simplesmente por privacidade dos dados
    • Esse problema é realmente difícil, e eu também estou pesquisando isso há mais de 1 ano
      Ao tentar otimizar qualidade e alocação de recursos considerando vários dispositivos e modelos ao mesmo tempo, a complexidade explode
      No fim, por enquanto estou fazendo um meio-termo e simplesmente escolhendo o maior modelo quantizado
    • No fim, LLM é só uma calculadora especializada
      Não precisa ser exata como uma calculadora comum, e como os objetivos de quem cria o modelo e de quem usa são diferentes, é difícil prever o resultado desejado
  • Isso parece ser apenas a versão web do llmfit
    link do GitHub do llmfit

    • Sim. Mas o llmfit é muito mais útil porque detecta automaticamente os recursos do sistema
    • Obrigado por compartilhar o link. Na prática, é muito mais útil que o site
      No meu M2 Max MBP (96GB RAM), também aparece que a maioria dos LLMs locais roda bem
      Fiquei surpreso com a quantidade de modelos que podem rodar localmente
  • Como alternativa mais leve que Docker ou Python, recomendo a stack Rust+Wasm
    projeto LlamaEdge

  • Ele reconheceu bem minha RTX 6000 Pro Max-Q (96GB VRAM), mas na UI aparece como 4GB
    Além disso, mostra apenas modelos em resolução completa, sem considerar modelos quantizados
    Precisa melhorar

  • A lista de GPUs móveis é insuficiente, e ele não entende estratégias como memória compartilhada com CPU ou offloading de cache KV
    Meu sistema aparece como Arc 750 (2GB RAM compartilhada), mas na verdade é uma RTX1000 Ada (6GB GDDR6)
    Qwen3 Coder Next, Devstral Small e Qwen3.5 4B funcionam bem quase em tempo real
    Modelos maiores são lentos, mas não há problema de falta de tokens

  • A ideia é ótima
    Mas eu uso um M3 Ultra (256GB RAM), e as opções só vão até 192GB
    Também seria bom poder selecionar o modelo e comparar o desempenho por processador

    • Infelizmente, a Apple descontinuou o modelo de 512GiB
  • Foi a primeira vez que percebi que meu navegador fornece automaticamente informações de hardware a sites

    • Na prática, isso não é totalmente preciso
      O site me identifica como iPhone 19 Pro, mas na verdade é um iPhone SE de 1ª geração
    • No Librewolf mais recente, ele pede permissão para acessar o WebGL
      Parece que detecta o hardware por ali
    • Esse tipo de informação é muito usado para fingerprinting de navegador
      Navegadores focados em privacidade fornecem dados aleatórios
    • Acho que é assim que companhias aéreas definem preços diferentes conforme o sistema operacional
  • Parece estranho que não haja diferença de desempenho entre os chips M4 e M5
    Também não parece que a quantidade de memória afete o desempenho com modelos grandes
    No geral, como isso parece se basear em estimativas, não em dados reais, deveria haver uma marcação “ESTIMATE”