Sistema local de IA para segurança com MacBook M5 Pro e Qwen3.5

(sharpai.org)

3 pontos por GN⁺ 2026-03-21 | 1 comentários | Compartilhar no WhatsApp

O modelo Qwen3.5-9B roda de forma totalmente local no MacBook Pro M5 e registrou 93,8% de desempenho, 4 pontos abaixo do GPT-5.4
O HomeSec-Bench, composto por 96 testes e 15 suítes, avalia fluxos reais de segurança residencial, como uso de ferramentas, classificação de segurança e deduplicação de eventos
O Qwen3.5-35B-MoE tem TTFT de 435 ms, mais rápido que todos os modelos em nuvem da OpenAI, com uso de memória GPU em torno de 27,2 GB
A execução local não tem custo de API e garante total privacidade dos dados, além de permitir visualização em tempo real no Apple Silicon
Com o sistema Aegis-AI e a plataforma DeepCamera, torna-se viável um ecossistema de IA para segurança residencial com prioridade local baseado em hardware de consumo

Comparação de desempenho entre IA local e nuvem

O modelo Qwen3.5-9B roda de forma totalmente local no MacBook Pro M5 e alcançou 93,8% de taxa de aprovação, ficando 4 pontos abaixo do GPT-5.4
- Velocidade de processamento de 25 tokens por segundo, TTFT (Time to First Token) de 765 ms e uso de 13,8 GB de memória unificada
- Sem custo de API e com privacidade dos dados totalmente garantida
Em um benchmark composto por 96 testes e 15 suítes, foram avaliados fluxos reais de segurança residencial, como uso de ferramentas, classificação de segurança e deduplicação de eventos
No leaderboard, GPT-5.4 (97,9%) ficou em 1º, GPT-5.4-mini (95,8%) em 2º, e Qwen3.5-9B e 27B (93,8%) empataram em 3º
- O Qwen3.5-9B ficou 1 ponto acima do GPT-5.4-nano (92,7%)
O Qwen3.5-35B-MoE tem TTFT de 435 ms, mais rápido que todos os modelos em nuvem da OpenAI
- GPT-5.4-nano 508 ms, GPT-5.4-mini 553 ms, GPT-5.4 601 ms
- Em velocidade de decodificação, o GPT-5.4-mini foi o mais rápido com 234,5 tok/s, enquanto o Qwen3.5-9B ficou em 25 tok/s
- Uso de memória GPU: Qwen3.5-9B 13,8 GB, Qwen3.5-35B-MoE 27,2 GB, Qwen3.5-122B-MoE 40,8 GB

Visão geral do HomeSec-Bench

O HomeSec-Bench é um benchmark de LLM para avaliar fluxos reais de assistentes de segurança residencial
- Em vez de apenas conversação simples, verifica capacidades necessárias para sistemas de segurança, como raciocínio, classificação e uso de ferramentas
- Usa 35 imagens geradas por IA e pode ser executado em endpoints compatíveis com OpenAI
Principais suítes de teste (total de 15)
- Context Preprocessing (6): remoção de duplicação em conversas, manutenção de mensagens de sistema
- Topic Classification (4): roteamento de domínio das consultas
- Knowledge Distillation (5): extração de fatos persistentes da conversa
- Event Deduplication (8): identificação da mesma pessoa entre várias câmeras
- Tool Use (16): seleção correta de ferramentas e parâmetros
- Chat & JSON Compliance (11): persona, saída em JSON, suporte multilíngue
- Security Classification (12): classificação em etapas de Normal → Monitor → Suspicious → Critical
- Narrative Synthesis (4): resumo de logs de eventos
- Prompt Injection Resistance (4): prevenção de confusão de papéis, extração de prompt e elevação de privilégios
- Multi-Turn Reasoning (4): interpretação de referências, manutenção da continuidade temporal
- Error Recovery (4): tratamento de consultas impossíveis e erros de API
- Privacy & Compliance (3): desidentificação de dados pessoais, recusa a vigilância ilegal
- Alert Routing (5): roteamento de canais de alerta, parsing de horários silenciosos
- Knowledge Injection (5): personalização de respostas com conhecimento injetado
- VLM-to-Alert Triage (5): saída de visão → avaliação de urgência → envio de alerta
Perguntas centrais da avaliação
- Consegue selecionar as ferramentas e parâmetros corretos?
- Consegue classificar “uma pessoa usando máscara à noite” como Critical?
- Consegue resistir a prompt injection em descrições de eventos?
- Consegue reconhecer a mesma pessoa em 3 câmeras sem duplicação?
- Consegue manter o contexto de segurança em conversas multi-turn?

O valor da IA local

É possível visualizar a execução do benchmark em tempo real no Apple Silicon
O modelo 9B alcança desempenho dentro de 4% do GPT-5.4 mesmo offline
Garantia total de privacidade e custo zero de API são os principais valores da IA local

Configuração do sistema

System: Aegis-AI — IA para segurança residencial com prioridade local baseada em hardware de consumo
Benchmark: HomeSec-Bench — 96 testes LLM + 35 VLM, composto por 16 suítes
Skill Platform: DeepCamera — ecossistema distribuído de skills de IA

1 comentários

GN⁺ 2026-03-21

Comentários do Hacker News

Há tempos imagino que um dia, quando uma família comprar uma casa ou eletrodomésticos, também vai comprar junto um servidor de IA
Como o ritmo de evolução do hardware está desacelerando, parece que bastaria comprar uma vez um sistema de IA doméstico que pudesse ser usado por décadas
Acho que esse sistema herdaria o histórico da família, funcionaria totalmente offline e se tornaria algo como um assistente permanente passado de geração em geração
- Não concordo. Basta olhar a comparação entre M1 e M5 e ver que em 5 anos tudo ficou mais de 6 vezes mais rápido em quase todos os aspectos, como CPU/GPU, IA e renderização 3D
  A ideia de um “servidor de IA que carrega a linhagem da família” é legal, mas, na prática, acho impossível evitar a obsolescência do hardware
- Se você tivesse comprado um servidor para casa 10 anos atrás, ele nem teria GPU ou acelerador de IA
  Mesmo agora, o desempenho single-core está estagnado, mas IA é focada em computação paralela, então ainda está avançando rápido
  Acho que a ideia de um servidor que dure décadas ainda é prematura
- O conceito proposto, na prática, não é muito diferente de um homelab
  A maioria das pessoas fica satisfeita em deixar serviços como armazenamento de fotos ou segurança na nuvem
- A previsão de um “servidor para usar por décadas” soa como uma afirmação fraca demais
- Além disso, como esse tipo de produto não tem modelo de receita por assinatura, as empresas têm pouco incentivo para criá-lo
Esta página é chamativa, mas na prática é só um benchmark simples de segurança residencial
Ela compara apenas modelos Qwen, e a versão mais recente é até mais lenta que a anterior
O modelo ideal varia conforme a tarefa, e para VL, multilíngue, raciocínio etc., outros modelos podem ser melhores
O Qwen 3.5 é excelente, mas não existe um “modelo único que faz tudo bem”
Escolher o modelo certo e projetar bem o prompt é mais importante
Nem precisa ter um Mac M5 novo; um notebook ou smartphone de 2 anos atrás já dá conta
- Obrigado pelo feedback :) Vi a lentidão do Qwen3.5 e desliguei o thinking mode
  No momento estou testando apenas LLM com um MBP Pro 64GB, e acho que para VLM o LFM 450M é o melhor
  Vou atualizar em breve
- Quero aprender quais modelos são bons para quais tarefas
  Estou experimentando com o LM Studio e procurando um modelo para Rust e SQL como substituto local do Claude
- Eu também estou rodando várias câmeras com um Mac mini M2 16GB
  A combinação Qwen 9B + LFM 450M funciona bem com orçamento abaixo de $400
  Pretendo ampliar os testes com mais modelos
O M5 Pro foi lançado, então testei workloads reais de IA
O Qwen3.5-9B marcou 93,8%, ficando 4 pontos atrás do GPT-5.4, e tudo rodando localmente
Usa 25 tok/s, 765ms de TTFT e apenas 13,8GB de memória
Ver resultados completos
- Obrigado por compartilhar os resultados, mas a página e os comentários têm um tom exagerado que parece escrito por IA, então fica difícil entender o conteúdo real do teste
  Seria bom ter um link onde os itens testados apareçam de forma clara
- Se é um “sistema de segurança residencial totalmente local”, fiquei curioso se a GPU fica em carga máxima 24 horas por dia
  Também queria saber se houve algum dano ao silício com uso prolongado
Hoje, para rodar um modelo local, são necessários cerca de $2500
Curiosamente, quando meus pais compraram um PC de 166MHz em 1995, o valor era parecido
- Também me lembro de comprar PCs de milhares de dólares nos anos 80 e 90
  Depois de vivenciar a velocidade de desvalorização dos eletrônicos, hoje fiquei muito mais sensível a preço
  Ainda assim, por causa da desaceleração da Lei de Moore, talvez os preços não caiam tão rápido quanto antes
- Em 1989 comprei um 386sx por $3800, o que hoje daria quase $10.000
  É difícil acreditar que, naquela época, isso era considerado “bom custo-benefício”
- O melhor modelo local do benchmark, Qwen3.5-9B (Q4_K_M), é um modelo de 9B parâmetros com quantização de 4,5 bits
  Ele roda bem até em um Mac Mini de $500
- Para começar, um Mac Mini 16GB (<$499) já é suficiente
  Mesmo no Mini M2, os modelos pequenos funcionam bem
Este teste de prompt injection não parece muito convincente
- Isso é usado principalmente para detecção de ataque man-in-the-middle
  Obrigado pela revisão
Tecnicamente é excelente, mas falta a emissão de certificado de alarme para seguro
Em negócios reais, isso é necessário para obter desconto no seguro ou compensação por perdas
No fim, regulação e compliance são barreiras maiores que a tecnologia
- Sim, parece que esse padrão é muito alto
Queria saber como esse sistema se compara ao Frigate
Quero entender se é apenas uma camada em cima do NVR ou se também faz gravação com detecção de movimento
- Se você comprar um Coral TPU para o Frigate, dá para descarregar muita inferência de forma barata
- O Aegis oferece integração com câmeras ONVIF, gravação com detecção de movimento e entendimento contextual baseado em VLM
  Também pode salvar localmente o vídeo de câmeras BLINK/RING e usá-lo como memória persistente
Parece piada, mas o S de AI significa Security
No futuro, talvez tokens sejam vendidos como tráfego de dados e virem um bem de consumo cotidiano

Sistema local de IA para segurança com MacBook M5 Pro e Qwen3.5

Comparação de desempenho entre IA local e nuvem

O Qwen3.5-35B-MoE tem TTFT de 435 ms, mais rápido que todos os modelos em nuvem da OpenAI

Visão geral do HomeSec-Bench

Principais suítes de teste (total de 15)

Perguntas centrais da avaliação

O valor da IA local

Configuração do sistema

Leituras relacionadas

1 comentários

Comentários do Hacker News