- O modelo Qwen3.5-9B roda de forma totalmente local no MacBook Pro M5 e registrou 93,8% de desempenho, 4 pontos abaixo do GPT-5.4
- O HomeSec-Bench, composto por 96 testes e 15 suítes, avalia fluxos reais de segurança residencial, como uso de ferramentas, classificação de segurança e deduplicação de eventos
- O Qwen3.5-35B-MoE tem TTFT de 435 ms, mais rápido que todos os modelos em nuvem da OpenAI, com uso de memória GPU em torno de 27,2 GB
- A execução local não tem custo de API e garante total privacidade dos dados, além de permitir visualização em tempo real no Apple Silicon
- Com o sistema Aegis-AI e a plataforma DeepCamera, torna-se viável um ecossistema de IA para segurança residencial com prioridade local baseado em hardware de consumo
Comparação de desempenho entre IA local e nuvem
- O modelo Qwen3.5-9B roda de forma totalmente local no MacBook Pro M5 e alcançou 93,8% de taxa de aprovação, ficando 4 pontos abaixo do GPT-5.4
- Velocidade de processamento de 25 tokens por segundo, TTFT (Time to First Token) de 765 ms e uso de 13,8 GB de memória unificada
- Sem custo de API e com privacidade dos dados totalmente garantida
- Em um benchmark composto por 96 testes e 15 suítes, foram avaliados fluxos reais de segurança residencial, como uso de ferramentas, classificação de segurança e deduplicação de eventos
- No leaderboard, GPT-5.4 (97,9%) ficou em 1º, GPT-5.4-mini (95,8%) em 2º, e Qwen3.5-9B e 27B (93,8%) empataram em 3º
- O Qwen3.5-9B ficou 1 ponto acima do GPT-5.4-nano (92,7%)
-
O Qwen3.5-35B-MoE tem TTFT de 435 ms, mais rápido que todos os modelos em nuvem da OpenAI
- GPT-5.4-nano 508 ms, GPT-5.4-mini 553 ms, GPT-5.4 601 ms
- Em velocidade de decodificação, o GPT-5.4-mini foi o mais rápido com 234,5 tok/s, enquanto o Qwen3.5-9B ficou em 25 tok/s
- Uso de memória GPU: Qwen3.5-9B 13,8 GB, Qwen3.5-35B-MoE 27,2 GB, Qwen3.5-122B-MoE 40,8 GB
Visão geral do HomeSec-Bench
- O HomeSec-Bench é um benchmark de LLM para avaliar fluxos reais de assistentes de segurança residencial
- Em vez de apenas conversação simples, verifica capacidades necessárias para sistemas de segurança, como raciocínio, classificação e uso de ferramentas
- Usa 35 imagens geradas por IA e pode ser executado em endpoints compatíveis com OpenAI
-
Principais suítes de teste (total de 15)
- Context Preprocessing (6): remoção de duplicação em conversas, manutenção de mensagens de sistema
- Topic Classification (4): roteamento de domínio das consultas
- Knowledge Distillation (5): extração de fatos persistentes da conversa
- Event Deduplication (8): identificação da mesma pessoa entre várias câmeras
- Tool Use (16): seleção correta de ferramentas e parâmetros
- Chat & JSON Compliance (11): persona, saída em JSON, suporte multilíngue
- Security Classification (12): classificação em etapas de Normal → Monitor → Suspicious → Critical
- Narrative Synthesis (4): resumo de logs de eventos
- Prompt Injection Resistance (4): prevenção de confusão de papéis, extração de prompt e elevação de privilégios
- Multi-Turn Reasoning (4): interpretação de referências, manutenção da continuidade temporal
- Error Recovery (4): tratamento de consultas impossíveis e erros de API
- Privacy & Compliance (3): desidentificação de dados pessoais, recusa a vigilância ilegal
- Alert Routing (5): roteamento de canais de alerta, parsing de horários silenciosos
- Knowledge Injection (5): personalização de respostas com conhecimento injetado
- VLM-to-Alert Triage (5): saída de visão → avaliação de urgência → envio de alerta
-
Perguntas centrais da avaliação
- Consegue selecionar as ferramentas e parâmetros corretos?
- Consegue classificar “uma pessoa usando máscara à noite” como Critical?
- Consegue resistir a prompt injection em descrições de eventos?
- Consegue reconhecer a mesma pessoa em 3 câmeras sem duplicação?
- Consegue manter o contexto de segurança em conversas multi-turn?
O valor da IA local
- É possível visualizar a execução do benchmark em tempo real no Apple Silicon
- O modelo 9B alcança desempenho dentro de 4% do GPT-5.4 mesmo offline
- Garantia total de privacidade e custo zero de API são os principais valores da IA local
Configuração do sistema
- System: Aegis-AI — IA para segurança residencial com prioridade local baseada em hardware de consumo
- Benchmark: HomeSec-Bench — 96 testes LLM + 35 VLM, composto por 16 suítes
- Skill Platform: DeepCamera — ecossistema distribuído de skills de IA
1 comentários
Comentários do Hacker News
Há tempos imagino que um dia, quando uma família comprar uma casa ou eletrodomésticos, também vai comprar junto um servidor de IA
Como o ritmo de evolução do hardware está desacelerando, parece que bastaria comprar uma vez um sistema de IA doméstico que pudesse ser usado por décadas
Acho que esse sistema herdaria o histórico da família, funcionaria totalmente offline e se tornaria algo como um assistente permanente passado de geração em geração
A ideia de um “servidor de IA que carrega a linhagem da família” é legal, mas, na prática, acho impossível evitar a obsolescência do hardware
Mesmo agora, o desempenho single-core está estagnado, mas IA é focada em computação paralela, então ainda está avançando rápido
Acho que a ideia de um servidor que dure décadas ainda é prematura
A maioria das pessoas fica satisfeita em deixar serviços como armazenamento de fotos ou segurança na nuvem
Esta página é chamativa, mas na prática é só um benchmark simples de segurança residencial
Ela compara apenas modelos Qwen, e a versão mais recente é até mais lenta que a anterior
O modelo ideal varia conforme a tarefa, e para VL, multilíngue, raciocínio etc., outros modelos podem ser melhores
O Qwen 3.5 é excelente, mas não existe um “modelo único que faz tudo bem”
Escolher o modelo certo e projetar bem o prompt é mais importante
Nem precisa ter um Mac M5 novo; um notebook ou smartphone de 2 anos atrás já dá conta
No momento estou testando apenas LLM com um MBP Pro 64GB, e acho que para VLM o LFM 450M é o melhor
Vou atualizar em breve
Estou experimentando com o LM Studio e procurando um modelo para Rust e SQL como substituto local do Claude
A combinação Qwen 9B + LFM 450M funciona bem com orçamento abaixo de $400
Pretendo ampliar os testes com mais modelos
O M5 Pro foi lançado, então testei workloads reais de IA
O Qwen3.5-9B marcou 93,8%, ficando 4 pontos atrás do GPT-5.4, e tudo rodando localmente
Usa 25 tok/s, 765ms de TTFT e apenas 13,8GB de memória
Ver resultados completos
Seria bom ter um link onde os itens testados apareçam de forma clara
Também queria saber se houve algum dano ao silício com uso prolongado
Hoje, para rodar um modelo local, são necessários cerca de $2500
Curiosamente, quando meus pais compraram um PC de 166MHz em 1995, o valor era parecido
Depois de vivenciar a velocidade de desvalorização dos eletrônicos, hoje fiquei muito mais sensível a preço
Ainda assim, por causa da desaceleração da Lei de Moore, talvez os preços não caiam tão rápido quanto antes
É difícil acreditar que, naquela época, isso era considerado “bom custo-benefício”
Ele roda bem até em um Mac Mini de $500
Mesmo no Mini M2, os modelos pequenos funcionam bem
Este teste de prompt injection não parece muito convincente
Obrigado pela revisão
Tecnicamente é excelente, mas falta a emissão de certificado de alarme para seguro
Em negócios reais, isso é necessário para obter desconto no seguro ou compensação por perdas
No fim, regulação e compliance são barreiras maiores que a tecnologia
Queria saber como esse sistema se compara ao Frigate
Quero entender se é apenas uma camada em cima do NVR ou se também faz gravação com detecção de movimento
Também pode salvar localmente o vídeo de câmeras BLINK/RING e usá-lo como memória persistente
Parece piada, mas o S de AI significa Security
No futuro, talvez tokens sejam vendidos como tráfego de dados e virem um bem de consumo cotidiano