3 pontos por GN⁺ 2026-03-21 | 1 comentários | Compartilhar no WhatsApp
  • O modelo Qwen3.5-9B roda de forma totalmente local no MacBook Pro M5 e registrou 93,8% de desempenho, 4 pontos abaixo do GPT-5.4
  • O HomeSec-Bench, composto por 96 testes e 15 suítes, avalia fluxos reais de segurança residencial, como uso de ferramentas, classificação de segurança e deduplicação de eventos
  • O Qwen3.5-35B-MoE tem TTFT de 435 ms, mais rápido que todos os modelos em nuvem da OpenAI, com uso de memória GPU em torno de 27,2 GB
  • A execução local não tem custo de API e garante total privacidade dos dados, além de permitir visualização em tempo real no Apple Silicon
  • Com o sistema Aegis-AI e a plataforma DeepCamera, torna-se viável um ecossistema de IA para segurança residencial com prioridade local baseado em hardware de consumo

Comparação de desempenho entre IA local e nuvem

  • O modelo Qwen3.5-9B roda de forma totalmente local no MacBook Pro M5 e alcançou 93,8% de taxa de aprovação, ficando 4 pontos abaixo do GPT-5.4
    • Velocidade de processamento de 25 tokens por segundo, TTFT (Time to First Token) de 765 ms e uso de 13,8 GB de memória unificada
    • Sem custo de API e com privacidade dos dados totalmente garantida
  • Em um benchmark composto por 96 testes e 15 suítes, foram avaliados fluxos reais de segurança residencial, como uso de ferramentas, classificação de segurança e deduplicação de eventos
  • No leaderboard, GPT-5.4 (97,9%) ficou em 1º, GPT-5.4-mini (95,8%) em 2º, e Qwen3.5-9B e 27B (93,8%) empataram em 3º
    • O Qwen3.5-9B ficou 1 ponto acima do GPT-5.4-nano (92,7%)
  • O Qwen3.5-35B-MoE tem TTFT de 435 ms, mais rápido que todos os modelos em nuvem da OpenAI

    • GPT-5.4-nano 508 ms, GPT-5.4-mini 553 ms, GPT-5.4 601 ms
    • Em velocidade de decodificação, o GPT-5.4-mini foi o mais rápido com 234,5 tok/s, enquanto o Qwen3.5-9B ficou em 25 tok/s
    • Uso de memória GPU: Qwen3.5-9B 13,8 GB, Qwen3.5-35B-MoE 27,2 GB, Qwen3.5-122B-MoE 40,8 GB

Visão geral do HomeSec-Bench

  • O HomeSec-Bench é um benchmark de LLM para avaliar fluxos reais de assistentes de segurança residencial
    • Em vez de apenas conversação simples, verifica capacidades necessárias para sistemas de segurança, como raciocínio, classificação e uso de ferramentas
    • Usa 35 imagens geradas por IA e pode ser executado em endpoints compatíveis com OpenAI
  • Principais suítes de teste (total de 15)

    • Context Preprocessing (6): remoção de duplicação em conversas, manutenção de mensagens de sistema
    • Topic Classification (4): roteamento de domínio das consultas
    • Knowledge Distillation (5): extração de fatos persistentes da conversa
    • Event Deduplication (8): identificação da mesma pessoa entre várias câmeras
    • Tool Use (16): seleção correta de ferramentas e parâmetros
    • Chat & JSON Compliance (11): persona, saída em JSON, suporte multilíngue
    • Security Classification (12): classificação em etapas de Normal → Monitor → Suspicious → Critical
    • Narrative Synthesis (4): resumo de logs de eventos
    • Prompt Injection Resistance (4): prevenção de confusão de papéis, extração de prompt e elevação de privilégios
    • Multi-Turn Reasoning (4): interpretação de referências, manutenção da continuidade temporal
    • Error Recovery (4): tratamento de consultas impossíveis e erros de API
    • Privacy & Compliance (3): desidentificação de dados pessoais, recusa a vigilância ilegal
    • Alert Routing (5): roteamento de canais de alerta, parsing de horários silenciosos
    • Knowledge Injection (5): personalização de respostas com conhecimento injetado
    • VLM-to-Alert Triage (5): saída de visão → avaliação de urgência → envio de alerta
  • Perguntas centrais da avaliação

    • Consegue selecionar as ferramentas e parâmetros corretos?
    • Consegue classificar “uma pessoa usando máscara à noite” como Critical?
    • Consegue resistir a prompt injection em descrições de eventos?
    • Consegue reconhecer a mesma pessoa em 3 câmeras sem duplicação?
    • Consegue manter o contexto de segurança em conversas multi-turn?

O valor da IA local

  • É possível visualizar a execução do benchmark em tempo real no Apple Silicon
  • O modelo 9B alcança desempenho dentro de 4% do GPT-5.4 mesmo offline
  • Garantia total de privacidade e custo zero de API são os principais valores da IA local

Configuração do sistema

  • System: Aegis-AI — IA para segurança residencial com prioridade local baseada em hardware de consumo
  • Benchmark: HomeSec-Bench — 96 testes LLM + 35 VLM, composto por 16 suítes
  • Skill Platform: DeepCamera — ecossistema distribuído de skills de IA

1 comentários

 
GN⁺ 2026-03-21
Comentários do Hacker News
  • Há tempos imagino que um dia, quando uma família comprar uma casa ou eletrodomésticos, também vai comprar junto um servidor de IA
    Como o ritmo de evolução do hardware está desacelerando, parece que bastaria comprar uma vez um sistema de IA doméstico que pudesse ser usado por décadas
    Acho que esse sistema herdaria o histórico da família, funcionaria totalmente offline e se tornaria algo como um assistente permanente passado de geração em geração

    • Não concordo. Basta olhar a comparação entre M1 e M5 e ver que em 5 anos tudo ficou mais de 6 vezes mais rápido em quase todos os aspectos, como CPU/GPU, IA e renderização 3D
      A ideia de um “servidor de IA que carrega a linhagem da família” é legal, mas, na prática, acho impossível evitar a obsolescência do hardware
    • Se você tivesse comprado um servidor para casa 10 anos atrás, ele nem teria GPU ou acelerador de IA
      Mesmo agora, o desempenho single-core está estagnado, mas IA é focada em computação paralela, então ainda está avançando rápido
      Acho que a ideia de um servidor que dure décadas ainda é prematura
    • O conceito proposto, na prática, não é muito diferente de um homelab
      A maioria das pessoas fica satisfeita em deixar serviços como armazenamento de fotos ou segurança na nuvem
    • A previsão de um “servidor para usar por décadas” soa como uma afirmação fraca demais
    • Além disso, como esse tipo de produto não tem modelo de receita por assinatura, as empresas têm pouco incentivo para criá-lo
  • Esta página é chamativa, mas na prática é só um benchmark simples de segurança residencial
    Ela compara apenas modelos Qwen, e a versão mais recente é até mais lenta que a anterior
    O modelo ideal varia conforme a tarefa, e para VL, multilíngue, raciocínio etc., outros modelos podem ser melhores
    O Qwen 3.5 é excelente, mas não existe um “modelo único que faz tudo bem”
    Escolher o modelo certo e projetar bem o prompt é mais importante
    Nem precisa ter um Mac M5 novo; um notebook ou smartphone de 2 anos atrás já dá conta

    • Obrigado pelo feedback :) Vi a lentidão do Qwen3.5 e desliguei o thinking mode
      No momento estou testando apenas LLM com um MBP Pro 64GB, e acho que para VLM o LFM 450M é o melhor
      Vou atualizar em breve
    • Quero aprender quais modelos são bons para quais tarefas
      Estou experimentando com o LM Studio e procurando um modelo para Rust e SQL como substituto local do Claude
    • Eu também estou rodando várias câmeras com um Mac mini M2 16GB
      A combinação Qwen 9B + LFM 450M funciona bem com orçamento abaixo de $400
      Pretendo ampliar os testes com mais modelos
  • O M5 Pro foi lançado, então testei workloads reais de IA
    O Qwen3.5-9B marcou 93,8%, ficando 4 pontos atrás do GPT-5.4, e tudo rodando localmente
    Usa 25 tok/s, 765ms de TTFT e apenas 13,8GB de memória
    Ver resultados completos

    • Obrigado por compartilhar os resultados, mas a página e os comentários têm um tom exagerado que parece escrito por IA, então fica difícil entender o conteúdo real do teste
      Seria bom ter um link onde os itens testados apareçam de forma clara
    • Se é um “sistema de segurança residencial totalmente local”, fiquei curioso se a GPU fica em carga máxima 24 horas por dia
      Também queria saber se houve algum dano ao silício com uso prolongado
  • Hoje, para rodar um modelo local, são necessários cerca de $2500
    Curiosamente, quando meus pais compraram um PC de 166MHz em 1995, o valor era parecido

    • Também me lembro de comprar PCs de milhares de dólares nos anos 80 e 90
      Depois de vivenciar a velocidade de desvalorização dos eletrônicos, hoje fiquei muito mais sensível a preço
      Ainda assim, por causa da desaceleração da Lei de Moore, talvez os preços não caiam tão rápido quanto antes
    • Em 1989 comprei um 386sx por $3800, o que hoje daria quase $10.000
      É difícil acreditar que, naquela época, isso era considerado “bom custo-benefício”
    • O melhor modelo local do benchmark, Qwen3.5-9B (Q4_K_M), é um modelo de 9B parâmetros com quantização de 4,5 bits
      Ele roda bem até em um Mac Mini de $500
    • Para começar, um Mac Mini 16GB (<$499) já é suficiente
      Mesmo no Mini M2, os modelos pequenos funcionam bem
  • Este teste de prompt injection não parece muito convincente

    • Isso é usado principalmente para detecção de ataque man-in-the-middle
      Obrigado pela revisão
  • Tecnicamente é excelente, mas falta a emissão de certificado de alarme para seguro
    Em negócios reais, isso é necessário para obter desconto no seguro ou compensação por perdas
    No fim, regulação e compliance são barreiras maiores que a tecnologia

    • Sim, parece que esse padrão é muito alto
  • Queria saber como esse sistema se compara ao Frigate
    Quero entender se é apenas uma camada em cima do NVR ou se também faz gravação com detecção de movimento

    • Se você comprar um Coral TPU para o Frigate, dá para descarregar muita inferência de forma barata
    • O Aegis oferece integração com câmeras ONVIF, gravação com detecção de movimento e entendimento contextual baseado em VLM
      Também pode salvar localmente o vídeo de câmeras BLINK/RING e usá-lo como memória persistente
  • Parece piada, mas o S de AI significa Security

  • No futuro, talvez tokens sejam vendidos como tráfego de dados e virem um bem de consumo cotidiano