1 pontos por GN⁺ 2026-01-17 | 1 comentários | Compartilhar no WhatsApp
  • Raspberry Pi AI HAT+ 2 vem com NPU Hailo 10H e 8 GB de RAM LPDDR4X, permitindo executar inferência de LLM localmente de forma independente
  • Oferece até 3 W de consumo de energia e desempenho de 40 TOPS (INT8), mas em testes reais apresentou resultado mais lento que a CPU do Pi 5
  • Limite de energia (3 W) e capacidade de RAM (8 GB) atuam como gargalos, então para rodar modelos de porte médio um Pi 5 de 16 GB é mais eficiente
  • Em processamento de visão (Computer Vision) mostrou velocidade 10 vezes maior que o AI HAT anterior, mas houve problemas de compatibilidade de software e erros na execução simultânea de modelos
  • Exceto em cenários de baixo consumo que exigem visão + inferência em paralelo, ele tem mais valor como placa de desenvolvimento ou plataforma experimental

Principais especificações e características do AI HAT+ 2

  • O novo modelo custa US$ 130 e inclui NPU Hailo 10H e 8 GB de RAM LPDDR4X
    • O Hailo 10H oferece 40 TOPS de desempenho de inferência INT8 e 26 TOPS de desempenho de visão INT4
    • Pode executar LLMs de forma independente sem ocupar a CPU nem a memória do sistema do Pi
  • O problema de não ser possível fazer upgrade da RAM continua, mas ao usá-lo como coprocessador de IA é possível reduzir a carga de memória
  • É avaliado como mais barato e compacto do que conectar uma eGPU, além de ser mais prático que NPUs integradas de “AI PCs” da Microsoft

Avaliação de desempenho real

  • O teste comparou a execução do mesmo modelo na CPU e na NPU usando um Raspberry Pi 5 com 8 GB de RAM
    • Na maioria dos modelos, a CPU do Pi 5 foi mais rápida que a Hailo 10H
    • O único caso com resultado próximo foi o modelo Qwen2.5 Coder 1.5B
  • A Hailo 10H tem alta eficiência energética, mas o desempenho fica limitado pelo teto de 3 W
    • O SoC do Pi 5 pode usar até 10 W

Limites para rodar LLMs e o caso do Qwen 30B

  • 8 GB de RAM é o maior fator limitante ao executar LLMs
    • Modelos de porte médio exigem 10 a 12 GB de RAM, sendo mais adequados a um Pi 5 de 16 GB
  • A ByteShape conseguiu executar o modelo Qwen3 30B A3B Instruct após compactá-lo para 10 GB para caber em um Pi 5 de 16 GB
    • Há perda de qualidade, mas ainda é possível realizar tarefas básicas, como gerar apps simples
  • Rodando o modelo no Pi 5 com llama.cpp, o resultado foi lento, mas ainda permitiu executar tarefas práticas com um modelo local

Desempenho em visão e problemas de software

  • Em tarefas de Computer Vision, o desempenho foi 10 vezes mais rápido que o da CPU do Pi
    • Em testes com o Camera Module 3, reconheceu corretamente teclado, monitor, celular e mouse
  • Porém, o código de exemplo da Hailo (hailo-rpi5-examples) ainda não dá suporte adequado ao AI HAT+ 2
    • Com configuração manual, houve falha no carregamento de modelos ou ocorrência de erros
  • Na execução simultânea de modelos (visão + LLM) surgiram erros de segmentação e problemas de device not ready
    • Não foi possível concluir os testes por falta de exemplos funcionais da Hailo

Conclusão e possíveis usos

  • Os 8 GB de RAM são úteis, mas um Pi 5 de 16 GB continua sendo uma opção mais rápida e flexível
  • Ele só se mostra realmente prático em ambientes de baixo consumo onde é preciso combinar visão computacional e inferência
  • Uma combinação com a AI Camera (US$ 70) ou o AI HAT+ anterior (US$ 110) pode ser mais eficiente
  • Pode ser aproveitado para rodar LLMs pequenos (abaixo de 10 W) ou como kit de desenvolvimento para dispositivos baseados no Hailo 10H
  • No geral, o hardware está à frente, mas o software ainda carece de maturidade, sendo visto como um produto voltado a usos de nicho

1 comentários

 
GN⁺ 2026-01-17
Comentários do Hacker News
  • Em questão de minutos, vi ao mesmo tempo opiniões dizendo que o AI HAT de 8GB para RPi é incrível e que meu MacBook M2 MAX de 96GB não serve para LLMs
    Ainda assim, consola saber que este último também é um notebook excelente

  • Parece que a Raspberry perdeu um pouco da “mágica” e do senso de propósito da época inicial do Pi
    No começo, ela criou um novo mercado, mas agora dá a impressão de estar entrando em áreas já saturadas
    Claro, dá para entender a tentativa de expansão para sobreviver, mas parece que ela não consegue mais recriar aquele “momento Raspberry Pi”
    Assim como soluções como o Frigate impulsionaram as vendas do Coral TPU, talvez exista demanda também desta vez, mas parece faltar uma proposta de valor única

    • Antigamente o RPi era incomparável, mas hoje alternativas como notebooks usados ou ESP32 são muito mais eficientes
      Agora o RPi parece mirar o mercado comercial por ser mais barato que placas embarcadas industriais
      Dá a sensação de que o público principal passou a ser mais empresas do que consumidores
    • Ainda assim, o ponto forte do RPi continua sendo o ecossistema de software sólido e a abertura
      Outros SBCs tinham uma qualidade de software terrível, e a combinação com o Raspbian foi a verdadeira inovação
    • Entre outros dispositivos ARM, quase não há produtos em uma faixa de preço razoável que consumidores ou pequenas empresas consigam comprar continuamente
      O RPi ainda ocupa esse nicho
    • Na verdade, o RPi evoluiu os produtos na direção em que as pessoas já os usavam
      O Pico ficou para tarefas pequenas, os novos Pi para tarefas maiores, e os Pi antigos e o Zero continuam à venda
      Os produtos ligados a IA também são uma extensão natural dessa tendência, voltados para quem já fazia IA no Pi5
    • Os Pi antigos continuam baratos e funcionam bem
      A essência do Pi é GPIO + computação de propósito geral, e agora IA também virou parte disso
      A quantidade de coisas que dá para fazer com IA local aumentou de forma surpreendente, permitindo novos usos como navegação autônoma de drones e robôs
  • Na prática, isso não é tão impressionante assim
    Rodar IA com 8GB de RAM no Pi é meio decepcionante

  • No Reino Unido, nunca vi o Hailo HAT ser anunciado para LLMs
    Ele era usado principalmente para detecção de objetos em vídeo em tempo real, e eu mesmo gostaria de testar isso em casa e no jardim para detectar animais ou visitantes
    Nas versões recentes do Pimonori falam em suporte a LLM e VLM, mas esse parece ser um uso mais realista

  • Chega ao ponto de surgir a piada: “8GB? É um LLM para formigas?”

    • Mesmo só com inferência na CPU, modelos leves como o Gemma 3 rodam até que bem
      Não serve para cargas pesadas, mas para geração simples de texto já é suficiente
    • Na verdade, em vez de esperar algo no nível do GPT-4, isso parece mais uma demonstração do que é possível fazer no Pi
      É algo experimental para LLMs ultrapequenos e especializados
      Mas o problema é que, pelo preço alto, o ganho em processamento de visão é pequeno, e o suporte de software também é fraco
  • Há alguns anos, um produto desses seria chamado apenas de acelerador de ML
    Mas hoje colocam o nome “IA”, e isso muda a expectativa das pessoas, então as avaliações acabam se dividindo

  • Não sei se LLMs pequenos têm utilidade além de embeddings ou aprendizado
    Se for para aprendizado, dá para usar hardware melhor por menos dinheiro; se for para embeddings, ele só é lento e caro

    • Ainda assim, há utilidade em casos específicos, como uma interface de casa inteligente baseada em linguagem natural
      Mesmo modelos pequenos, quando ajustados com dados especializados, podem chegar perto do desempenho de modelos gerais bem maiores
  • É uma ideia interessante, mas para esse uso o Jetson Orin Nano parece uma escolha melhor
    Só que a RAM é compartilhada, então se perde cerca de 1GB com o overhead do sistema operacional

  • Dizer que “dá para rodar um LLM” não significa que “faz sentido rodar um LLM”
    É um caso que mostra como os números das especificações e a experiência real podem ser coisas completamente diferentes

  • Do ponto de vista de edge computing, esta tentativa é um salto significativo para o ecossistema do RPi
    Com um acelerador de inferência de baixo consumo integrado, fica possível implementar IA local sem nuvem
    Ainda está em estágio inicial, mas é a direção certa para workloads reais de edge

    • Fico curioso sobre quais casos de uso concretos eles tinham em mente