- Raspberry Pi AI HAT+ 2 vem com NPU Hailo 10H e 8 GB de RAM LPDDR4X, permitindo executar inferência de LLM localmente de forma independente
- Oferece até 3 W de consumo de energia e desempenho de 40 TOPS (INT8), mas em testes reais apresentou resultado mais lento que a CPU do Pi 5
- Limite de energia (3 W) e capacidade de RAM (8 GB) atuam como gargalos, então para rodar modelos de porte médio um Pi 5 de 16 GB é mais eficiente
- Em processamento de visão (Computer Vision) mostrou velocidade 10 vezes maior que o AI HAT anterior, mas houve problemas de compatibilidade de software e erros na execução simultânea de modelos
- Exceto em cenários de baixo consumo que exigem visão + inferência em paralelo, ele tem mais valor como placa de desenvolvimento ou plataforma experimental
Principais especificações e características do AI HAT+ 2
- O novo modelo custa US$ 130 e inclui NPU Hailo 10H e 8 GB de RAM LPDDR4X
- O Hailo 10H oferece 40 TOPS de desempenho de inferência INT8 e 26 TOPS de desempenho de visão INT4
- Pode executar LLMs de forma independente sem ocupar a CPU nem a memória do sistema do Pi
- O problema de não ser possível fazer upgrade da RAM continua, mas ao usá-lo como coprocessador de IA é possível reduzir a carga de memória
- É avaliado como mais barato e compacto do que conectar uma eGPU, além de ser mais prático que NPUs integradas de “AI PCs” da Microsoft
Avaliação de desempenho real
- O teste comparou a execução do mesmo modelo na CPU e na NPU usando um Raspberry Pi 5 com 8 GB de RAM
- Na maioria dos modelos, a CPU do Pi 5 foi mais rápida que a Hailo 10H
- O único caso com resultado próximo foi o modelo Qwen2.5 Coder 1.5B
- A Hailo 10H tem alta eficiência energética, mas o desempenho fica limitado pelo teto de 3 W
- O SoC do Pi 5 pode usar até 10 W
Limites para rodar LLMs e o caso do Qwen 30B
- 8 GB de RAM é o maior fator limitante ao executar LLMs
- Modelos de porte médio exigem 10 a 12 GB de RAM, sendo mais adequados a um Pi 5 de 16 GB
- A ByteShape conseguiu executar o modelo Qwen3 30B A3B Instruct após compactá-lo para 10 GB para caber em um Pi 5 de 16 GB
- Há perda de qualidade, mas ainda é possível realizar tarefas básicas, como gerar apps simples
- Rodando o modelo no Pi 5 com llama.cpp, o resultado foi lento, mas ainda permitiu executar tarefas práticas com um modelo local
Desempenho em visão e problemas de software
- Em tarefas de Computer Vision, o desempenho foi 10 vezes mais rápido que o da CPU do Pi
- Em testes com o Camera Module 3, reconheceu corretamente teclado, monitor, celular e mouse
- Porém, o código de exemplo da Hailo (
hailo-rpi5-examples) ainda não dá suporte adequado ao AI HAT+ 2
- Com configuração manual, houve falha no carregamento de modelos ou ocorrência de erros
- Na execução simultânea de modelos (visão + LLM) surgiram erros de segmentação e problemas de
device not ready
- Não foi possível concluir os testes por falta de exemplos funcionais da Hailo
Conclusão e possíveis usos
- Os 8 GB de RAM são úteis, mas um Pi 5 de 16 GB continua sendo uma opção mais rápida e flexível
- Ele só se mostra realmente prático em ambientes de baixo consumo onde é preciso combinar visão computacional e inferência
- Uma combinação com a AI Camera (US$ 70) ou o AI HAT+ anterior (US$ 110) pode ser mais eficiente
- Pode ser aproveitado para rodar LLMs pequenos (abaixo de 10 W) ou como kit de desenvolvimento para dispositivos baseados no Hailo 10H
- No geral, o hardware está à frente, mas o software ainda carece de maturidade, sendo visto como um produto voltado a usos de nicho
1 comentários
Comentários do Hacker News
Em questão de minutos, vi ao mesmo tempo opiniões dizendo que o AI HAT de 8GB para RPi é incrível e que meu MacBook M2 MAX de 96GB não serve para LLMs
Ainda assim, consola saber que este último também é um notebook excelente
Parece que a Raspberry perdeu um pouco da “mágica” e do senso de propósito da época inicial do Pi
No começo, ela criou um novo mercado, mas agora dá a impressão de estar entrando em áreas já saturadas
Claro, dá para entender a tentativa de expansão para sobreviver, mas parece que ela não consegue mais recriar aquele “momento Raspberry Pi”
Assim como soluções como o Frigate impulsionaram as vendas do Coral TPU, talvez exista demanda também desta vez, mas parece faltar uma proposta de valor única
Agora o RPi parece mirar o mercado comercial por ser mais barato que placas embarcadas industriais
Dá a sensação de que o público principal passou a ser mais empresas do que consumidores
Outros SBCs tinham uma qualidade de software terrível, e a combinação com o Raspbian foi a verdadeira inovação
O RPi ainda ocupa esse nicho
O Pico ficou para tarefas pequenas, os novos Pi para tarefas maiores, e os Pi antigos e o Zero continuam à venda
Os produtos ligados a IA também são uma extensão natural dessa tendência, voltados para quem já fazia IA no Pi5
A essência do Pi é GPIO + computação de propósito geral, e agora IA também virou parte disso
A quantidade de coisas que dá para fazer com IA local aumentou de forma surpreendente, permitindo novos usos como navegação autônoma de drones e robôs
Na prática, isso não é tão impressionante assim
Rodar IA com 8GB de RAM no Pi é meio decepcionante
No Reino Unido, nunca vi o Hailo HAT ser anunciado para LLMs
Ele era usado principalmente para detecção de objetos em vídeo em tempo real, e eu mesmo gostaria de testar isso em casa e no jardim para detectar animais ou visitantes
Nas versões recentes do Pimonori falam em suporte a LLM e VLM, mas esse parece ser um uso mais realista
Chega ao ponto de surgir a piada: “8GB? É um LLM para formigas?”
Não serve para cargas pesadas, mas para geração simples de texto já é suficiente
É algo experimental para LLMs ultrapequenos e especializados
Mas o problema é que, pelo preço alto, o ganho em processamento de visão é pequeno, e o suporte de software também é fraco
Há alguns anos, um produto desses seria chamado apenas de acelerador de ML
Mas hoje colocam o nome “IA”, e isso muda a expectativa das pessoas, então as avaliações acabam se dividindo
Não sei se LLMs pequenos têm utilidade além de embeddings ou aprendizado
Se for para aprendizado, dá para usar hardware melhor por menos dinheiro; se for para embeddings, ele só é lento e caro
Mesmo modelos pequenos, quando ajustados com dados especializados, podem chegar perto do desempenho de modelos gerais bem maiores
É uma ideia interessante, mas para esse uso o Jetson Orin Nano parece uma escolha melhor
Só que a RAM é compartilhada, então se perde cerca de 1GB com o overhead do sistema operacional
Dizer que “dá para rodar um LLM” não significa que “faz sentido rodar um LLM”
É um caso que mostra como os números das especificações e a experiência real podem ser coisas completamente diferentes
Do ponto de vista de edge computing, esta tentativa é um salto significativo para o ecossistema do RPi
Com um acelerador de inferência de baixo consumo integrado, fica possível implementar IA local sem nuvem
Ainda está em estágio inicial, mas é a direção certa para workloads reais de edge