Como construir sua própria Siri localmente e no dispositivo, sem nuvem
(thehyperplane.substack.com)- Como criar você mesmo um assistente de voz pessoal rodando no dispositivo sem depender de APIs de LLM nem da nuvem
- Esse assistente entende linguagem natural, executa chamadas de funções pessoais e funciona apenas localmente, o que permite garantia total de privacidade
- Para isso, o modelo LLaMA 3.1 é ajustado finamente com LoRA, o Whisper é usado para converter voz em texto, e então isso é interpretado como comandos e executado diretamente no dispositivo
- O projeto é composto por geração de dataset → fine-tuning → conexão da interface de voz → testes e deploy, e é oferecido como uma minissérie gratuita de 5 partes que cobre cada etapa
- O texto alerta contra o equívoco de que “rodar on-device = ser simples” e enfatiza que mesmo no ambiente local, mentalidade de MLOps e controle rigoroso de qualidade são essenciais
Por que criar um assistente de voz local agora?
- Conversar com o ChatGPT é útil, mas será que até comandos simples precisam ser enviados para a nuvem?
- Se o modelo estiver instalado diretamente no seu dispositivo, é possível garantir velocidade, privacidade e controle ao mesmo tempo
- Isso é especialmente útil em ambientes sensíveis como saúde, jurídico e ferramentas internas
Visão geral da arquitetura completa
Componentes do projeto
- Reconhecimento de voz (Whisper) → conversão para texto
- LLM (LLaMA 3.1) → interpretação de comandos
- Executor de funções → execução de funções reais como
lock_screen()
Parte 1: Arquitetura e mentalidade de MLOps
Por que MLOps também é necessário no ambiente local
- Existem problemas como model drift, mudanças de prompt, confiabilidade do dataset e falta de logs para depuração
- Pensar que “só o local já basta” é perigoso, e uma abordagem sistemática é necessária
Desenvolvimento online vs execução offline
- O desenvolvimento (fine-tuning, geração de dados) é feito na nuvem, enquanto a execução acontece localmente
- Separar esse processo com clareza e gerenciá-lo de forma sistemática é o núcleo do MLOps
Geração de dataset (Dataset Generation Flow)
- Não se trata apenas de coletar prompts, mas de projetar padrões estruturados de chamadas de função e a estrutura de solicitações conversacionais
- Geração de datasets de alta qualidade que cubram diferentes formas de expressão, intenções e casos de falha
Pontos-chave
lock_screen()→ inclui várias expressões em linguagem natural como “bloqueia a tela”- Um mecanismo de validação automática verifica se a saída está no formato pretendido
Fine-tuning (Instruction Tuning for Function Calling)
- Ajuste fino de um modelo pequeno (via SFT) para mapeamento preciso de comandos
- Uso de ferramentas de produção como Unsloth, W&B e extração em formato GGUF
Objetivos
- Converter o LLaMA 3.1 8B em um modelo de 4 bits capaz de rodar localmente
- Buscar leveza a ponto de até o Raspberry Pi ser um alvo possível
Conexão do modelo e execução real
- O Whisper converte a entrada de voz em texto
- O LLM ajustado interpreta os comandos
- Conexão com um executor local de funções de API (
lock_screen(),get_battery_status()etc.)
Resultado
- Possibilidade de operar um assistente de voz em tempo real
- Sem necessidade de rede, sem vazamento de dados pessoais e com controle total do usuário
Gestão de riscos na etapa offline
- É necessário testar em vários dispositivos e sistemas operacionais
- É essencial construir um sistema de logging (com envio manual no formato opt-in)
- Antes do deploy oficial, testes de estresse e feedback de usuários ajudam a detectar problemas cedo
Próximos passos
- Na próxima aula, haverá uma prática de geração de dataset para function calling
- Será construído de forma estruturada um dataset dedicado para aprender o mapeamento de comandos em linguagem natural → chamadas de API
- Scraping proibido, usando apenas simulações baseadas em prompt e dados com validação automática
Conclusão
- Sistemas de IA locais podem ser simples, mas estabilidade e qualidade exigem um nível ainda maior de gestão
- Como não dependem de logs em nuvem nem de hotfixes, exigem mais confiabilidade e responsabilidade
- Para isso, é preciso aplicar mentalidade de MLOps e design estrutural desde o início
> “Chegou a era de criar assistentes de IA de verdade, centrados em privacidade e local-first”
> No próximo episódio começa a prática real de geração de dataset para mapeamento entre comandos e funções.
2 comentários
A 3.1 é difícil de usar para quem não fala inglês, e com a 3.3 ou a 4 talvez até dê para usar coreano, mas se for para rodar on-device, considerando que para idiomas não ingleses seria preciso pelo menos algo acima de 32b para fazer sentido, ainda parece difícil...
Comentários do Hacker News