- Handy é um aplicativo de desktop gratuito e open source de conversão de voz em texto que funciona totalmente offline, com design voltado para privacidade
- Desenvolvido com base em Tauri (Rust + React/TypeScript), funciona de modo que, ao pressionar uma tecla de atalho e falar, a voz é inserida diretamente em um campo de texto
- Suporta os modelos Whisper e Parakeet V3, realizando reconhecimento de voz localmente com aceleração por GPU ou via CPU
- Funciona em Windows, macOS e Linux, e foi desenvolvido com foco em extensibilidade e facilidade de fork, incentivando contribuições de desenvolvedores
- Como ferramenta de entrada por voz centrada em privacidade, processa tudo localmente sem envio para a nuvem, oferecendo alta acessibilidade e possibilidade de customização
Visão geral
- Handy é um aplicativo de reconhecimento de voz gratuito, open source e expansível que funciona totalmente offline, sem conexão com a internet
- Baseado no framework Tauri, combina backend em Rust com frontend em React/TypeScript
- O usuário pressiona uma tecla de atalho para falar e, ao soltá-la, os modelos Whisper ou Parakeet V3 convertem a fala em texto e colam o resultado no aplicativo atual
- Todos os dados de voz são processados localmente, então não há risco de vazamento de informações pessoais
A filosofia do Handy
- Gratuito: ferramentas de acessibilidade devem estar disponíveis para todos
- Open source: qualquer pessoa pode expandir e melhorar os recursos
- Privacidade garantida: os dados de voz não são enviados para a nuvem
- Simplicidade: foco em uma única finalidade, transformar voz em texto
- O objetivo não é criar o aplicativo “mais perfeito”, mas sim o aplicativo “mais fácil de fazer fork”
Como funciona
- O usuário pode iniciar e parar a gravação com uma tecla de atalho ou usar o modo push-to-talk
- Usa Silero VAD para filtrar trechos de silêncio e os modelos Whisper ou Parakeet V3 para converter a fala
- Modelos Whisper: versões Small, Medium, Turbo e Large, com suporte a aceleração por GPU
- Parakeet V3: otimizado para CPU, com detecção automática de idioma
- O texto convertido é inserido automaticamente no campo de entrada do aplicativo em uso
- Compatível com Windows, macOS e Linux
Arquitetura
- Frontend: React + TypeScript + Tailwind CSS
- Backend: baseado em Rust, responsável pelo processamento de áudio e inferência de machine learning
- Bibliotecas principais
whisper-rs: reconhecimento de voz local com o modelo Whisper
transcription-rs: reconhecimento via CPU com o modelo Parakeet
cpal: entrada e saída de áudio
vad-rs: detecção de atividade de voz
rdev: tratamento de atalhos globais e eventos do sistema
rubato: reamostragem de áudio
- Modo de depuração: acessível com
Cmd+Shift+D (macOS) ou Ctrl+Shift+D (Windows/Linux)
Problemas conhecidos e limitações
- Falhas nos modelos Whisper: há casos em que os modelos travam em alguns ambientes Windows/Linux
- Suporte limitado a Wayland: em ambientes Linux com Wayland, é necessário instalar
wtype ou dotool
- Ferramentas de entrada de texto
- X11:
xdotool
- Wayland:
wtype ou dotool
- Se essas ferramentas não estiverem instaladas, o app usa
enigo como alternativa, mas com limitações de compatibilidade
- Overlay desativado por padrão no Linux: vem desligado por padrão para evitar conflitos de foco
Requisitos do sistema
- Para os modelos Whisper
- macOS: série M ou Intel Mac
- Windows/Linux: GPU Intel, AMD ou NVIDIA (Ubuntu 22.04/24.04 recomendado)
- Para o modelo Parakeet V3
- Somente CPU, com recomendação de Intel Skylake (6ª geração) ou superior
- Cerca de 5x em tempo real em hardware intermediário
- Inclui detecção automática de idioma
Roadmap de desenvolvimento
- Recursos em andamento
- Adição de arquivo de log de depuração
- Melhorias nos atalhos do macOS (suporte à tecla Globe, reescrita do tratamento de atalhos globais)
- Recurso analítico opcional: coleta anônima de dados de uso, com consentimento explícito
- Refatoração do sistema de configurações e melhoria das abstrações
- Reorganização da estrutura de comandos do Tauri e melhoria da segurança de tipos
Solução de problemas e instalação manual de modelos
- Em ambientes com restrições de rede, é possível baixar e instalar os modelos manualmente
- Basta criar a pasta
models dentro do diretório de dados do aplicativo e colocar os arquivos do modelo ali
- Modelo Whisper: copiar diretamente os arquivos
.bin
- Modelo Parakeet: extrair o arquivo
.tar.gz e manter o nome de pasta especificado
- Após a instalação, ao reiniciar o aplicativo os modelos são reconhecidos automaticamente
Como contribuir
- Verifique as issues no GitHub, faça um fork e crie uma branch
- Teste o suficiente na plataforma de destino e então envie um Pull Request
- Também é possível participar da comunidade por e-mail (contact@handy.computer) ou Discord
- O objetivo é oferecer uma base que a comunidade possa evoluir por meio de um codebase simples e bem estruturado
Projetos relacionados e licença
- Handy CLI: versão de linha de comando baseada em Python
- handy.computer: site oficial com demonstração
- Distribuído sob a licença MIT
- Baseado em projetos open source como Whisper (OpenAI), Silero e Tauri
Citação
- “Handy pode encerrar sua busca por uma ferramenta de reconhecimento de voz não porque seja perfeito, mas porque você pode torná-lo perfeito.”
1 comentários
Comentários do Hacker News
Com o Parakeet V3, ele responde quase instantaneamente e a precisão é boa o suficiente
Eu costumo falar com um agente de CLI e pedir: “me diga como você entendeu o que eu falei”
Isso serve tanto para confirmar o entendimento quanto como uma espécie de especificação
Recentemente também testei a combinação Handy + Parakeet v3, e funcionou muito bem, então vou usar assim por alguns dias
Se você abrir a UI de “debug” com Cmd‑Shift‑D, também dá para ver opções extras como pós-processamento e inserção de espaços
Quero poder falar comandos como “cd ~/projects” ou “git push --force”
Por isso, apps de TTS como o SuperWhisper têm sido de grande ajuda
Espero que o Handy ofereça uma experiência parecida
Mas acho que, para evoluir para o próximo nível, ele precisa ir além de simplesmente transformar voz em texto e passar a ter expansão baseada em contexto
Por exemplo, ditar código dentro da IDE e ele gerar código de verdade
No fim, é uma direção que combina TTS com o uso do computador
ultraplanEla grava voz com Whisper local e armazena em uma linha do tempo coisas como capturas de tela e conteúdo da área de transferência
Depois, um agente como o Claude Code lê essa linha do tempo e continua o trabalho
Também dá para fazer controle hands-free, como tirar uma captura de tela ao dizer “marco”
Se quiser, posso organizar isso e publicar no GitHub
Também estou experimentando usar modelos locais pequenos (moondream, qwen etc.) para entender o contexto do computador
Quando quebrei o dedo no passado, cheguei a mapear atalhos no Handy para implementar um controle contextual simples
Por exemplo, existe o caso de 2013 Using Voice to Code Faster than Keyboard
E, em pesquisas mais recentes, também há este artigo
Se você passar a saída do STT para um LLM, ele pode entender a intenção e gerar um conjunto de comandos
Na CLI, é fácil converter comandos de voz diretamente em comandos de shell
Em GUI é um pouco mais complicado, porque precisa conhecer o estado da tela
No macOS, o MacWhisper consegue enviar o texto transcrito para endpoints compatíveis com OpenAI
O Superwhisper é pago, mas tem opção de licença vitalícia e muitos recursos. Como é mantido por um único desenvolvedor, às vezes aparecem bugs
O Hex é a opção gratuita mais leve e limpa
O Fluid Voice tem um recurso único que mostra o texto em tempo real enquanto você fala
O Handy tem uma UI rosa fofinha e eu gostei da janela de histórico. A configuração de restauração da área de transferência é um pouco incomum
Instalando vários apps alternadamente, tive alguns conflitos
Graças ao fato de a Nvidia ter liberado o Parakeet como código aberto, todos ficaram muito rápidos
Eu prefiro o recurso de streaming de transcrição em tempo real: mesmo com qualidade menor, é bom ver imediatamente e depois substituir por uma versão de alta qualidade
A maioria era paga ou por assinatura, e eu até pensei em fazer o meu próprio, mas o Handy é rápido, simples e não atrapalha
Além disso, ele recebe atualizações constantes, então estou realmente satisfeito
O recurso de pós-processamento também parece muito legal
Adicionar palavras manualmente é bom, mas acho que ficaria mais fácil complementar se ele marcasse as palavras incertas
O atalho padrão é Ctrl+Space, e a transcrição é inserida no momento em que você solta a tecla
Se o Ctrl ainda estiver pressionado nessa hora, o texto transcrito é tratado como caracteres com Ctrl
O ambiente de teste foi Linux x64, X11 e Emacs
Já testei Monologue, Superwhisper e Aqua, mas o Handy roda localmente e não tem assinatura
Recomendo fortemente
Pela descrição, parecem semelhantes. O Handy teve seu primeiro lançamento em junho de 2025, e o OpenWhispr saiu um mês depois
O Handy tem 11 mil estrelas no GitHub, e o OpenWhispr cerca de 730
Na época, o OpenWhispr não tinha o modelo Parakeet e a UI também não era muito polida
O Handy é intuitivo de usar graças à sua UI minimalista
Faltam recursos avançados, mas já estou usando há dois meses e não penso em procurar outro app de STT
As configurações também são simples na medida certa, então é fácil de usar
Fiquei curioso sobre a opção “discharging the model”, mas aparentemente ela não afeta RAM nem CPU
Ao descarregar, ele sai da memória e a inicialização fica mais lenta