Handy – aplicativo gratuito e open source de reconhecimento de voz

(github.com/cjpais)

2 pontos por GN⁺ 2026-01-17 | 1 comentários | Compartilhar no WhatsApp

Handy é um aplicativo de desktop gratuito e open source de conversão de voz em texto que funciona totalmente offline, com design voltado para privacidade
Desenvolvido com base em Tauri (Rust + React/TypeScript), funciona de modo que, ao pressionar uma tecla de atalho e falar, a voz é inserida diretamente em um campo de texto
Suporta os modelos Whisper e Parakeet V3, realizando reconhecimento de voz localmente com aceleração por GPU ou via CPU
Funciona em Windows, macOS e Linux, e foi desenvolvido com foco em extensibilidade e facilidade de fork, incentivando contribuições de desenvolvedores
Como ferramenta de entrada por voz centrada em privacidade, processa tudo localmente sem envio para a nuvem, oferecendo alta acessibilidade e possibilidade de customização

Visão geral

Handy é um aplicativo de reconhecimento de voz gratuito, open source e expansível que funciona totalmente offline, sem conexão com a internet
Baseado no framework Tauri, combina backend em Rust com frontend em React/TypeScript
O usuário pressiona uma tecla de atalho para falar e, ao soltá-la, os modelos Whisper ou Parakeet V3 convertem a fala em texto e colam o resultado no aplicativo atual
Todos os dados de voz são processados localmente, então não há risco de vazamento de informações pessoais

A filosofia do Handy

Gratuito: ferramentas de acessibilidade devem estar disponíveis para todos
Open source: qualquer pessoa pode expandir e melhorar os recursos
Privacidade garantida: os dados de voz não são enviados para a nuvem
Simplicidade: foco em uma única finalidade, transformar voz em texto
O objetivo não é criar o aplicativo “mais perfeito”, mas sim o aplicativo “mais fácil de fazer fork”

Como funciona

O usuário pode iniciar e parar a gravação com uma tecla de atalho ou usar o modo push-to-talk
Usa Silero VAD para filtrar trechos de silêncio e os modelos Whisper ou Parakeet V3 para converter a fala
- Modelos Whisper: versões Small, Medium, Turbo e Large, com suporte a aceleração por GPU
- Parakeet V3: otimizado para CPU, com detecção automática de idioma
O texto convertido é inserido automaticamente no campo de entrada do aplicativo em uso
Compatível com Windows, macOS e Linux

Arquitetura

Frontend: React + TypeScript + Tailwind CSS
Backend: baseado em Rust, responsável pelo processamento de áudio e inferência de machine learning
Bibliotecas principais
- whisper-rs: reconhecimento de voz local com o modelo Whisper
- transcription-rs: reconhecimento via CPU com o modelo Parakeet
- cpal: entrada e saída de áudio
- vad-rs: detecção de atividade de voz
- rdev: tratamento de atalhos globais e eventos do sistema
- rubato: reamostragem de áudio
Modo de depuração: acessível com Cmd+Shift+D (macOS) ou Ctrl+Shift+D (Windows/Linux)

Problemas conhecidos e limitações

Falhas nos modelos Whisper: há casos em que os modelos travam em alguns ambientes Windows/Linux
Suporte limitado a Wayland: em ambientes Linux com Wayland, é necessário instalar wtype ou dotool
Ferramentas de entrada de texto
- X11: xdotool
- Wayland: wtype ou dotool
- Se essas ferramentas não estiverem instaladas, o app usa enigo como alternativa, mas com limitações de compatibilidade
Overlay desativado por padrão no Linux: vem desligado por padrão para evitar conflitos de foco

Requisitos do sistema

Para os modelos Whisper
- macOS: série M ou Intel Mac
- Windows/Linux: GPU Intel, AMD ou NVIDIA (Ubuntu 22.04/24.04 recomendado)
Para o modelo Parakeet V3
- Somente CPU, com recomendação de Intel Skylake (6ª geração) ou superior
- Cerca de 5x em tempo real em hardware intermediário
- Inclui detecção automática de idioma

Roadmap de desenvolvimento

Recursos em andamento
- Adição de arquivo de log de depuração
- Melhorias nos atalhos do macOS (suporte à tecla Globe, reescrita do tratamento de atalhos globais)
- Recurso analítico opcional: coleta anônima de dados de uso, com consentimento explícito
- Refatoração do sistema de configurações e melhoria das abstrações
- Reorganização da estrutura de comandos do Tauri e melhoria da segurança de tipos

Solução de problemas e instalação manual de modelos

Em ambientes com restrições de rede, é possível baixar e instalar os modelos manualmente
Basta criar a pasta models dentro do diretório de dados do aplicativo e colocar os arquivos do modelo ali
- Modelo Whisper: copiar diretamente os arquivos .bin
- Modelo Parakeet: extrair o arquivo .tar.gz e manter o nome de pasta especificado
Após a instalação, ao reiniciar o aplicativo os modelos são reconhecidos automaticamente

Como contribuir

Verifique as issues no GitHub, faça um fork e crie uma branch
Teste o suficiente na plataforma de destino e então envie um Pull Request
Também é possível participar da comunidade por e-mail (contact@handy.computer) ou Discord
O objetivo é oferecer uma base que a comunidade possa evoluir por meio de um codebase simples e bem estruturado

Projetos relacionados e licença

Handy CLI: versão de linha de comando baseada em Python
handy.computer: site oficial com demonstração
Distribuído sob a licença MIT
Baseado em projetos open source como Whisper (OpenAI), Silero e Tauri

Citação

“Handy pode encerrar sua busca por uma ferramenta de reconhecimento de voz não porque seja perfeito, mas porque você pode torná-lo perfeito.”

1 comentários

GN⁺ 2026-01-17

Comentários do Hacker News

Já usei vários apps de STT, mas no fim acabei ficando com o VoiceInk (local, pagamento único)
Com o Parakeet V3, ele responde quase instantaneamente e a precisão é boa o suficiente
Eu costumo falar com um agente de CLI e pedir: “me diga como você entendeu o que eu falei”
Isso serve tanto para confirmar o entendimento quanto como uma espécie de especificação
Recentemente também testei a combinação Handy + Parakeet v3, e funcionou muito bem, então vou usar assim por alguns dias
Se você abrir a UI de “debug” com Cmd‑Shift‑D, também dá para ver opções extras como pós-processamento e inserção de espaços
- Seria ótimo se um desses modelos fosse especializado em programação
  Quero poder falar comandos como “cd ~/projects” ou “git push --force”
Eu tenho distonia e às vezes meus braços travam, então não consigo digitar
Por isso, apps de TTS como o SuperWhisper têm sido de grande ajuda
Espero que o Handy ofereça uma experiência parecida
Mas acho que, para evoluir para o próximo nível, ele precisa ir além de simplesmente transformar voz em texto e passar a ter expansão baseada em contexto
Por exemplo, ditar código dentro da IDE e ele gerar código de verdade
No fim, é uma direção que combina TTS com o uso do computador
- Eu criei uma ferramenta de CLI chamada ultraplan
  Ela grava voz com Whisper local e armazena em uma linha do tempo coisas como capturas de tela e conteúdo da área de transferência
  Depois, um agente como o Claude Code lê essa linha do tempo e continua o trabalho
  Também dá para fazer controle hands-free, como tirar uma captura de tela ao dizer “marco”
  Se quiser, posso organizar isso e publicar no GitHub
- Concordo com você. Foi por isso que liberei o Handy como código aberto
  Também estou experimentando usar modelos locais pequenos (moondream, qwen etc.) para entender o contexto do computador
  Quando quebrei o dedo no passado, cheguei a mapear atalhos no Handy para implementar um controle contextual simples
- “Programar por voz” já era muito estudado antes dos LLMs
  Por exemplo, existe o caso de 2013 Using Voice to Code Faster than Keyboard
  E, em pesquisas mais recentes, também há este artigo
- O recurso que você mencionou já é possível
  Se você passar a saída do STT para um LLM, ele pode entender a intenção e gerar um conjunto de comandos
  Na CLI, é fácil converter comandos de voz diretamente em comandos de shell
  Em GUI é um pouco mais complicado, porque precisa conhecer o estado da tela
  No macOS, o MacWhisper consegue enviar o texto transcrito para endpoints compatíveis com OpenAI
Aqui vai uma avaliação rápida depois de usar vários apps de transcrição por voz
O Superwhisper é pago, mas tem opção de licença vitalícia e muitos recursos. Como é mantido por um único desenvolvedor, às vezes aparecem bugs
O Hex é a opção gratuita mais leve e limpa
O Fluid Voice tem um recurso único que mostra o texto em tempo real enquanto você fala
O Handy tem uma UI rosa fofinha e eu gostei da janela de histórico. A configuração de restauração da área de transferência é um pouco incomum
Instalando vários apps alternadamente, tive alguns conflitos
Graças ao fato de a Nvidia ter liberado o Parakeet como código aberto, todos ficaram muito rápidos
Eu prefiro o recurso de streaming de transcrição em tempo real: mesmo com qualidade menor, é bom ver imediatamente e depois substituir por uma versão de alta qualidade
Depois de passar algumas semanas procurando um app de STT, encontrei o Handy
A maioria era paga ou por assinatura, e eu até pensei em fazer o meu próprio, mas o Handy é rápido, simples e não atrapalha
Além disso, ele recebe atualizações constantes, então estou realmente satisfeito
O recurso de pós-processamento também parece muito legal
Estou usando o Wispr Flow, mas para eu migrar preciso de um recurso de dicionário personalizado para palavras que ele erra com frequência, como nomes de empresas, pessoas e bibliotecas
- Acho que você está falando do recurso “Custom Words”. Ainda não consegui testar direito
- Um PR relacionado deve ser mesclado em breve, então talvez já dê para compilar e usar antes
- Alguns modelos mostram a confiança por palavra
  Adicionar palavras manualmente é bom, mas acho que ficaria mais fácil complementar se ele marcasse as palavras incertas
Há um ponto de atenção
O atalho padrão é Ctrl+Space, e a transcrição é inserida no momento em que você solta a tecla
Se o Ctrl ainda estiver pressionado nessa hora, o texto transcrito é tratado como caracteres com Ctrl
O ambiente de teste foi Linux x64, X11 e Emacs
Uso o Handy com o Parakeet v3 e ele é excelente
Já testei Monologue, Superwhisper e Aqua, mas o Handy roda localmente e não tem assinatura
Recomendo fortemente
Queria saber se alguém comparou com o OpenWhispr
Pela descrição, parecem semelhantes. O Handy teve seu primeiro lançamento em junho de 2025, e o OpenWhispr saiu um mês depois
O Handy tem 11 mil estrelas no GitHub, e o OpenWhispr cerca de 730
- Usei os dois, e o Handy foi muito mais simples porque dá para instalar direto como app de macOS
  Na época, o OpenWhispr não tinha o modelo Parakeet e a UI também não era muito polida
  O Handy é intuitivo de usar graças à sua UI minimalista
  Faltam recursos avançados, mas já estou usando há dois meses e não penso em procurar outro app de STT
No meu MacBook Air M1, o Handy é muito rápido e mais preciso que o STT padrão do macOS
As configurações também são simples na medida certa, então é fácil de usar
Fiquei curioso sobre a opção “discharging the model”, mas aparentemente ela não afeta RAM nem CPU
- É um recurso para manter o modelo residente na RAM, permitindo acesso rápido
  Ao descarregar, ele sai da memória e a inicialização fica mais lenta
O modelo Parakeet V3 é realmente excelente

Handy – aplicativo gratuito e open source de reconhecimento de voz

Visão geral

A filosofia do Handy

Como funciona

Arquitetura

Problemas conhecidos e limitações

Requisitos do sistema

Roadmap de desenvolvimento

Solução de problemas e instalação manual de modelos

Como contribuir

Projetos relacionados e licença

Citação

Leituras relacionadas

1 comentários

Comentários do Hacker News