2 pontos por GN⁺ 2026-01-17 | 1 comentários | Compartilhar no WhatsApp
  • Handy é um aplicativo de desktop gratuito e open source de conversão de voz em texto que funciona totalmente offline, com design voltado para privacidade
  • Desenvolvido com base em Tauri (Rust + React/TypeScript), funciona de modo que, ao pressionar uma tecla de atalho e falar, a voz é inserida diretamente em um campo de texto
  • Suporta os modelos Whisper e Parakeet V3, realizando reconhecimento de voz localmente com aceleração por GPU ou via CPU
  • Funciona em Windows, macOS e Linux, e foi desenvolvido com foco em extensibilidade e facilidade de fork, incentivando contribuições de desenvolvedores
  • Como ferramenta de entrada por voz centrada em privacidade, processa tudo localmente sem envio para a nuvem, oferecendo alta acessibilidade e possibilidade de customização

Visão geral

  • Handy é um aplicativo de reconhecimento de voz gratuito, open source e expansível que funciona totalmente offline, sem conexão com a internet
  • Baseado no framework Tauri, combina backend em Rust com frontend em React/TypeScript
  • O usuário pressiona uma tecla de atalho para falar e, ao soltá-la, os modelos Whisper ou Parakeet V3 convertem a fala em texto e colam o resultado no aplicativo atual
  • Todos os dados de voz são processados localmente, então não há risco de vazamento de informações pessoais

A filosofia do Handy

  • Gratuito: ferramentas de acessibilidade devem estar disponíveis para todos
  • Open source: qualquer pessoa pode expandir e melhorar os recursos
  • Privacidade garantida: os dados de voz não são enviados para a nuvem
  • Simplicidade: foco em uma única finalidade, transformar voz em texto
  • O objetivo não é criar o aplicativo “mais perfeito”, mas sim o aplicativo “mais fácil de fazer fork”

Como funciona

  • O usuário pode iniciar e parar a gravação com uma tecla de atalho ou usar o modo push-to-talk
  • Usa Silero VAD para filtrar trechos de silêncio e os modelos Whisper ou Parakeet V3 para converter a fala
    • Modelos Whisper: versões Small, Medium, Turbo e Large, com suporte a aceleração por GPU
    • Parakeet V3: otimizado para CPU, com detecção automática de idioma
  • O texto convertido é inserido automaticamente no campo de entrada do aplicativo em uso
  • Compatível com Windows, macOS e Linux

Arquitetura

  • Frontend: React + TypeScript + Tailwind CSS
  • Backend: baseado em Rust, responsável pelo processamento de áudio e inferência de machine learning
  • Bibliotecas principais
    • whisper-rs: reconhecimento de voz local com o modelo Whisper
    • transcription-rs: reconhecimento via CPU com o modelo Parakeet
    • cpal: entrada e saída de áudio
    • vad-rs: detecção de atividade de voz
    • rdev: tratamento de atalhos globais e eventos do sistema
    • rubato: reamostragem de áudio
  • Modo de depuração: acessível com Cmd+Shift+D (macOS) ou Ctrl+Shift+D (Windows/Linux)

Problemas conhecidos e limitações

  • Falhas nos modelos Whisper: há casos em que os modelos travam em alguns ambientes Windows/Linux
  • Suporte limitado a Wayland: em ambientes Linux com Wayland, é necessário instalar wtype ou dotool
  • Ferramentas de entrada de texto
    • X11: xdotool
    • Wayland: wtype ou dotool
    • Se essas ferramentas não estiverem instaladas, o app usa enigo como alternativa, mas com limitações de compatibilidade
  • Overlay desativado por padrão no Linux: vem desligado por padrão para evitar conflitos de foco

Requisitos do sistema

  • Para os modelos Whisper
    • macOS: série M ou Intel Mac
    • Windows/Linux: GPU Intel, AMD ou NVIDIA (Ubuntu 22.04/24.04 recomendado)
  • Para o modelo Parakeet V3
    • Somente CPU, com recomendação de Intel Skylake (6ª geração) ou superior
    • Cerca de 5x em tempo real em hardware intermediário
    • Inclui detecção automática de idioma

Roadmap de desenvolvimento

  • Recursos em andamento
    • Adição de arquivo de log de depuração
    • Melhorias nos atalhos do macOS (suporte à tecla Globe, reescrita do tratamento de atalhos globais)
    • Recurso analítico opcional: coleta anônima de dados de uso, com consentimento explícito
    • Refatoração do sistema de configurações e melhoria das abstrações
    • Reorganização da estrutura de comandos do Tauri e melhoria da segurança de tipos

Solução de problemas e instalação manual de modelos

  • Em ambientes com restrições de rede, é possível baixar e instalar os modelos manualmente
  • Basta criar a pasta models dentro do diretório de dados do aplicativo e colocar os arquivos do modelo ali
    • Modelo Whisper: copiar diretamente os arquivos .bin
    • Modelo Parakeet: extrair o arquivo .tar.gz e manter o nome de pasta especificado
  • Após a instalação, ao reiniciar o aplicativo os modelos são reconhecidos automaticamente

Como contribuir

  • Verifique as issues no GitHub, faça um fork e crie uma branch
  • Teste o suficiente na plataforma de destino e então envie um Pull Request
  • Também é possível participar da comunidade por e-mail (contact@handy.computer) ou Discord
  • O objetivo é oferecer uma base que a comunidade possa evoluir por meio de um codebase simples e bem estruturado

Projetos relacionados e licença

  • Handy CLI: versão de linha de comando baseada em Python
  • handy.computer: site oficial com demonstração
  • Distribuído sob a licença MIT
  • Baseado em projetos open source como Whisper (OpenAI), Silero e Tauri

Citação

  • Handy pode encerrar sua busca por uma ferramenta de reconhecimento de voz não porque seja perfeito, mas porque você pode torná-lo perfeito.”

1 comentários

 
GN⁺ 2026-01-17
Comentários do Hacker News
  • Já usei vários apps de STT, mas no fim acabei ficando com o VoiceInk (local, pagamento único)
    Com o Parakeet V3, ele responde quase instantaneamente e a precisão é boa o suficiente
    Eu costumo falar com um agente de CLI e pedir: “me diga como você entendeu o que eu falei”
    Isso serve tanto para confirmar o entendimento quanto como uma espécie de especificação
    Recentemente também testei a combinação Handy + Parakeet v3, e funcionou muito bem, então vou usar assim por alguns dias
    Se você abrir a UI de “debug” com Cmd‑Shift‑D, também dá para ver opções extras como pós-processamento e inserção de espaços
    • Seria ótimo se um desses modelos fosse especializado em programação
      Quero poder falar comandos como “cd ~/projects” ou “git push --force”
  • Eu tenho distonia e às vezes meus braços travam, então não consigo digitar
    Por isso, apps de TTS como o SuperWhisper têm sido de grande ajuda
    Espero que o Handy ofereça uma experiência parecida
    Mas acho que, para evoluir para o próximo nível, ele precisa ir além de simplesmente transformar voz em texto e passar a ter expansão baseada em contexto
    Por exemplo, ditar código dentro da IDE e ele gerar código de verdade
    No fim, é uma direção que combina TTS com o uso do computador
    • Eu criei uma ferramenta de CLI chamada ultraplan
      Ela grava voz com Whisper local e armazena em uma linha do tempo coisas como capturas de tela e conteúdo da área de transferência
      Depois, um agente como o Claude Code lê essa linha do tempo e continua o trabalho
      Também dá para fazer controle hands-free, como tirar uma captura de tela ao dizer “marco”
      Se quiser, posso organizar isso e publicar no GitHub
    • Concordo com você. Foi por isso que liberei o Handy como código aberto
      Também estou experimentando usar modelos locais pequenos (moondream, qwen etc.) para entender o contexto do computador
      Quando quebrei o dedo no passado, cheguei a mapear atalhos no Handy para implementar um controle contextual simples
    • “Programar por voz” já era muito estudado antes dos LLMs
      Por exemplo, existe o caso de 2013 Using Voice to Code Faster than Keyboard
      E, em pesquisas mais recentes, também há este artigo
    • O recurso que você mencionou já é possível
      Se você passar a saída do STT para um LLM, ele pode entender a intenção e gerar um conjunto de comandos
      Na CLI, é fácil converter comandos de voz diretamente em comandos de shell
      Em GUI é um pouco mais complicado, porque precisa conhecer o estado da tela
      No macOS, o MacWhisper consegue enviar o texto transcrito para endpoints compatíveis com OpenAI
  • Aqui vai uma avaliação rápida depois de usar vários apps de transcrição por voz
    O Superwhisper é pago, mas tem opção de licença vitalícia e muitos recursos. Como é mantido por um único desenvolvedor, às vezes aparecem bugs
    O Hex é a opção gratuita mais leve e limpa
    O Fluid Voice tem um recurso único que mostra o texto em tempo real enquanto você fala
    O Handy tem uma UI rosa fofinha e eu gostei da janela de histórico. A configuração de restauração da área de transferência é um pouco incomum
    Instalando vários apps alternadamente, tive alguns conflitos
    Graças ao fato de a Nvidia ter liberado o Parakeet como código aberto, todos ficaram muito rápidos
    Eu prefiro o recurso de streaming de transcrição em tempo real: mesmo com qualidade menor, é bom ver imediatamente e depois substituir por uma versão de alta qualidade
  • Depois de passar algumas semanas procurando um app de STT, encontrei o Handy
    A maioria era paga ou por assinatura, e eu até pensei em fazer o meu próprio, mas o Handy é rápido, simples e não atrapalha
    Além disso, ele recebe atualizações constantes, então estou realmente satisfeito
    O recurso de pós-processamento também parece muito legal
  • Estou usando o Wispr Flow, mas para eu migrar preciso de um recurso de dicionário personalizado para palavras que ele erra com frequência, como nomes de empresas, pessoas e bibliotecas
    • Acho que você está falando do recurso “Custom Words”. Ainda não consegui testar direito
    • Um PR relacionado deve ser mesclado em breve, então talvez já dê para compilar e usar antes
    • Alguns modelos mostram a confiança por palavra
      Adicionar palavras manualmente é bom, mas acho que ficaria mais fácil complementar se ele marcasse as palavras incertas
  • Há um ponto de atenção
    O atalho padrão é Ctrl+Space, e a transcrição é inserida no momento em que você solta a tecla
    Se o Ctrl ainda estiver pressionado nessa hora, o texto transcrito é tratado como caracteres com Ctrl
    O ambiente de teste foi Linux x64, X11 e Emacs
  • Uso o Handy com o Parakeet v3 e ele é excelente
    Já testei Monologue, Superwhisper e Aqua, mas o Handy roda localmente e não tem assinatura
    Recomendo fortemente
  • Queria saber se alguém comparou com o OpenWhispr
    Pela descrição, parecem semelhantes. O Handy teve seu primeiro lançamento em junho de 2025, e o OpenWhispr saiu um mês depois
    O Handy tem 11 mil estrelas no GitHub, e o OpenWhispr cerca de 730
    • Usei os dois, e o Handy foi muito mais simples porque dá para instalar direto como app de macOS
      Na época, o OpenWhispr não tinha o modelo Parakeet e a UI também não era muito polida
      O Handy é intuitivo de usar graças à sua UI minimalista
      Faltam recursos avançados, mas já estou usando há dois meses e não penso em procurar outro app de STT
  • No meu MacBook Air M1, o Handy é muito rápido e mais preciso que o STT padrão do macOS
    As configurações também são simples na medida certa, então é fácil de usar
    Fiquei curioso sobre a opção “discharging the model”, mas aparentemente ela não afeta RAM nem CPU
    • É um recurso para manter o modelo residente na RAM, permitindo acesso rápido
      Ao descarregar, ele sai da memória e a inicialização fica mais lenta
  • O modelo Parakeet V3 é realmente excelente