- O Whispering é uma ferramenta de transcrição de voz com foco local que, após o acionamento por atalho, faz o processo de voz → texto e cola o resultado diretamente na área de transferência
- Ao contrário de muitas ferramentas existentes, que eram serviços fechados e pagos, o Whispering oferece processamento de dados transparente e acessibilidade open source
- O usuário pode escolher entre opções locais (Whisper C++, Speaches etc.) ou na nuvem (Groq, OpenAI, ElevenLabs etc.), além de configurar os recursos de transformação com IA desejados
- O app é leve, com 22 MB, e inicia rapidamente, além de incluir recursos avançados como atalhos personalizados, modo de ativação por voz e formatação automática de texto
- Como permite conciliar propriedade dos dados e redução de custos, é um projeto relevante como alternativa aos SaaS fechados de transcrição
Visão geral do Whispering
- Whispering é um app de transcrição de voz gratuito e open source que, ao pressionar um atalho e falar, converte a fala em texto e copia automaticamente o resultado
- Os dados pessoais ficam, por padrão, armazenados localmente e não são enviados para fora
- Se desejar, é possível conectar diretamente APIs externas como OpenAI, Groq e ElevenLabs
- Tem como valores centrais a transparência e a garantia de propriedade dos dados
Principais recursos e características
- Suporte a modo de ativação por voz (Voice Activity Detection, VAD)
- Quando o usuário fala, a gravação começa automaticamente; quando para, ela termina automaticamente
- Recurso de transformações com IA (Transformations)
- É possível configurar diversos fluxos de trabalho com IA, como correção gramatical, tradução, resumo e aplicação de formatação
- É possível escolher entre vários provedores de LLM, como OpenAI, Anthropic, Google Gemini e Groq
- Suporte a atalhos personalizados, permitindo adaptar a experiência ao ambiente do usuário
- Estrutura de baixo custo: usa sua própria chave de API para pagar diretamente ao provedor
- Exemplo: ao usar modelos da Groq, 0.02$/hora → cerca de 0.20$/mês (100 vezes mais barato que SaaS tradicionais)
Instalação e uso
- Binários disponíveis para macOS, Windows e Linux
- macOS: versões separadas para Apple Silicon e Intel
- Windows: opções de instalação MSI/EXE
- Linux: suporte a AppImage, DEB e RPM
- Para quem não quiser lidar com instalação, também há uma versão web do app (mas sem suporte a atalho global)
Como os dados são processados
- Todas as gravações e resultados de transcrição são armazenados no IndexedDB, com gerenciamento local
- Ao escolher um serviço externo de transcrição, ocorre apenas a chamada direta via chave de API
- Sem servidor intermediário, sem coleta de dados
- Os serviços de transformação também enviam dados apenas ao provedor de LLM escolhido pelo usuário
- Fluxos de transformação, prompts e valores de configuração ficam armazenados localmente
Diferenciais e vantagens
- Apps de transcrição tradicionais passam por servidores intermediários e cobram 15 a 30 dólares por mês
- O Whispering tem uma arquitetura sem intermediários, permitindo reduzir custos ao se conectar diretamente ao provedor
- Ao escolher a opção local, é possível ter uso totalmente offline, gratuito e ilimitado
Desenvolvimento e arquitetura
- Construído com base em Svelte 5 + Tauri, com suporte tanto para desktop quanto para web
- Tamanho de cerca de 22 MB, inicialização rápida e uso mínimo de recursos
- A base de código usa uma arquitetura em 3 camadas, dividida em camada de serviços, camada de consultas e camada de UI
- 97% de compartilhamento de código entre as versões web e desktop
- A extensão de navegador (React + shadcn/ui) está temporariamente pausada, enquanto a estabilização do app desktop continua
Contribuição e comunidade
- Qualquer pessoa pode revisar o código-fonte, contribuir com recursos e adicionar novos adaptadores de serviços de transcrição/IA
- Diretrizes de desenvolvimento: manter padrões TypeScript/Svelte e tratamento de erros baseado na biblioteca WellCrafted
- Feedback dos usuários e colaboração acontecem via comunidade no Discord e GitHub Issues
- Baseado na licença MIT, permitindo fork, modificação e redistribuição livremente
Principais respostas do FAQ
- Uso offline: suporte totalmente offline com o modo local do Speaches
- Custo real: com Groq, 0.2~3$/mês; com OpenAI, 1.8~16.2$/mês; local é gratuito
- Segurança/privacidade: gravações ficam armazenadas localmente; envio externo só ocorre para a API do provedor escolhido diretamente pelo usuário
- Plataformas suportadas: desktop macOS, Windows, Linux + navegador web
Ainda não há comentários.