Whispering - aplicativo de transcrição de voz open source

(github.com/epicenter-so)

21 pontos por GN⁺ 2025-08-19 | 2 comentários | Compartilhar no WhatsApp

O Whispering é uma ferramenta de transcrição de voz com foco local que, após o acionamento por atalho, faz o processo de voz → texto e cola o resultado diretamente na área de transferência
Ao contrário de muitas ferramentas existentes, que eram serviços fechados e pagos, o Whispering oferece processamento de dados transparente e acessibilidade open source
O usuário pode escolher entre opções locais (Whisper C++, Speaches etc.) ou na nuvem (Groq, OpenAI, ElevenLabs etc.), além de configurar os recursos de transformação com IA desejados
O app é leve, com 22 MB, e inicia rapidamente, além de incluir recursos avançados como atalhos personalizados, modo de ativação por voz e formatação automática de texto
Como permite conciliar propriedade dos dados e redução de custos, é um projeto relevante como alternativa aos SaaS fechados de transcrição

Visão geral do Whispering

Whispering é um app de transcrição de voz gratuito e open source que, ao pressionar um atalho e falar, converte a fala em texto e copia automaticamente o resultado
- Os dados pessoais ficam, por padrão, armazenados localmente e não são enviados para fora
- Se desejar, é possível conectar diretamente APIs externas como OpenAI, Groq e ElevenLabs
Tem como valores centrais a transparência e a garantia de propriedade dos dados

Principais recursos e características

Suporte a modo de ativação por voz (Voice Activity Detection, VAD)
- Quando o usuário fala, a gravação começa automaticamente; quando para, ela termina automaticamente
Recurso de transformações com IA (Transformations)
- É possível configurar diversos fluxos de trabalho com IA, como correção gramatical, tradução, resumo e aplicação de formatação
- É possível escolher entre vários provedores de LLM, como OpenAI, Anthropic, Google Gemini e Groq
Publicidade
Suporte a atalhos personalizados, permitindo adaptar a experiência ao ambiente do usuário
Estrutura de baixo custo: usa sua própria chave de API para pagar diretamente ao provedor
- Exemplo: ao usar modelos da Groq, 0.02$/hora → cerca de 0.20$/mês (100 vezes mais barato que SaaS tradicionais)

Instalação e uso

Binários disponíveis para macOS, Windows e Linux
- macOS: versões separadas para Apple Silicon e Intel
- Windows: opções de instalação MSI/EXE
- Linux: suporte a AppImage, DEB e RPM
Para quem não quiser lidar com instalação, também há uma versão web do app (mas sem suporte a atalho global)

Como os dados são processados

Todas as gravações e resultados de transcrição são armazenados no IndexedDB, com gerenciamento local
Ao escolher um serviço externo de transcrição, ocorre apenas a chamada direta via chave de API
- Sem servidor intermediário, sem coleta de dados
Os serviços de transformação também enviam dados apenas ao provedor de LLM escolhido pelo usuário
- Fluxos de transformação, prompts e valores de configuração ficam armazenados localmente

Diferenciais e vantagens

Apps de transcrição tradicionais passam por servidores intermediários e cobram 15 a 30 dólares por mês
O Whispering tem uma arquitetura sem intermediários, permitindo reduzir custos ao se conectar diretamente ao provedor
Ao escolher a opção local, é possível ter uso totalmente offline, gratuito e ilimitado

Desenvolvimento e arquitetura

Construído com base em Svelte 5 + Tauri, com suporte tanto para desktop quanto para web
- Tamanho de cerca de 22 MB, inicialização rápida e uso mínimo de recursos
Publicidade
A base de código usa uma arquitetura em 3 camadas, dividida em camada de serviços, camada de consultas e camada de UI
- 97% de compartilhamento de código entre as versões web e desktop
A extensão de navegador (React + shadcn/ui) está temporariamente pausada, enquanto a estabilização do app desktop continua

Contribuição e comunidade

Qualquer pessoa pode revisar o código-fonte, contribuir com recursos e adicionar novos adaptadores de serviços de transcrição/IA
Diretrizes de desenvolvimento: manter padrões TypeScript/Svelte e tratamento de erros baseado na biblioteca WellCrafted
Feedback dos usuários e colaboração acontecem via comunidade no Discord e GitHub Issues
Baseado na licença MIT, permitindo fork, modificação e redistribuição livremente

Principais respostas do FAQ

Uso offline: suporte totalmente offline com o modo local do Speaches
Custo real: com Groq, 0.2~3$/mês; com OpenAI, 1.8~16.2$/mês; local é gratuito
Segurança/privacidade: gravações ficam armazenadas localmente; envio externo só ocorre para a API do provedor escolhido diretamente pelo usuário
Plataformas suportadas: desktop macOS, Windows, Linux + navegador web

2 comentários

wedding 2025-08-21

Estou usando, em uma rede isolada, um servidor web leve que fiz para fazer STT com Whisper e assim implementar reconhecimento de voz. Embora expliquem como se tudo funcionasse offline, parece que, tirando a função de transcrição, coisas como transformação ainda dependem da nuvem, então fico pensando qual é o sentido real dos diferenciais e das vantagens.

GN⁺ 2025-08-19

Comentários do Hacker News

Tenho curiosidade se dá para usar o modelo Parakeet localmente; uso o MacWhisper, e estou muito satisfeito porque o Parakeet é muito superior ao Whisper em velocidade e precisão de transcrição no dispositivo, então já uso há muito tempo a combinação MacWhisper + Parakeet com push-to-transcribe; é uma experiência realmente mágica
- Ainda não há suporte, mas é um recurso que eu também quero muito. Vi que o Parakeet teve resultados incríveis no leaderboard e, no momento, a ideia é estabilizar primeiro a integração com whisper.cpp e depois adicionar suporte ao Parakeet. Se alguém criar um conector via PR, está pronto para ser aceito imediatamente
- O Parakeet é realmente impressionante: em uma GPU A100, roda a 3000x em relação ao tempo real, e até em CPU de notebook chega a 5x em tempo real. É mais preciso que o whisper-large-v3; basta conferir o leaderboard ASR do Hugging Face. Só que o framework NeMo pode ser um pouco trabalhoso. É surpreendente que rode localmente no Mac (via MacWhisper)
Para quem estiver olhando o repositório hoje de manhã, um aviso: estamos preparando uma release que adiciona suporte a Whisper C++, vejam o link da PR de progresso; quando isso for público, haverá um suporte de transcrição local muito mais poderoso. Só faltam alguns ajustes pequenos
Queria que existissem apps local-first baseados em open source para todos os tipos de uso, e que todos se integrassem bem. A ideia do Epicenter é armazenar todos os dados em texto e SQLite dentro de pastas, para que tudo seja transparente e confiável. Em cima disso, a estrutura permite adicionar ferramentas local-first interoperáveis. Gosto muito de como essa transparência gera confiança. Não tenho quase nenhuma experiência com TTS, mas quando eu explorar essa área, vou começar pelo Whispering graças ao Epicenter. Já deixei uma estrela no repositório e vou pensar em ideias de app para contribuir. Parabéns por entrar no YC e obrigado
- Muito obrigado pelo apoio; esse tipo de feedback é extremamente valioso. Fico feliz em conversar com alguém que compartilha os valores de open source e de manter a posse dos próprios dados. Durante o período no YC, vou me esforçar bastante para apoiar mais desenvolvedores OSS. Seria ótimo continuar em contato
- Acho que aqui não é TTS (síntese de voz), e sim STT (reconhecimento de fala)
- Se depois você quiser também uma versão em nuvem, pode usar a API do AgentDB para enviar só esses dados e executar apenas as consultas na nuvem
Obrigado por compartilhar um produto tão legal. Na semana passada, como os produtos comerciais estavam lentos, desenvolvi eu mesmo um app parecido que roda localmente, com um recurso de gravar e transcrever todo o áudio para inserir no app com um único botão. Também criei um segundo modo em que, se você falar na sua língua nativa, ele traduz automaticamente para o inglês. Também implementei corretamente a preservação de formatação, como vírgulas e aspas. É curioso que esse tipo de coisa ainda não exista no app padrão de ditado do macOS
- Muito obrigado pelo apoio; fico feliz que também tenha ajudado com tradução. Também acho estranho que o recurso padrão de ditado do macOS não tenha evoluído até esse nível. O OSS está preenchendo esse espaço
Fico curioso se isso existe também no iOS. Quero um app de teclado iOS personalizado que envolva Parakeet ou Whisper, para eu poder mudar para o teclado de ditado, apertar um botão e inserir imediatamente a transcrição em qualquer app (inclusive de terceiros). No macOS, o MacWhisper é realmente excelente, mas ainda não existe a mesma coisa no iOS. O ditado padrão do iOS é bom, mas o Whisper cpp entende muito melhor termos técnicos e siglas
- O superwhisper oferece esse recurso
Eu tinha interesse em ditado com processamento de áudio local. Não gosto de enviar áudio para APIs remotas; preciso que tudo funcione apenas localmente, sem exposição alguma. Testei algumas opções, incluindo o modelo usado no FUTO Keyboard, mas ainda sinto que falta bastante, principalmente no tratamento de ruído, de muletas como "hum..." e "é...", e de correções no meio da fala. Espero que surja um modelo aberto que resolva bem essas partes. Ainda é difícil saber se o problema está no app ou nas limitações do modelo, mas tenho curiosidade sobre novos modelos nessa área. Até lá, infelizmente, acho que vou ter de continuar fazendo anotações digitando
- Você já experimentou o próprio Whisper? Eu recomendaria. Ele tem pesos abertos e um dos recursos do Epicenter apresentado acima é a "transformação de transcrição". Dá para passar o texto para um LLM e refiná-lo de forma mais limpa. Se o custo de tokens não for um problema, isso pode não só remover muletas como também corrigir automaticamente as frases por unidade de sentido
Estou gostando cada vez mais da ideia de combinar a abordagem local-first com ferramentas de backup próprias nessa área. Recentemente o hyprnote fez sucesso no Hacker News; é realmente muito bem feito e, apesar de ser local-first, também pode ser usado com as ferramentas de sua preferência
- Também sou muito fã do Hyprnote. Os dois produtos são um pouco diferentes, mas há bastante sobreposição no stack técnico e a missão é muito parecida
Uso o whispering há mais de um ano, e isso mudou totalmente a forma como interajo com o computador. Recomendo muito comprar um mouse e um teclado com teclas programáveis e registrar neles os atalhos do whispering. Agora digitar normalmente parece tão ineficiente que não consigo mais voltar
- Muito obrigado pelo apoio; esse tipo de feedback dá uma força enorme. Se surgir qualquer problema no futuro, por favor entre em contato a qualquer momento
Fico curioso se essa tecnologia funciona bem também com vozes infantis. Há bastante demanda em apps educacionais por modelos locais em que a privacidade é importante. Mas, pelo que sei, o Whisper atualmente não entende muito bem faixas etárias mais jovens
- Sim, o Whisper tende a ser fraco com vozes de crianças. Ainda não testei o Parakeet nem outros modelos, mas é um bom caso de uso, já que privacidade é importante em educação. Também gostaria de recomendar o Hyprnote; recentemente eles vêm tentando expandir os modelos, como o OWhisper. Veja apresentação do Hyprnote e mais detalhes sobre o OWhisper
Sou obcecado por software open source local-first; acho que todo mundo deveria ser assim
- Concordo totalmente