21 pontos por GN⁺ 2025-08-19 | Ainda não há comentários. | Compartilhar no WhatsApp
  • O Whispering é uma ferramenta de transcrição de voz com foco local que, após o acionamento por atalho, faz o processo de voz → texto e cola o resultado diretamente na área de transferência
  • Ao contrário de muitas ferramentas existentes, que eram serviços fechados e pagos, o Whispering oferece processamento de dados transparente e acessibilidade open source
  • O usuário pode escolher entre opções locais (Whisper C++, Speaches etc.) ou na nuvem (Groq, OpenAI, ElevenLabs etc.), além de configurar os recursos de transformação com IA desejados
  • O app é leve, com 22 MB, e inicia rapidamente, além de incluir recursos avançados como atalhos personalizados, modo de ativação por voz e formatação automática de texto
  • Como permite conciliar propriedade dos dados e redução de custos, é um projeto relevante como alternativa aos SaaS fechados de transcrição

Visão geral do Whispering

  • Whispering é um app de transcrição de voz gratuito e open source que, ao pressionar um atalho e falar, converte a fala em texto e copia automaticamente o resultado
    • Os dados pessoais ficam, por padrão, armazenados localmente e não são enviados para fora
    • Se desejar, é possível conectar diretamente APIs externas como OpenAI, Groq e ElevenLabs
  • Tem como valores centrais a transparência e a garantia de propriedade dos dados

Principais recursos e características

  • Suporte a modo de ativação por voz (Voice Activity Detection, VAD)
    • Quando o usuário fala, a gravação começa automaticamente; quando para, ela termina automaticamente
  • Recurso de transformações com IA (Transformations)
    • É possível configurar diversos fluxos de trabalho com IA, como correção gramatical, tradução, resumo e aplicação de formatação
    • É possível escolher entre vários provedores de LLM, como OpenAI, Anthropic, Google Gemini e Groq
  • Suporte a atalhos personalizados, permitindo adaptar a experiência ao ambiente do usuário
  • Estrutura de baixo custo: usa sua própria chave de API para pagar diretamente ao provedor
    • Exemplo: ao usar modelos da Groq, 0.02$/hora → cerca de 0.20$/mês (100 vezes mais barato que SaaS tradicionais)

Instalação e uso

  • Binários disponíveis para macOS, Windows e Linux
    • macOS: versões separadas para Apple Silicon e Intel
    • Windows: opções de instalação MSI/EXE
    • Linux: suporte a AppImage, DEB e RPM
  • Para quem não quiser lidar com instalação, também há uma versão web do app (mas sem suporte a atalho global)

Como os dados são processados

  • Todas as gravações e resultados de transcrição são armazenados no IndexedDB, com gerenciamento local
  • Ao escolher um serviço externo de transcrição, ocorre apenas a chamada direta via chave de API
    • Sem servidor intermediário, sem coleta de dados
  • Os serviços de transformação também enviam dados apenas ao provedor de LLM escolhido pelo usuário
    • Fluxos de transformação, prompts e valores de configuração ficam armazenados localmente

Diferenciais e vantagens

  • Apps de transcrição tradicionais passam por servidores intermediários e cobram 15 a 30 dólares por mês
  • O Whispering tem uma arquitetura sem intermediários, permitindo reduzir custos ao se conectar diretamente ao provedor
  • Ao escolher a opção local, é possível ter uso totalmente offline, gratuito e ilimitado

Desenvolvimento e arquitetura

  • Construído com base em Svelte 5 + Tauri, com suporte tanto para desktop quanto para web
    • Tamanho de cerca de 22 MB, inicialização rápida e uso mínimo de recursos
  • A base de código usa uma arquitetura em 3 camadas, dividida em camada de serviços, camada de consultas e camada de UI
    • 97% de compartilhamento de código entre as versões web e desktop
  • A extensão de navegador (React + shadcn/ui) está temporariamente pausada, enquanto a estabilização do app desktop continua

Contribuição e comunidade

  • Qualquer pessoa pode revisar o código-fonte, contribuir com recursos e adicionar novos adaptadores de serviços de transcrição/IA
  • Diretrizes de desenvolvimento: manter padrões TypeScript/Svelte e tratamento de erros baseado na biblioteca WellCrafted
  • Feedback dos usuários e colaboração acontecem via comunidade no Discord e GitHub Issues
  • Baseado na licença MIT, permitindo fork, modificação e redistribuição livremente

Principais respostas do FAQ

  • Uso offline: suporte totalmente offline com o modo local do Speaches
  • Custo real: com Groq, 0.2~3$/mês; com OpenAI, 1.8~16.2$/mês; local é gratuito
  • Segurança/privacidade: gravações ficam armazenadas localmente; envio externo só ocorre para a API do provedor escolhido diretamente pelo usuário
  • Plataformas suportadas: desktop macOS, Windows, Linux + navegador web

Ainda não há comentários.

Ainda não há comentários.