Ghost Pepper – app local de conversão de voz em texto para macOS
(github.com/matthartman)- App de reconhecimento de voz local para macOS que converte automaticamente a fala em texto e cola o resultado ao manter a tecla Control pressionada enquanto você fala
- Todo o processo de reconhecimento de voz e limpeza do texto é feito apenas localmente, garantindo privacidade sem envio para a nuvem
- Baseado em WhisperKit e LLM.swift, faz download automático de modelos do Hugging Face e os armazena em cache
- Com recurso de limpeza inteligente, remove falas desnecessárias e corrige expressões de autocorreção, executando em segundo plano como app da barra de menus
- Disponível como código aberto sob licença MIT e funciona em Apple Silicon com macOS 14 ou superior
Visão geral
- Ghost Pepper é um app de conversão de voz em texto totalmente local para macOS, que oferece a função de pressionar a tecla Control, falar e, ao soltar, converter automaticamente em texto e colar
- Não usa APIs em nuvem, e todos os dados e modelos são processados apenas localmente
- Funciona em Apple Silicon (M1 ou superior) com macOS 14.0 ou superior
- É executado como app da barra de menus e pode iniciar automaticamente ao fazer login
- Projeto de código aberto disponibilizado sob licença MIT
Principais recursos
- Pressione a tecla Control e fale → ao soltar a tecla, ocorre automaticamente a conversão em texto e a colagem
- Arquitetura de execução local, em que tanto o reconhecimento de voz quanto os modelos de pós-processamento rodam dentro do Mac
- Recurso de limpeza inteligente remove falas desnecessárias (uh, um etc.) e corrige automaticamente expressões de autocorreção
- Interface exclusiva da barra de menus, funcionando em segundo plano sem ícone no Dock
- Suporte a configurações do usuário: editar o prompt de limpeza, selecionar o microfone e ativar/desativar recursos
Como funciona
- Todos os modelos são baseados em código aberto e, na primeira execução, são baixados automaticamente e armazenados em cache local
- O reconhecimento de voz é feito com WhisperKit, e a limpeza do texto com LLM.swift
- Os arquivos de modelo são fornecidos pelo Hugging Face
-
Modelos de reconhecimento de voz
- Whisper tiny.en (~75MB): modelo somente em inglês mais rápido
- Whisper small.en (~466MB): padrão, modelo somente em inglês com alta precisão
- Whisper small (multilingual): suporte multilíngue
- Parakeet v3 (~1.4GB): suporte a 25 idiomas, baseado em FluidAudio
-
Modelos de limpeza de texto
- Qwen 3.5 0.8B (~535MB): padrão, processamento em cerca de 1–2 segundos
- Qwen 3.5 2B (~1.3GB): velocidade de processamento rápida (cerca de 4–5 segundos)
- Qwen 3.5 4B (~2.8GB): melhor qualidade (cerca de 5–7 segundos)
Instalação e execução
-
Instalação do app
- Baixe GhostPepper.dmg
- Abra o DMG e arraste para a pasta Applications
- Permita as permissões de Microfone e Acessibilidade
- Comece a usar com pressionar a tecla Control e falar
-
Compilação a partir do código-fonte
- Clone o repositório
- Abra
GhostPepper.xcodeprojno Xcode - Compile e execute com Cmd+R
Permissões necessárias
| Permissão | Objetivo |
|---|---|
| Microphone | Gravação de voz |
| Accessibility | Executar atalho global e colagem automática |
Informações adicionais
- A opção de iniciar automaticamente ao fazer login vem ativada por padrão e pode ser desativada nas configurações
- Nenhum log é salvo em disco — o texto convertido não é registrado em arquivo, e os logs de depuração são mantidos apenas na memória e apagados ao encerrar o app
Estrutura técnica e dependências
- WhisperKit: mecanismo de reconhecimento de voz
- LLM.swift: LLM local para limpeza de texto
- Hugging Face: hospedagem de modelos
- Sparkle: gerenciamento de atualizações do app para macOS
Significado do nome
- Todos os modelos rodam apenas localmente, portanto dados pessoais não são enviados para fora
- O nome Ghost Pepper (pimenta extremamente ardida) simboliza recursos poderosos oferecidos gratuitamente
Suporte a empresas e dispositivos gerenciados
- O app exige permissão de Acessibilidade (Accessibility) e, em geral, requer privilégios de administrador
- Em ambientes MDM (Jamf, Kandji, Mosaic etc.), é possível fazer pré-aprovação por meio de um perfil PPPC (Privacy Preferences Policy Control)
- Bundle ID:
com.github.matthartman.ghostpepper - Team ID:
BBVMGXR9AY - Permission: Accessibility (
com.apple.security.accessibility)
- Bundle ID:
1 comentários
Comentários do Hacker News
Este app é realmente muito legal. Mas toda vez que vejo isso, lembro do meu Pixel 6
É um modelo de 2021, mas já faz conversão de voz em texto offline e ainda corrige automaticamente com base no contexto. Se eu continuo falando, ele até revisa as frases anteriores.
Impressiona que o Google tenha colocado essa tecnologia 5 anos antes de Whisper ou Qwen. Então fico me perguntando por que agora é preciso um modelo transformer de 1 GB em plataformas mais potentes
O Google ajudou a treinar esse modelo há cerca de 10 anos, e ele ainda é muito bom.
Ele vem embutido em navegadores baseados em Webkit ou Blink, então vários sites o usam como um frontend simples.
Mas o modelo em si é um blob proprietário, então não há suporte no Firefox
Documentação MDN / Demo do Chrome
Eu estava no time na época, e como não havia equipe de manutenção, abandonamos o modelo offline e migramos para online apenas.
Não foi por motivo técnico, mas simplesmente por falta de pessoal para manutenção
No Android uso Futo e no macOS MacWhisper. São muito melhores que o modelo padrão da Apple
Em compensação, modelos locais de STT open source como Whisper ou Parakeet são muito mais potentes.
Eles sofrem menos com ruído de fundo ou fala resmungada.
Trabalho com Voice AI, então uso esses modelos todos os dias, e a diferença na prática é enorme
O app foi muito bem feito. Como feedback:
primeiro, ele precisa muito de um recurso para colar automaticamente a partir da área de transferência. Seria ótimo não precisar apertar um atalho, ou pelo menos poder configurar isso
segundo, a velocidade é um pouco mais lenta que em outras soluções. Isso afeta bastante a usabilidade
terceiro, seria bom ter controle de formatação. Por exemplo, quando eu disser “new line”, isso deveria ser interpretado como uma quebra de linha real
Esta thread parece um grupo de apoio para pessoas que fizeram seu próprio app de voz→texto para macOS
Adicionei Ghost Pepper recentemente, e você também pode criar um skill.md com os recursos que precisa e montar seu próprio app
Em categorias saturadas assim, é preciso explicar claramente o diferencial em relação aos apps existentes
Post relacionado
KeyVox GitHub
O desempenho fica quase no nível do Wispr Flow, e roda totalmente local
Como usuário de Linux, desenvolvi o Hyprwhspr
Rodando o modelo mais recente Cohere Transcribe na GPU, o desempenho é muito bom.
Fico curioso se alguém comparou o WhisperKit com faster-whisper ou turbov3.
Estou na expectativa de que a Apple lance em breve um STT nativo
Também queria entender por que fizeram um novo projeto em vez de melhorar o já existente
A precisão já era suficiente, então não precisei de modelo de limpeza.
Mas em áudios longos, acima de 30 segundos, a latência fica perceptível. Queria saber como o WhisperKit lida com áudio longo
Você já pensou em suporte a foot pedal PTT (Push-To-Talk)?
A Apple já tem STT, mas a qualidade do modelo ainda deixa a desejar
Speech-to-text é central no meu fluxo de desenvolvimento.
É especialmente útil para ditar prompts para LLMs ou agentes de código.
Reuni as melhores ferramentas open source de entrada por voz para cada plataforma neste repositório no GitHub
Eu digito 120 palavras por minuto, então para mim é bem mais rápido que falar.
Tirando acessibilidade, estou sinceramente curioso se isso é para quem digita devagar ou para quem quer programar largado no sofá
Um app como Handy já não existe?
Valeu por compartilhar. Gosto do foco em velocidade local e privacidade
Eu uso o Hex, que tem objetivos parecidos, e queria saber sua visão sobre as diferenças entre os dois apps
Hoje em dia, à medida que os LLMs local-first ficam menores, isso parece ter tudo para virar a infraestrutura central do desenvolvimento de apps
Como o Electron antigamente facilitou fazer apps bonitos, agora basta sacrificar um pouco de RAM
Blog relacionado
Há muitos projetos ligados ao Whisper, então fico me perguntando se estão falando do modelo antigo da OpenAI ou de uma versão atualizada
Eu uso Parakeet v3, que é pequeno e excelente. Então fico me perguntando por que o Whisper ainda aparece tanto
Ele alucina menos que modelos mais novos e roda facilmente até em GPU AMD.
Eu mesmo portei o Parakeet, mas no fim voltei para o Whisper
Mas eu uso muito polonês e terminologia técnica, então o Whisper v3 funciona melhor para mim
Então a grande vantagem é poder ajustá-lo ao ambiente do sistema
Também conecto um servidor Parakeet ao meu celular com GrapheneOS
Post relacionado
Gostei muito do projeto e quero tentar integrá-lo ao meu fluxo de trabalho.
Só que a frase “oferecido de graça enquanto se compara a um grande AI lab que recebeu US$ 80M em investimento” me incomoda um pouco.
Isso parece menos uma rebeldia e mais uma continuação de pesquisa já existente.
Chamar isso de “spicy” parece um pouco exagerado